OpenCVとTesseract-OCRで作る表のOCRツール

2020/10/23 categories:Python| tags:Python|OpenCV|Tesseract-OCR|

OCRツールRev1としてアップデートしました。 2021/4/6

PNG画像やPDFをOpenCVで表のセルの位置を認識して、認識したセルをTesseract-OCRでOCRツールを作ってみました。

ファイルを開く

Openをクリックしてファイルを選択するとファイルを開けます。対応しているファイルはPNGとPDFです。

表のFile nameをクリックすると画像が表示されて、マウスホイールを回して拡大縮小して、マウスホイールクリックでドラッグすると表示位置を変えられます。

Recognizeをクリックすると画像から表のセルを認識して画像上に表示します。右側のRectxxをクリックすると選択したセルの位置を赤枠で表示します。

Split by rectsをクリックすると選択したファイルの画像をセルごとに分割します。

Draw rectをクリックして画像内をドラッグすると分割するエリアを手入力できます。

OCRをクリックすると、ファイルの表内に表示されているrectxの列の画像をOCRして、結果をrectx_textの列に表示します。

githubにアップロードしました