プログラムを中心とした個人的なメモ用のブログです。 タイトルは迷走中。
内容の保証はできませんのであしからずご了承ください。

2021/06/29

[python] Tesseract を使った OCR

update2021/08/13 event_note2021/06/28 23:47

最も基本的なコードのメモです。

pyocr を使ったサンプル

from PIL import Image
import pyocr
 
# OCR エンジンの取得
tools = pyocr.get_available_tools()
tool = tools[0] # 今回は Tesseract しかないので、0番目に入っている

# ビルダーの作成
builder = pyocr.builders.TextBuilder(tesseract_layout=6) # デフォルト値は3

#OCR対象の画像ファイルを読み込む
img = Image.open("test.jpg")
 
#画像から文字を読み込む
result = tool.image_to_string(img, lang="jpn", builder=builder)
 
print(result)

pytesseract を使ったサンプル

from PIL import Image
import pytesseract

# pytesseract を使ったサンプル
 
#OCR対象の画像ファイルを読み込む
img = Image.open("test.jpg")
 
#画像から文字を読み込む
result = pytesseract.image_to_string(img, lang="jpn")
 
print(result)