Texterkennung (OCR) in der Linux-Kommandozeile

Um in der Linux-Kommandozeile Texterkennung durchzuführen (OCR) habe ich folgende Möglichkeiten gefunden (leider klappen beide bei mir nur mäßig gut…):

Durchsuchbares PDF erstellen mit “pdfsandwich”

sudo apt-get install pdfsandwich

Und dann das PDF einfach bearbeiten mit

pdfsandwich -lang ger meinfile.pdf

oder gleich viele auf einmal z.B. mit

( find . -name '*.pdf' | while read fn ; do pdfsandwich -lang ger "$fn" ; done ) 2>&1 | tee pdfsandwich.out

Das Ergebnis ist ein PDF (oder mehrere), das optisch noch genauso aussieht wie vorher, nun aber 1. durchsuchbar ist und 2. kann man Text per Cut+Paste herauskopieren.

PDFs oder Images direkt durchsuchen

sudo apt-get install ocrad

Und dann bekomment man so den Inhalt als UTF-8-Ascii:

gs -sPAPERSIZE=a4 -sDEVICE=pnmraw -r300 -dNOPAUSE -dBATCH -sOutputFile=- -q meinfile.[pdf|jpg|...] | ocrad -c iso-8859-15 | recode iso-8859-15..utf-8

…und mit | grep suchstring hinten dran z.B. gleichdurchsuchbar.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.