Um in der Linux-Kommandozeile Texterkennung durchzuführen (OCR) habe ich folgende Möglichkeiten gefunden (leider klappen beide bei mir nur mäßig gut…):
Durchsuchbares PDF erstellen mit „pdfsandwich“
sudo apt-get install pdfsandwich
Und dann das PDF einfach bearbeiten mit
pdfsandwich -lang ger meinfile.pdf
oder gleich viele auf einmal z.B. mit
( find . -name '*.pdf' | while read fn ; do pdfsandwich -lang ger "$fn" ; done ) 2>&1 | tee pdfsandwich.out
Das Ergebnis ist ein PDF (oder mehrere), das optisch noch genauso aussieht wie vorher, nun aber 1. durchsuchbar ist und 2. kann man Text per Cut+Paste herauskopieren.
PDFs oder Images direkt durchsuchen
sudo apt-get install ocrad
Und dann bekomment man so den Inhalt als UTF-8-Ascii:
gs -sPAPERSIZE=a4 -sDEVICE=pnmraw -r300 -dNOPAUSE -dBATCH -sOutputFile=- -q meinfile.[pdf|jpg|...] | ocrad -c iso-8859-15 | recode iso-8859-15..utf-8
…und mit | grep suchstring
hinten dran z.B. gleichdurchsuchbar.