Texterkennung (OCR) in der Linux-Kommandozeile

Um in der Linux-Kommandozeile Texterkennung durchzuführen (OCR) habe ich folgende Möglichkeiten gefunden (leider klappen beide bei mir nur mäßig gut…): Durchsuchbares PDF erstellen mit “pdfsandwich” sudo apt-get install pdfsandwich Und dann das PDF einfach bearbeiten mit pdfsandwich -lang ger meinfile.pdf oder gleich viele auf einmal z.B. mit ( find . -name ‘*.pdf’ | while read Read More…

PDFs: Seitenreihenfolge umkehren

“pdftk” ist ein mächtiges Kommonadozeilen-PDF-Bearbeitungstool (siehe manpage oder pdftk-home). Mein aktueller Anwendungfall war, dass ich die Seitenreihenfolge von PDFs umdrehen möchte, also die letzte als erstes, die vorletzte als zweites usw. Mit pdftk geht das so: pdftk input.pdf cat end-1 output output.pdf Oder als Script, das die Datei “in-place” ersetzt: #!/bin/bash # # Kehrt die Read More…