Follow

Kann mir jemand eine gute OCR Software für Linux empfehlen, die ganze Ordner nach PDF ohne OCR-Layer durchsucht und bei denen dann einen Scan/Overlay durchführt?

@DecaTec
Danke für den Tipp! Sowas habe ich schon mal erfolglos gesucht. Nun einfach dies und das deutsche Sprachpaket tesseract-ocr-deu nachgezogen und schon klappt das. Fein!
@stardenver

@stardenver schau mal bei meinem privaten github profil oder beim bitleaf account auf github, dort hab ich das mal gebaut.

@stardenver Ich nutze dafür PDFSandwich (tobias-elze.de/pdfsandwich/). Ist im Standard-Repo enthalten. Macht gute "Sandwiches". Ob es auch nach "PDFs ohne Belag" suchen kann, habe ich allerdings nie probiert…

Nutzt Tesseract für OCR, btw.

@stardenver

Bin ebenfalls bei #ocrmypdf gelandet (für einzelne PDFs, aber lässt sich ja scripten). Normalerweise überspringt es OCR, wenn schon ein Textlayer vorhanden ist.

Was ich besonders mag ist auch die Option, den Inhalt per #pngquant verlustbehaftet zu komprimieren, falls das installiert ist.

@Mr_Teatime Vielen Dank für den Tipp. Werde jetzt mal installieren und ausprobieren.

Sign in to participate in the conversation
Mastodon

Server run by the main developers of the project 🐘 It is not focused on any particular niche interest - everyone is welcome as long as you follow our code of conduct!