Anwendungsfall
Gescannte Vertraege und Faxe mit OCR zu Plain-Text
Alte Vertraege als eingescannte PDFs oder Faxe sind nicht durchsuchbar — pdftxt.de aktiviert per Klick OCR (Tesseract.js client-only) und extrahiert den Text aus den Scans. Datei verlaesst den Browser nicht.
Empfohlene Einstellungen
Encoding utf-8 · mergeLines=false
OCR-Toggle aktivieren bei gescannten Vertraegen. Sprache Deutsch oder Deutsch+Englisch.
Anzeige
Anzeige
Typische Anwendungen
- Alter Miet-Vertrag aus Papierform zur digitalen Suche
- Eingescannte Arbeitszeugnisse fuer Karriere-Doku
- Fax-Eingang aus Versicherungs-Korrespondenz in Plain-Text
- Behoerden-Scans aus dem Archiv durchsuchbar machen
Best Practices
- OCR-Sprache Deutsch+Englisch bei gemischtsprachigen Vertraegen
- Bei schlechtem Scan-Quality (verwackelt, schief): erst PDF mit Adobe oder Smallpdf entzerren
- Tesseract erreicht ~80-95% Accuracy bei klarem Standardtext, niedriger bei alten Schreibmaschinen-Schriften
- Bei hochsensiblen Vertraegen: client-only OCR bedeutet kein DPA mit OCR-Anbieter noetig — Compliance-Plus
Jetzt konvertieren
Verarbeitung im BrowserKostenlosBis 10 MBKein Konto
PDF-Datei hierher ziehen oder klicken
Bis 10 MB · Kein Account · Kostenlos · Verarbeitung im Browser