Anwendungsfall

Gescannte Vertraege und Faxe mit OCR zu Plain-Text

Alte Vertraege als eingescannte PDFs oder Faxe sind nicht durchsuchbar — pdftxt.de aktiviert per Klick OCR (Tesseract.js client-only) und extrahiert den Text aus den Scans. Datei verlaesst den Browser nicht.

Empfohlene Einstellungen

Encoding utf-8 · mergeLines=false

OCR-Toggle aktivieren bei gescannten Vertraegen. Sprache Deutsch oder Deutsch+Englisch.

Anzeige

Typische Anwendungen

  • Alter Miet-Vertrag aus Papierform zur digitalen Suche
  • Eingescannte Arbeitszeugnisse fuer Karriere-Doku
  • Fax-Eingang aus Versicherungs-Korrespondenz in Plain-Text
  • Behoerden-Scans aus dem Archiv durchsuchbar machen

Best Practices

  • OCR-Sprache Deutsch+Englisch bei gemischtsprachigen Vertraegen
  • Bei schlechtem Scan-Quality (verwackelt, schief): erst PDF mit Adobe oder Smallpdf entzerren
  • Tesseract erreicht ~80-95% Accuracy bei klarem Standardtext, niedriger bei alten Schreibmaschinen-Schriften
  • Bei hochsensiblen Vertraegen: client-only OCR bedeutet kein DPA mit OCR-Anbieter noetig — Compliance-Plus

Jetzt konvertieren

Verarbeitung im BrowserKostenlosBis 10 MB

PDF-Datei hierher ziehen oder klicken

Bis 10 MB · Kein Account · Kostenlos · Verarbeitung im Browser

Anzeige
Anzeige
Anzeige
Anzeige