Ratgeber
Ratgeber: PDF, OCR, Encoding und Recht
Das Tool konvertiert PDF-Dateien lokal im Browser per PDF.js (eingebetteter Text) und Tesseract.js (OCR für gescannte Seiten) zu TXT. Diese Ratgeber zeigen, warum die Datei den Browser nicht verlässt, wie die beiden Engines technisch arbeiten, was UTF-8 gegenüber Latin-1 für Excel und Legacy-Systeme bedeutet und was DSGVO und UrhG bei einer lokalen Text-Extraktion verlangen. Sachlich, mit Quellen, ohne Werbe-Sprech.
- 7 Min. Lesezeit
Encoding für TXT: UTF-8, BOM, ISO-8859-1, Windows-1252
Eine TXT-Datei ist nicht einfach Text, sie ist eine Byte-Sequenz mit einer impliziten Encoding-Annahme. Wer aus einem PDF Umlaute extrahiert und sie in einer TXT-Datei speichert, muss eine bewusste Encoding-Wahl treffen. Hier steht, was UTF-8, UTF-8 mit BOM, ISO-8859-1 und Windows-1252 sind, warum Excel manchmal Mojibake zeigt und was passiert wenn ein Emoji in einer Latin-1-Datei landen muss.
Artikel lesen
- 7 Min. Lesezeit
PDF.js (Mozilla): wie Text-Extraktion im Browser funktioniert
PDF.js ist die JavaScript-Implementierung des PDF-Renderers, die Mozilla seit 2011 pflegt und in Firefox als Standard-PDF-Reader ausliefert. Auf pdftxt.de übernimmt PDF.js den ersten Schritt der Konvertierung: eingebetteten Text aus regulären PDFs lesen, im Browser, ohne Server. Hier steht, wie die Pipeline technisch aussieht, was getTextContent liefert und wo die Grenzen sind.
Artikel lesen
- 7 Min. Lesezeit
Tesseract.js: WASM-OCR im Browser für gescannte PDFs
Tesseract ist seit 2005 die de-facto-Standard-OCR-Engine der Open-Source-Welt. HP entwickelte sie ab 1985, gab sie später an Google, das sie als Open-Source-Projekt weiterpflegt. Tesseract.js ist der WebAssembly-Port, der die gesamte Engine im Browser laufen lässt, ohne Server, ohne Plugin. Hier steht, wie pdftxt.de Tesseract.js für gescannte PDFs nutzt, wie das Sprachmodell geladen wird und welche Accuracy man realistisch erwarten kann.
Artikel lesen
- 7 Min. Lesezeit
Die PDF-Geschichte: Adobe 1993 bis ISO 32000-2:2020
PDF ist heute das am häufigsten verwendete Dokumentenformat der Welt. Hinter den drei Buchstaben steckt eine 30-jährige Geschichte, die mit John Warnocks Camelot-Projekt 1991 beginnt, über die Acrobat-1.0-Veröffentlichung 1993 führt und 2008 in der Open-Standardisierung als ISO 32000 endet. Hier steht, wer das PDF gebaut hat, warum es PostScript-Erbe trägt und wie sich die Spec von Version 1.0 bis 2.0 entwickelt hat.
Artikel lesen
- 7 Min. Lesezeit
PDF vs DOCX vs Markdown: welches Format wann
PDF, DOCX und Markdown sind die drei dominanten Text-Formate des digitalen Büro-Alltags. PDF ist druckgenau und schwer editierbar, DOCX ist editierbar mit voller Layout-Logik, Markdown ist plain text mit minimaler Syntax. Jedes Format hat seine Domäne. Hier steht, was technisch dahintersteckt, wann welches richtig ist und warum die TXT-Extraktion aus PDF oft die richtige Brücke zu DOCX oder Markdown ist.
Artikel lesen
- 7 Min. Lesezeit
Tabellen aus PDFs extrahieren: warum es so schwer ist
Tabellen aus PDFs zu extrahieren ist eine eigene Disziplin der Dokumenten-Analyse. Das liegt daran, dass PDF Tabellen nicht als Tabellen speichert, sondern als zufällig benachbarte Text-Items. Hier steht, warum das so ist, welche Tools (Camelot, Tabula, pdfplumber) den Job machen können und warum pdftxt.de bewusst keine strukturierte Tabellen-Extraktion macht.
Artikel lesen
- 8 Min. Lesezeit
Urheberrecht bei PDF-Text-Extraktion: was darf ich?
Wer ein PDF mit fremdem Inhalt zu TXT konvertiert, berührt das deutsche Urheberrecht. Welche Paragraphen sind relevant, was sagt die Privatkopie-Schranke, was sind die Schranken für Bildung und Wissenschaft? Hier steht, was § 16, § 23, § 53 UrhG sagen, wo die Schöpfungshöhe-Schwelle liegt und warum eine client-seitige Konvertierung in der Regel rechtlich entspannt ist.
Artikel lesen
- 7 Min. Lesezeit
DSGVO bei client-only OCR: Art. 6 lit. f und kein DPA
Eine OCR-Verarbeitung von PDFs ist DSGVO-relevant, weil PDFs personenbezogene Daten enthalten können (Namen in Verträgen, Patientendaten in Arztbriefen, Steuernummern in Bescheiden). Bei client-only OCR im Browser ist die DSGVO-Lage anders als bei Server-OCR. Hier steht, warum, welche Rechtsgrundlage greift und warum kein Auftragsverarbeitungsvertrag mit dem Anbieter erforderlich ist.
Artikel lesen
Zurück zum Tool
PDF jetzt konvertieren?
PDF per Drag-and-Drop in das Feld ziehen, Encoding und Seitenbereich wählen, Text-Vorschau prüfen und herunterladen oder kopieren. Alles lokal im Browser, ohne Upload, ohne Anmeldung.
Zum PDF-zu-TXT-KonverterKorrekturen
Etwas falsch in einem Ratgeber?
Wir machen Fehler. Wenn dir einer auffällt, schreib direkt an info@akara-solutions.de. Bestätigte Korrekturen dokumentieren wir öffentlich unter Korrekturen.