Ratgeber

Ratgeber: PDF, OCR, Encoding und Recht

Das Tool konvertiert PDF-Dateien lokal im Browser per PDF.js (eingebetteter Text) und Tesseract.js (OCR für gescannte Seiten) zu TXT. Diese Ratgeber zeigen, warum die Datei den Browser nicht verlässt, wie die beiden Engines technisch arbeiten, was UTF-8 gegenüber Latin-1 für Excel und Legacy-Systeme bedeutet und was DSGVO und UrhG bei einer lokalen Text-Extraktion verlangen. Sachlich, mit Quellen, ohne Werbe-Sprech.

10.06.2026 7 Min. Lesezeit

Encoding für TXT: UTF-8, BOM, ISO-8859-1, Windows-1252

Eine TXT-Datei ist nicht einfach Text, sie ist eine Byte-Sequenz mit einer impliziten Encoding-Annahme. Wer aus einem PDF Umlaute extrahiert und sie in einer TXT-Datei speichert, muss eine bewusste Encoding-Wahl treffen. Hier steht, was UTF-8, UTF-8 mit BOM, ISO-8859-1 und Windows-1252 sind, warum Excel manchmal Mojibake zeigt und was passiert wenn ein Emoji in einer Latin-1-Datei landen muss.

Artikel lesen
10.06.2026 7 Min. Lesezeit

PDF.js (Mozilla): wie Text-Extraktion im Browser funktioniert

PDF.js ist die JavaScript-Implementierung des PDF-Renderers, die Mozilla seit 2011 pflegt und in Firefox als Standard-PDF-Reader ausliefert. Auf pdftxt.de übernimmt PDF.js den ersten Schritt der Konvertierung: eingebetteten Text aus regulären PDFs lesen, im Browser, ohne Server. Hier steht, wie die Pipeline technisch aussieht, was getTextContent liefert und wo die Grenzen sind.

Artikel lesen
10.06.2026 7 Min. Lesezeit

Tesseract.js: WASM-OCR im Browser für gescannte PDFs

Tesseract ist seit 2005 die de-facto-Standard-OCR-Engine der Open-Source-Welt. HP entwickelte sie ab 1985, gab sie später an Google, das sie als Open-Source-Projekt weiterpflegt. Tesseract.js ist der WebAssembly-Port, der die gesamte Engine im Browser laufen lässt, ohne Server, ohne Plugin. Hier steht, wie pdftxt.de Tesseract.js für gescannte PDFs nutzt, wie das Sprachmodell geladen wird und welche Accuracy man realistisch erwarten kann.

Artikel lesen
09.06.2026 7 Min. Lesezeit

Die PDF-Geschichte: Adobe 1993 bis ISO 32000-2:2020

PDF ist heute das am häufigsten verwendete Dokumentenformat der Welt. Hinter den drei Buchstaben steckt eine 30-jährige Geschichte, die mit John Warnocks Camelot-Projekt 1991 beginnt, über die Acrobat-1.0-Veröffentlichung 1993 führt und 2008 in der Open-Standardisierung als ISO 32000 endet. Hier steht, wer das PDF gebaut hat, warum es PostScript-Erbe trägt und wie sich die Spec von Version 1.0 bis 2.0 entwickelt hat.

Artikel lesen
08.06.2026 7 Min. Lesezeit

PDF vs DOCX vs Markdown: welches Format wann

PDF, DOCX und Markdown sind die drei dominanten Text-Formate des digitalen Büro-Alltags. PDF ist druckgenau und schwer editierbar, DOCX ist editierbar mit voller Layout-Logik, Markdown ist plain text mit minimaler Syntax. Jedes Format hat seine Domäne. Hier steht, was technisch dahintersteckt, wann welches richtig ist und warum die TXT-Extraktion aus PDF oft die richtige Brücke zu DOCX oder Markdown ist.

Artikel lesen
07.06.2026 7 Min. Lesezeit

Tabellen aus PDFs extrahieren: warum es so schwer ist

Tabellen aus PDFs zu extrahieren ist eine eigene Disziplin der Dokumenten-Analyse. Das liegt daran, dass PDF Tabellen nicht als Tabellen speichert, sondern als zufällig benachbarte Text-Items. Hier steht, warum das so ist, welche Tools (Camelot, Tabula, pdfplumber) den Job machen können und warum pdftxt.de bewusst keine strukturierte Tabellen-Extraktion macht.

Artikel lesen
06.06.2026 8 Min. Lesezeit

Urheberrecht bei PDF-Text-Extraktion: was darf ich?

Wer ein PDF mit fremdem Inhalt zu TXT konvertiert, berührt das deutsche Urheberrecht. Welche Paragraphen sind relevant, was sagt die Privatkopie-Schranke, was sind die Schranken für Bildung und Wissenschaft? Hier steht, was § 16, § 23, § 53 UrhG sagen, wo die Schöpfungshöhe-Schwelle liegt und warum eine client-seitige Konvertierung in der Regel rechtlich entspannt ist.

Artikel lesen
05.06.2026 7 Min. Lesezeit

DSGVO bei client-only OCR: Art. 6 lit. f und kein DPA

Eine OCR-Verarbeitung von PDFs ist DSGVO-relevant, weil PDFs personenbezogene Daten enthalten können (Namen in Verträgen, Patientendaten in Arztbriefen, Steuernummern in Bescheiden). Bei client-only OCR im Browser ist die DSGVO-Lage anders als bei Server-OCR. Hier steht, warum, welche Rechtsgrundlage greift und warum kein Auftragsverarbeitungsvertrag mit dem Anbieter erforderlich ist.

Artikel lesen

Zurück zum Tool

PDF jetzt konvertieren?

PDF per Drag-and-Drop in das Feld ziehen, Encoding und Seitenbereich wählen, Text-Vorschau prüfen und herunterladen oder kopieren. Alles lokal im Browser, ohne Upload, ohne Anmeldung.

Zum PDF-zu-TXT-Konverter

Korrekturen

Etwas falsch in einem Ratgeber?

Wir machen Fehler. Wenn dir einer auffällt, schreib direkt an info@akara-solutions.de. Bestätigte Korrekturen dokumentieren wir öffentlich unter Korrekturen.

Ratgeber: PDF, OCR, Encoding und Recht

Encoding für TXT: UTF-8, BOM, ISO-8859-1, Windows-1252

PDF.js (Mozilla): wie Text-Extraktion im Browser funktioniert

Tesseract.js: WASM-OCR im Browser für gescannte PDFs

Die PDF-Geschichte: Adobe 1993 bis ISO 32000-2:2020

PDF vs DOCX vs Markdown: welches Format wann

Tabellen aus PDFs extrahieren: warum es so schwer ist

Urheberrecht bei PDF-Text-Extraktion: was darf ich?

DSGVO bei client-only OCR: Art. 6 lit. f und kein DPA

PDF jetzt konvertieren?

Etwas falsch in einem Ratgeber?