PDF vs DOCX vs Markdown: welches Format wann
PDF, DOCX und Markdown sind die drei dominanten Text-Formate des digitalen Büro-Alltags. PDF ist druckgenau und schwer editierbar, DOCX ist editierbar mit voller Layout-Logik, Markdown ist plain text mit minimaler Syntax. Jedes Format hat seine Domäne. Hier steht, was technisch dahintersteckt, wann welches richtig ist und warum die TXT-Extraktion aus PDF oft die richtige Brücke zu DOCX oder Markdown ist.
Redakteur · PDF-Format-Historie & ISO-32000-Standards
Veröffentlicht am 08.06.2026 · Zuletzt geprüft am 08.06.2026
Drei Formate, drei Designziele
PDF, DOCX und Markdown sind die drei dominanten Text-Formate im digitalen Büro. Sie haben unterschiedliche Designziele und unterschiedliche Anwendungsdomänen:
- PDF: druckgenau, finale Repräsentation, schwer editierbar
- DOCX: voll-editierbar, layoutreich, Office-Welt
- Markdown: plain text mit minimaler Syntax, leicht zu lesen, leicht zu generieren
Wer diese Designziele versteht, kann das richtige Format für den richtigen Zweck wählen. Wer das nicht versteht, schickt PDF-Verträge als editierbare Word-Dokumente und wundert sich, warum die Empfängerin das Dokument geaendert zurückschickt.
PDF: das Format für fertige Dokumente
PDF wurde 1993 von Adobe entwickelt mit dem Ziel, ein Dokument plattformunabhängig und druckgenau darzustellen. Die zentrale Architekturentscheidung: das Layout wird direkt gespeichert, nicht aus einer Logik berechnet. Im PDF stehen konkrete Anweisungen wie zeichne Glyph U+0041 an Position (123.45, 678.90) mit Schrift Times-Roman 12pt. Es gibt keinen Begriff von Absatz oder Zeile auf logischer Ebene, das Dokument ist eine Sequenz von Zeichen- und Linien-Befehlen.
Diese Architektur macht PDF perfekt für:
- Druck-Workflows: das gedruckte Dokument sieht genauso aus wie auf dem Bildschirm
- Verträge: das Layout ist eingefroren, niemand kann unbemerkt etwas ändern
- Archivierung: PDF/A garantiert, dass das Dokument in 20 Jahren noch lesbar ist
- Behörden-Formulare: das Layout ist verbindlich, der Behörden-Mitarbeiter sieht das Gleiche wie der Bürger
Aber sie macht PDF schwer für:
- Editieren: jede Aenderung muss das Layout neu berechnen, das ist kompliziert
- Mass-Production aus Daten: PDFs aus einem CRM erzeugen geht, ist aber langsam (LaTeX, wkhtmltopdf, PDFKit)
- Maschinen-Lesbarkeit: ohne PDF/UA-Tags ist die logische Struktur (Headlines, Absätze, Listen) nicht extrahierbar
- Volltextsuche: nur über Heuristiken, die nicht immer zuverlässig sind
DOCX: das Format für Office-Workflows
DOCX wurde 2006 von Microsoft als Nachfolger des proprietären .doc-Formats eingeführt und 2008 als ISO/IEC 29500 standardisiert (Office Open XML, OOXML). Eine DOCX-Datei ist technisch ein ZIP-Archiv mit XML-Dateien drin, das macht sie maschinenlesbar und manipulierbar.
Die zentrale Architektur-Entscheidung von DOCX: das Dokument wird als logische Hierarchie gespeichert. Es gibt Paragraphen (<w:p>), Runs (<w:r>, Text mit gleichen Formatierungs-Attributen), Tabellen (<w:tbl>), Listen, Stylesheets. Das Layout wird zur Anzeige aus dieser Logik berechnet.
Das macht DOCX gut für:
- Editieren: Aenderungen sind logisch (Text einfügen, Absatz teilen, Tabelle erweitern)
- Templating: Templates mit Platzhaltern und programmatische Befüllung (Briefe, Rechnungen)
- Style-Inheritance: Aenderung an einem Style ändert das gesamte Dokument konsistent
- Strukturelle Extraktion: Headlines, Listen, Tabellen sind eindeutig markiert
Und nicht so gut für:
- Layout-Garantien: zwei Word-Versionen können ein DOCX leicht unterschiedlich rendern, vor allem bei eingebetteten Fonts oder Mac-Word vs Windows-Word
- Verträge: editierbar, also nicht vertragssicher ohne digitale Signatur
- Lange Archivierung: ein DOCX in 30 Jahren öffnen ist nicht garantiert, weil OOXML-Tools möglicherweise nicht mehr existieren
Markdown: das Format für Plain-Text mit Struktur
Markdown wurde 2004 von John Gruber (Daring Fireball) als leichte Syntax für strukturierten Plain-Text entwickelt. Die Designziele: lesbar im Source-Code, schnell zu schreiben, in HTML konvertierbar.
Markdown ist plain text mit einer kleinen Sammlung von Konventionen:
# Headlinefür Headlines*kursiv*und**fett**für Hervorhebungen- Punktfür Listen[Text](url)für Links- Backticks für Code
Was Markdown auszeichnet: es ist ohne Renderer lesbar. Du öffnest eine .md-Datei in Notepad und siehst sofort, was Headlines, Listen und Links sind. Das ist anders als bei HTML (wo die Tags überhand nehmen) und anders als bei DOCX (wo der Source vollkommen unlesbar ist).
CommonMark (https://commonmark.org/) ist die formale Standardisierung der Markdown-Syntax, veröffentlicht 2014 und seitdem mehrfach aktualisiert (Stand: 0.31). GitHub Flavored Markdown erweitert CommonMark um Tabellen, Task-Lists und Code-Blocks mit Sprachen-Annotation.
Markdown ist ideal für:
- Doku in Repositories: README, CHANGELOG, Doku-Sites (Docusaurus, MkDocs)
- Notizen-Apps: Obsidian, Notion-Export, Bear, iA Writer
- Statisches Web: Hugo, Astro, Eleventy, Next.js MDX
- Schnelle Drafts: jeder, der oft schreibt, schreibt heute oft in Markdown
Nicht ideal für:
- Komplexes Layout: keine Spalten, keine Absatz-Kontrolle, keine Drop-Caps
- Mathematik: nur über Extensions wie KaTeX oder MathJax, nicht im Standard
- Verträge und Office-Doku: zu informell, zu wenig Layout-Garantie
Format-Entscheidungsmatrix
<rect x="30" y="50" width="200" height="120" rx="8" fill="#dbeafe" stroke="#1e3a8a" stroke-width="2"/>
<text class="label" x="130" y="74">PDF</text>
<text class="small" x="130" y="94">Verträge</text>
<text class="small" x="130" y="110">Druck-Vorlage</text>
<text class="small" x="130" y="126">Behörden-Formular</text>
<text class="small" x="130" y="142">Archiv (PDF/A)</text>
<text class="small" x="130" y="158">Final-Lieferung</text>
<rect x="260" y="50" width="200" height="120" rx="8" fill="#bfdbfe" stroke="#1e3a8a" stroke-width="2"/>
<text class="label" x="360" y="74">DOCX</text>
<text class="small" x="360" y="94">Office-Briefe</text>
<text class="small" x="360" y="110">Rechnungen-Templates</text>
<text class="small" x="360" y="126">Mitarbeiter-Doku</text>
<text class="small" x="360" y="142">Diplomarbeit</text>
<text class="small" x="360" y="158">Editierbare Berichte</text>
<rect x="490" y="50" width="200" height="120" rx="8" fill="#e0f2fe" stroke="#0369a1" stroke-width="2"/>
<text class="label" x="590" y="74">Markdown</text>
<text class="small" x="590" y="94">README, Doku</text>
<text class="small" x="590" y="110">Notizen</text>
<text class="small" x="590" y="126">Blog-Posts</text>
<text class="small" x="590" y="142">Wikis</text>
<text class="small" x="590" y="158">Code-Dokumentation</text>
<rect x="30" y="200" width="660" height="80" rx="8" fill="#eff6ff" stroke="#bfdbfe" stroke-width="2"/>
<text class="label" x="360" y="224">TXT-Extraktion (pdftxt.de) ist die Brücke</text>
<text class="small" x="360" y="244">PDF -> TXT -> weitere Verarbeitung in DOCX, Markdown, KI-Tools</text>
<text class="small" x="360" y="260">Reduziert das Layout-Format auf reinen Inhalt, der dann ins Ziel-Format gehen kann</text>
In der Praxis:
- PDF: Verträge, Druck-Vorlagen, Behörden-Formulare, Archivierung, Final-Lieferungen an Kunden
- DOCX: Office-Briefe, Rechnungs-Templates, Mitarbeiter-Doku, editierbare Berichte
- Markdown: README in Git-Repos, technische Doku, Blog-Posts, Wikis, Notizen
Warum TXT-Extraktion oft die Brücke ist
Wer ein PDF in DOCX oder Markdown konvertieren will, hat zwei Optionen: eine direkte Format-zu-Format-Konvertierung (Adobe Acrobat, LibreOffice, Pandoc) oder den Umweg über Plain-Text.
Die direkte Konvertierung versucht, das Layout zu erhalten, also Headlines, Absätze, Tabellen, Listen rückzugewinnen. Das ist mit Heuristiken machbar, aber selten perfekt. Adobe Acrobat ist hier am besten, kostet aber jährlich. LibreOffice und Pandoc liefern oft ausreichend, aber nicht immer.
Der Umweg über Plain-Text ist pragmatisch und oft die richtige Wahl, wenn:
- du den Text inhaltlich weiterverarbeiten willst (KI-Tool, Indexing, Search)
- das Original-Layout nicht wichtig ist (Inhaltsanalyse, Volltext-Suche)
- du die Struktur ohnehin in DOCX oder Markdown neu aufbauen wirst
Genau das ist der Use-Case für pdftxt.de. Du bekommst den reinen Inhalt aus dem PDF, kannst ihn editieren (in der Vorschau-Textarea direkt im Tool), und dann in dein Ziel-Format überführen. Markdown-Editor, Word, KI-Tool, jeder Workflow akzeptiert TXT als Eingabe.
Was bleibt vom Format-Vergleich
Es gibt nicht das eine richtige Format. Es gibt für jeden Anwendungsfall ein passendes Format und ein passendes Werkzeug. PDF für fertige Lieferungen, DOCX für Office-Workflows, Markdown für plain-text-Doku.
Wer PDF in DOCX oder Markdown bringen will, hat zwei Wege: direkte Konvertierung (mit Layout-Erhaltung, aber Heuristik-abhängig) oder den Umweg über TXT (reiner Inhalt, dann manuell neu strukturieren). pdftxt.de macht den zweiten Weg, weil er für viele Anwendungsfälle (KI-Verarbeitung, Volltext-Indexierung, manuelle Strukturierung) der bessere ist.
Was bleibt: bewusst das Format wählen, das zum Anwendungsfall passt. Nicht PDF nehmen, weil man immer PDF nimmt. Nicht DOCX nehmen, weil das Default-Format in Office ist. Format-Wahl ist Werkzeug-Wahl, und gute Werkzeuge sind zweckgebunden.
FAQ
Häufige Fragen
Welches Format ist das beste für Verträge?
PDF, mit digitaler Signatur (PAdES-Standard). PDF garantiert, dass das Layout auf jedem Gerät gleich aussieht, Schriften sind eingebettet, das Dokument ist nicht versehentlich editierbar. Mit einer qualifizierten digitalen Signatur (QES, eIDAS) ist der Vertrag rechtsverbindlich. Word-Dokumente sind für Verträge ungeeignet, weil sie editierbar sind und Layout-Unterschiede zwischen Word-Versionen die Lesbarkeit beeinflussen.
Welches Format ist das beste für wissenschaftliche Papers?
Das hängt von der Phase ab. Während des Schreibens: LaTeX-Source (Plain-Text mit TeX-Syntax) oder ein Editor wie Overleaf. Für die Einreichung bei Journals: PDF, weil das Journal das Layout fixieren will. Für die Open-Access-Publikation: oft sowohl PDF als auch ein strukturiertes Format wie JATS-XML, das maschinenlesbar ist. Markdown wird in der Wissenschaft selten als Final-Format genutzt, für Drafts und Notizen aber sehr verbreitet.
Wie konvertiere ich von Markdown zu PDF?
Mit Pandoc, einem Open-Source-Tool, das fast jedes Dokument-Format in jedes andere konvertieren kann. Pandoc + LaTeX-Backend gibt sehr saubere PDFs. Pandoc + HTML/CSS-Backend gibt einfache PDFs. Für normale Use-Cases (README, Doku, Berichte) reicht oft auch ein Markdown-Editor mit PDF-Export, z.B. Typora, Obsidian-Plugin oder VS Code mit dem Markdown-PDF-Plugin.
Wieso ist PDF schwer in DOCX zu konvertieren?
Weil DOCX eine andere Beschreibungs-Logik hat. DOCX speichert das Dokument als logische Hierarchie (Paragraphs, Runs, Tabellen, Listen), aus der das Layout berechnet wird. PDF speichert das Layout direkt (Glyph-Positionen, Linien-Koordinaten), aus dem die Logik nur über Heuristiken zurückgewonnen werden kann. Eine sehr gute PDF-zu-DOCX-Konvertierung muss raten, wo Absatz-Grenzen sind, was eine Liste ist, was eine Tabelle ist. Adobe Acrobat macht das überraschend gut, kostenlose Tools wie LibreOffice merklich schlechter.
Was sind die wichtigsten Markdown-Dialekte?
CommonMark (https://commonmark.org/) ist die formale Standardisierung der Markdown-Syntax, veröffentlicht 2014. GitHub Flavored Markdown (GFM) erweitert CommonMark um Tabellen, Task-Lists, Strike-Through und einige andere Features. Beide sind weitgehend kompatibel. MultiMarkdown und Pandoc-Markdown sind weitere Dialekte mit zusätzlichen Features (Fussnoten, Zitate, mathematische Formeln). Im Zweifel: CommonMark + GFM ist der pragmatische Standard.
Quellen
Weitere Ratgeber