PDF vs DOCX vs Markdown: welches Format wann

PDF, DOCX und Markdown sind die drei dominanten Text-Formate des digitalen Büro-Alltags. PDF ist druckgenau und schwer editierbar, DOCX ist editierbar mit voller Layout-Logik, Markdown ist plain text mit minimaler Syntax. Jedes Format hat seine Domäne. Hier steht, was technisch dahintersteckt, wann welches richtig ist und warum die TXT-Extraktion aus PDF oft die richtige Brücke zu DOCX oder Markdown ist.

7 Min. Lesezeit 1.215 Wörter
Jan-Tristan Rudat

Von Jan-Tristan Rudat

Redakteur · PDF-Format-Historie & ISO-32000-Standards

Veröffentlicht am 08.06.2026 · Zuletzt geprüft am 08.06.2026

Drei Formate, drei Designziele

PDF, DOCX und Markdown sind die drei dominanten Text-Formate im digitalen Büro. Sie haben unterschiedliche Designziele und unterschiedliche Anwendungsdomänen:

  • PDF: druckgenau, finale Repräsentation, schwer editierbar
  • DOCX: voll-editierbar, layoutreich, Office-Welt
  • Markdown: plain text mit minimaler Syntax, leicht zu lesen, leicht zu generieren

Wer diese Designziele versteht, kann das richtige Format für den richtigen Zweck wählen. Wer das nicht versteht, schickt PDF-Verträge als editierbare Word-Dokumente und wundert sich, warum die Empfängerin das Dokument geaendert zurückschickt.

PDF: das Format für fertige Dokumente

PDF wurde 1993 von Adobe entwickelt mit dem Ziel, ein Dokument plattformunabhängig und druckgenau darzustellen. Die zentrale Architekturentscheidung: das Layout wird direkt gespeichert, nicht aus einer Logik berechnet. Im PDF stehen konkrete Anweisungen wie zeichne Glyph U+0041 an Position (123.45, 678.90) mit Schrift Times-Roman 12pt. Es gibt keinen Begriff von Absatz oder Zeile auf logischer Ebene, das Dokument ist eine Sequenz von Zeichen- und Linien-Befehlen.

Diese Architektur macht PDF perfekt für:

  • Druck-Workflows: das gedruckte Dokument sieht genauso aus wie auf dem Bildschirm
  • Verträge: das Layout ist eingefroren, niemand kann unbemerkt etwas ändern
  • Archivierung: PDF/A garantiert, dass das Dokument in 20 Jahren noch lesbar ist
  • Behörden-Formulare: das Layout ist verbindlich, der Behörden-Mitarbeiter sieht das Gleiche wie der Bürger

Aber sie macht PDF schwer für:

  • Editieren: jede Aenderung muss das Layout neu berechnen, das ist kompliziert
  • Mass-Production aus Daten: PDFs aus einem CRM erzeugen geht, ist aber langsam (LaTeX, wkhtmltopdf, PDFKit)
  • Maschinen-Lesbarkeit: ohne PDF/UA-Tags ist die logische Struktur (Headlines, Absätze, Listen) nicht extrahierbar
  • Volltextsuche: nur über Heuristiken, die nicht immer zuverlässig sind

DOCX: das Format für Office-Workflows

DOCX wurde 2006 von Microsoft als Nachfolger des proprietären .doc-Formats eingeführt und 2008 als ISO/IEC 29500 standardisiert (Office Open XML, OOXML). Eine DOCX-Datei ist technisch ein ZIP-Archiv mit XML-Dateien drin, das macht sie maschinenlesbar und manipulierbar.

Die zentrale Architektur-Entscheidung von DOCX: das Dokument wird als logische Hierarchie gespeichert. Es gibt Paragraphen (<w:p>), Runs (<w:r>, Text mit gleichen Formatierungs-Attributen), Tabellen (<w:tbl>), Listen, Stylesheets. Das Layout wird zur Anzeige aus dieser Logik berechnet.

Das macht DOCX gut für:

  • Editieren: Aenderungen sind logisch (Text einfügen, Absatz teilen, Tabelle erweitern)
  • Templating: Templates mit Platzhaltern und programmatische Befüllung (Briefe, Rechnungen)
  • Style-Inheritance: Aenderung an einem Style ändert das gesamte Dokument konsistent
  • Strukturelle Extraktion: Headlines, Listen, Tabellen sind eindeutig markiert

Und nicht so gut für:

  • Layout-Garantien: zwei Word-Versionen können ein DOCX leicht unterschiedlich rendern, vor allem bei eingebetteten Fonts oder Mac-Word vs Windows-Word
  • Verträge: editierbar, also nicht vertragssicher ohne digitale Signatur
  • Lange Archivierung: ein DOCX in 30 Jahren öffnen ist nicht garantiert, weil OOXML-Tools möglicherweise nicht mehr existieren

Markdown: das Format für Plain-Text mit Struktur

Markdown wurde 2004 von John Gruber (Daring Fireball) als leichte Syntax für strukturierten Plain-Text entwickelt. Die Designziele: lesbar im Source-Code, schnell zu schreiben, in HTML konvertierbar.

Markdown ist plain text mit einer kleinen Sammlung von Konventionen:

  • # Headline für Headlines
  • *kursiv* und **fett** für Hervorhebungen
  • - Punkt für Listen
  • [Text](url) für Links
  • Backticks für Code

Was Markdown auszeichnet: es ist ohne Renderer lesbar. Du öffnest eine .md-Datei in Notepad und siehst sofort, was Headlines, Listen und Links sind. Das ist anders als bei HTML (wo die Tags überhand nehmen) und anders als bei DOCX (wo der Source vollkommen unlesbar ist).

CommonMark (https://commonmark.org/) ist die formale Standardisierung der Markdown-Syntax, veröffentlicht 2014 und seitdem mehrfach aktualisiert (Stand: 0.31). GitHub Flavored Markdown erweitert CommonMark um Tabellen, Task-Lists und Code-Blocks mit Sprachen-Annotation.

Markdown ist ideal für:

  • Doku in Repositories: README, CHANGELOG, Doku-Sites (Docusaurus, MkDocs)
  • Notizen-Apps: Obsidian, Notion-Export, Bear, iA Writer
  • Statisches Web: Hugo, Astro, Eleventy, Next.js MDX
  • Schnelle Drafts: jeder, der oft schreibt, schreibt heute oft in Markdown

Nicht ideal für:

  • Komplexes Layout: keine Spalten, keine Absatz-Kontrolle, keine Drop-Caps
  • Mathematik: nur über Extensions wie KaTeX oder MathJax, nicht im Standard
  • Verträge und Office-Doku: zu informell, zu wenig Layout-Garantie

Format-Entscheidungsmatrix

Format-Wahl je nach Anwendungsfall
<rect x="30" y="50" width="200" height="120" rx="8" fill="#dbeafe" stroke="#1e3a8a" stroke-width="2"/>
<text class="label" x="130" y="74">PDF</text>
<text class="small" x="130" y="94">Verträge</text>
<text class="small" x="130" y="110">Druck-Vorlage</text>
<text class="small" x="130" y="126">Behörden-Formular</text>
<text class="small" x="130" y="142">Archiv (PDF/A)</text>
<text class="small" x="130" y="158">Final-Lieferung</text>

<rect x="260" y="50" width="200" height="120" rx="8" fill="#bfdbfe" stroke="#1e3a8a" stroke-width="2"/>
<text class="label" x="360" y="74">DOCX</text>
<text class="small" x="360" y="94">Office-Briefe</text>
<text class="small" x="360" y="110">Rechnungen-Templates</text>
<text class="small" x="360" y="126">Mitarbeiter-Doku</text>
<text class="small" x="360" y="142">Diplomarbeit</text>
<text class="small" x="360" y="158">Editierbare Berichte</text>

<rect x="490" y="50" width="200" height="120" rx="8" fill="#e0f2fe" stroke="#0369a1" stroke-width="2"/>
<text class="label" x="590" y="74">Markdown</text>
<text class="small" x="590" y="94">README, Doku</text>
<text class="small" x="590" y="110">Notizen</text>
<text class="small" x="590" y="126">Blog-Posts</text>
<text class="small" x="590" y="142">Wikis</text>
<text class="small" x="590" y="158">Code-Dokumentation</text>

<rect x="30" y="200" width="660" height="80" rx="8" fill="#eff6ff" stroke="#bfdbfe" stroke-width="2"/>
<text class="label" x="360" y="224">TXT-Extraktion (pdftxt.de) ist die Brücke</text>
<text class="small" x="360" y="244">PDF -&gt; TXT -&gt; weitere Verarbeitung in DOCX, Markdown, KI-Tools</text>
<text class="small" x="360" y="260">Reduziert das Layout-Format auf reinen Inhalt, der dann ins Ziel-Format gehen kann</text>
Die drei Formate decken unterschiedliche Use-Cases ab. Wer von einem ins andere konvertiert, geht oft den Umweg über Plain-Text, weil das die Layout-Annahmen aller drei Formate auf das reine Inhalts-Minimum reduziert.

In der Praxis:

  • PDF: Verträge, Druck-Vorlagen, Behörden-Formulare, Archivierung, Final-Lieferungen an Kunden
  • DOCX: Office-Briefe, Rechnungs-Templates, Mitarbeiter-Doku, editierbare Berichte
  • Markdown: README in Git-Repos, technische Doku, Blog-Posts, Wikis, Notizen

Warum TXT-Extraktion oft die Brücke ist

Wer ein PDF in DOCX oder Markdown konvertieren will, hat zwei Optionen: eine direkte Format-zu-Format-Konvertierung (Adobe Acrobat, LibreOffice, Pandoc) oder den Umweg über Plain-Text.

Die direkte Konvertierung versucht, das Layout zu erhalten, also Headlines, Absätze, Tabellen, Listen rückzugewinnen. Das ist mit Heuristiken machbar, aber selten perfekt. Adobe Acrobat ist hier am besten, kostet aber jährlich. LibreOffice und Pandoc liefern oft ausreichend, aber nicht immer.

Der Umweg über Plain-Text ist pragmatisch und oft die richtige Wahl, wenn:

  • du den Text inhaltlich weiterverarbeiten willst (KI-Tool, Indexing, Search)
  • das Original-Layout nicht wichtig ist (Inhaltsanalyse, Volltext-Suche)
  • du die Struktur ohnehin in DOCX oder Markdown neu aufbauen wirst

Genau das ist der Use-Case für pdftxt.de. Du bekommst den reinen Inhalt aus dem PDF, kannst ihn editieren (in der Vorschau-Textarea direkt im Tool), und dann in dein Ziel-Format überführen. Markdown-Editor, Word, KI-Tool, jeder Workflow akzeptiert TXT als Eingabe.

Was bleibt vom Format-Vergleich

Es gibt nicht das eine richtige Format. Es gibt für jeden Anwendungsfall ein passendes Format und ein passendes Werkzeug. PDF für fertige Lieferungen, DOCX für Office-Workflows, Markdown für plain-text-Doku.

Wer PDF in DOCX oder Markdown bringen will, hat zwei Wege: direkte Konvertierung (mit Layout-Erhaltung, aber Heuristik-abhängig) oder den Umweg über TXT (reiner Inhalt, dann manuell neu strukturieren). pdftxt.de macht den zweiten Weg, weil er für viele Anwendungsfälle (KI-Verarbeitung, Volltext-Indexierung, manuelle Strukturierung) der bessere ist.

Was bleibt: bewusst das Format wählen, das zum Anwendungsfall passt. Nicht PDF nehmen, weil man immer PDF nimmt. Nicht DOCX nehmen, weil das Default-Format in Office ist. Format-Wahl ist Werkzeug-Wahl, und gute Werkzeuge sind zweckgebunden.

FAQ

Häufige Fragen

Welches Format ist das beste für Verträge?

PDF, mit digitaler Signatur (PAdES-Standard). PDF garantiert, dass das Layout auf jedem Gerät gleich aussieht, Schriften sind eingebettet, das Dokument ist nicht versehentlich editierbar. Mit einer qualifizierten digitalen Signatur (QES, eIDAS) ist der Vertrag rechtsverbindlich. Word-Dokumente sind für Verträge ungeeignet, weil sie editierbar sind und Layout-Unterschiede zwischen Word-Versionen die Lesbarkeit beeinflussen.

Welches Format ist das beste für wissenschaftliche Papers?

Das hängt von der Phase ab. Während des Schreibens: LaTeX-Source (Plain-Text mit TeX-Syntax) oder ein Editor wie Overleaf. Für die Einreichung bei Journals: PDF, weil das Journal das Layout fixieren will. Für die Open-Access-Publikation: oft sowohl PDF als auch ein strukturiertes Format wie JATS-XML, das maschinenlesbar ist. Markdown wird in der Wissenschaft selten als Final-Format genutzt, für Drafts und Notizen aber sehr verbreitet.

Wie konvertiere ich von Markdown zu PDF?

Mit Pandoc, einem Open-Source-Tool, das fast jedes Dokument-Format in jedes andere konvertieren kann. Pandoc + LaTeX-Backend gibt sehr saubere PDFs. Pandoc + HTML/CSS-Backend gibt einfache PDFs. Für normale Use-Cases (README, Doku, Berichte) reicht oft auch ein Markdown-Editor mit PDF-Export, z.B. Typora, Obsidian-Plugin oder VS Code mit dem Markdown-PDF-Plugin.

Wieso ist PDF schwer in DOCX zu konvertieren?

Weil DOCX eine andere Beschreibungs-Logik hat. DOCX speichert das Dokument als logische Hierarchie (Paragraphs, Runs, Tabellen, Listen), aus der das Layout berechnet wird. PDF speichert das Layout direkt (Glyph-Positionen, Linien-Koordinaten), aus dem die Logik nur über Heuristiken zurückgewonnen werden kann. Eine sehr gute PDF-zu-DOCX-Konvertierung muss raten, wo Absatz-Grenzen sind, was eine Liste ist, was eine Tabelle ist. Adobe Acrobat macht das überraschend gut, kostenlose Tools wie LibreOffice merklich schlechter.

Was sind die wichtigsten Markdown-Dialekte?

CommonMark (https://commonmark.org/) ist die formale Standardisierung der Markdown-Syntax, veröffentlicht 2014. GitHub Flavored Markdown (GFM) erweitert CommonMark um Tabellen, Task-Lists, Strike-Through und einige andere Features. Beide sind weitgehend kompatibel. MultiMarkdown und Pandoc-Markdown sind weitere Dialekte mit zusätzlichen Features (Fussnoten, Zitate, mathematische Formeln). Im Zweifel: CommonMark + GFM ist der pragmatische Standard.

Anzeige

Quellen

Weitere Ratgeber

Weiterlesen

Alle Ratgeber

Anzeige
Anzeige
Anzeige
Anzeige