Urheberrecht bei PDF-Text-Extraktion: was darf ich?

Wer ein PDF mit fremdem Inhalt zu TXT konvertiert, berührt das deutsche Urheberrecht. Welche Paragraphen sind relevant, was sagt die Privatkopie-Schranke, was sind die Schranken für Bildung und Wissenschaft? Hier steht, was § 16, § 23, § 53 UrhG sagen, wo die Schöpfungshöhe-Schwelle liegt und warum eine client-seitige Konvertierung in der Regel rechtlich entspannt ist.

8 Min. Lesezeit 1.470 Wörter
Eike-Christian Ramcke

Von Eike-Christian Ramcke

Geschäftsführer · UrhG & DSGVO Art. 6 lit. f

Veröffentlicht am 06.06.2026 · Zuletzt geprüft am 06.06.2026

Urheberrecht in einem Satz

Das deutsche Urheberrechtsgesetz (UrhG) schützt Werke der Literatur, Wissenschaft und Kunst (§ 2 UrhG). Wer ein solches Werk vervielfältigt, ohne Erlaubnis des Urhebers oder Zustimmung des Gesetzes, verletzt das Urheberrecht. Aus diesem schlichten Satz ergibt sich die ganze Komplexität.

Für die Frage Was darf ich mit einem PDF von jemand anderem? sind vier Paragraphen entscheidend:

  • § 16 UrhG: Vervielfältigungsrecht. Jede Kopie ist eine Vervielfältigung, auch eine Konvertierung von PDF zu TXT.
  • § 23 UrhG: Bearbeitungen. Eine bearbeitete Version eines Werks (z.B. eine gekürzte Version) braucht ggf. eine eigene Erlaubnis.
  • § 53 UrhG: Privatkopie. Erlaubt Kopien zum privaten Gebrauch ohne Erlaubnis des Urhebers.
  • §§ 60a-h UrhG: Schranken für Bildung und Wissenschaft (seit UrhWissG-Novelle 2018). Erlauben Text- und Data-Mining, Lehrkopien, wissenschaftliche Nutzungen.

Diese vier Paragraphen decken die meisten realen Use-Cases ab. Wer in einem dieser Bereiche unterwegs ist (Privatperson, Forscher, Lehrer, Student), ist im Regelfall rechtlich abgesichert. Wer kommerziell weiterverarbeitet (z.B. eigenes Produkt aus extrahierten Inhalten baut), braucht eine eigene Lizenzbasis.

§ 16 UrhG: jede Konvertierung ist eine Vervielfältigung

Das Vervielfältigungsrecht in § 16 UrhG ist breit gefasst: jede körperliche oder unkörperliche Festlegung des Werks in einer Form, die dauerhaft oder vorübergehend ist, ist eine Vervielfältigung. Eine PDF-zu-TXT-Konvertierung erzeugt eine TXT-Datei, die den Werk-Inhalt in einer neuen Form festlegt. Das ist eine Vervielfältigung.

Ohne Erlaubnis des Urhebers oder eine Schranke (wie § 53 oder §§ 60a-h) wäre diese Vervielfältigung urheberrechtswidrig. Mit Schranke ist sie erlaubt.

Wichtig: auch das Laden eines PDFs in den Browser-Speicher ist eine Vervielfältigung, weil das Dokument vorübergehend im RAM gespeichert wird. Diese vorübergehenden Vervielfältigungen sind aber durch § 44a UrhG abgedeckt (Vervielfältigungen, die technisch notwendig für die rechtmässige Nutzung sind). Wer ein PDF rechtmässig erworben hat, darf es lesen und anzeigen.

§ 53 UrhG: die Privatkopie

§ 53 UrhG erlaubt einzelne Vervielfältigungen eines Werks zum privaten Gebrauch. Das ist die Schranke, die im Alltag am häufigsten greift:

  • Ich kopiere ein wissenschaftliches Paper auf meinen USB-Stick: erlaubt nach § 53.
  • Ich konvertiere ein E-Book zu TXT, um es in meinem Markdown-Editor zu lesen: erlaubt nach § 53.
  • Ich gebe das TXT an meinen Bruder: erlaubt nach § 53 Abs. 1, wenn der Bruder zur Familie zählt und das nur zum privaten Gebrauch ist.
  • Ich stelle das TXT auf einen öffentlichen Server: nicht mehr von § 53 gedeckt, das ist Verbreitung.

Die Privatkopie-Schranke gilt nur, wenn die Vorlage nicht offensichtlich rechtswidrig hergestellt oder öffentlich zugänglich gemacht wurde (§ 53 Abs. 1 Satz 1, 2. Halbsatz). Wer aus einer Piraterie-Quelle kopiert, kann sich nicht auf die Privatkopie berufen. Wer aus einer legitimen Quelle (Bibliothek, Kauf, öffentliche Behörden-Seite) kopiert, kann.

In einer client-seitigen Konvertierung wie pdftxt.de greift § 53 fast immer:

  • Der Nutzer hat das PDF auf seinem Gerät, also kontrolliert er die Quelle.
  • Die TXT-Konvertierung erfolgt auf dem gleichen Gerät, keine Server-Uebertragung.
  • Die resultierende TXT-Datei bleibt im Browser-Speicher und auf dem Gerät des Nutzers.

Das ist ein Lehrbuch-Fall für eine Privatkopie, ohne weitere rechtliche Komplikation.

§§ 60a-h UrhG: Bildung und Wissenschaft

Mit der UrhWissG-Novelle 2018 hat der deutsche Gesetzgeber die Schranken für Bildung und Wissenschaft deutlich erweitert. Die §§ 60a bis 60h UrhG erlauben:

  • § 60a: Unterricht und Lehre. Bildungseinrichtungen dürfen bis zu 15 Prozent eines Werks für Lehrveranstaltungen vervielfältigen.
  • § 60b: Lehrmedien. Verbreitung von Vervielfältigungen an Schüler.
  • § 60c: Wissenschaftliche Forschung. Forscher dürfen bis zu 75 Prozent eines Werks vervielfältigen für eigene wissenschaftliche Forschung.
  • § 60d: Text- und Data-Mining (TDM). Ein riesiger Schritt: TDM ist explizit erlaubt für nicht-kommerzielle wissenschaftliche Forschung, sogar an Inhalten, die rechtmässig zugänglich sind (was praktisch jedes Open-Access-Paper umfasst).
  • § 60e: Bibliotheken dürfen Vervielfältigungen für interne Zwecke machen.
  • § 60f: Archive dürfen Werke für Bestandserhaltung vervielfältigen.
  • § 60g: Begrenzung des Vergüterungsanspruchs (relevant für VG Wort).
  • § 60h: angemessene Vergütung für Schranken-Nutzung (VG Wort-Modell).

Für Forscher, Lehrer und Studenten ist § 60c und § 60d besonders relevant. Wer ein Paper für die eigene Forschung extrahiert, ist klar abgedeckt. Wer eine grössere Sammlung wissenschaftlicher Texte für TDM-Analyse extrahiert, ist ebenfalls abgedeckt, solange die Forschung nicht kommerziell ist.

Schöpfungshöhe und BGH-Linie

Nicht jeder Text ist urheberrechtlich geschützt. Es braucht eine individuelle Schöpfung, das ist die Schöpfungshöhe. Die BGH-Rechtsprechung hat dazu eine differenzierte Linie entwickelt:

  • Wissenschaftliche Texte: in der Regel haben sie die Schöpfungshöhe, weil sie eigenständige Gedanken in eigenen Worten formulieren. BGH I ZR 11/13 (“Birthday-Song”) hat diese Linie bestätigt: ein wissenschaftlicher Artikel ist regelmässig geschützt.
  • Reine Sachtexte: Standardformulierungen ohne individuelle Prägung können unterhalb der Schwelle liegen. Eine reine Inhaltsangabe oder ein technischer Standardtext ist oft nicht geschützt. Die alte “Inkasso-Programme”-Linie (BGHZ 94, 276) galt für Software-Code, ist aber auch für Text-Werke übertragen worden.
  • Tabellen und Datensammlungen: Tabellen sind oft als Datenbankwerk (§ 4 UrhG) oder als Datenbank (§ 87a UrhG) geschützt, nicht als Text. Das macht einen Unterschied: Datenbankschutz ist stärker als Urheberrecht, weil es auch Schutz vor wesentlicher Teilentnahme gibt.
  • Logos und Kurzbezeichnungen: meist unterhalb der Schöpfungshöhe, außer bei aufwendig gestalteten Logos. Wortmarken sind oft markenrechtlich geschützt, aber nicht urheberrechtlich.

Im PDF-Kontext heißt das: ein Geschäftsbericht-PDF mit vielen Tabellen ist nur teilweise urheberrechtlich geschützt. Die Texte schon, die Zahlen-Tabellen oft nicht (sondern datenbankrechtlich). Eine reine Tabellen-Extraktion ist deshalb urheberrechtlich entspannter als eine Text-Extraktion.

Schöpfungshöhe: was ist geschützt, was nicht?
<rect class="box-yes" x="30" y="60" width="200" height="80"/>
<text class="label" x="130" y="84">Klar geschützt</text>
<text class="small" x="130" y="104">Wissenschaftliche Texte</text>
<text class="small" x="130" y="120">Romane, Gedichte</text>
<text class="small" x="130" y="136">Originelle Essays</text>

<rect class="box" x="260" y="60" width="200" height="80"/>
<text class="label" x="360" y="84">Einzelfall</text>
<text class="small" x="360" y="104">Geschäftsberichte</text>
<text class="small" x="360" y="120">Behörden-Schreiben</text>
<text class="small" x="360" y="136">Vertragsentwürfe</text>

<rect class="box-no" x="490" y="60" width="200" height="80"/>
<text class="label" x="590" y="84">Oft nicht geschützt</text>
<text class="small" x="590" y="104">Reine Datenlisten</text>
<text class="small" x="590" y="120">Standardformulierungen</text>
<text class="small" x="590" y="136">Gesetzestexte (§ 5)</text>

<rect class="box" x="180" y="170" width="360" height="80" rx="8"/>
<text class="label" x="360" y="194">Praktische Konsequenz für pdftxt.de</text>
<text class="small" x="360" y="214">Im Zweifel von Schutz ausgehen, dann § 53 (Privatkopie) oder § 60c (Forschung) prüfen</text>
<text class="small" x="360" y="230">Bei kommerzieller Weiterverwendung Lizenz suchen</text>
Schöpfungshöhe-Schwellen nach BGH-Linie. Wissenschaftliche Texte sind klar geschützt, reine Datenlisten oft nicht. Gesetzestexte sind nach § 5 UrhG explizit frei.

Sonderfall amtliche Werke

§ 5 UrhG nimmt amtliche Werke vom Urheberrechtsschutz aus:

  • Gesetze, Verordnungen, amtliche Erlasse, Bekanntmachungen
  • Entscheidungen und amtliche Leitsätze
  • Andere amtliche Werke, die im amtlichen Interesse zur allgemeinen Kenntnisnahme veröffentlicht sind

Das heißt: BGH-Urteile, Bundesgesetzblatt-Texte, Verordnungs-PDFs sind frei. Wer aus einem Behörden-PDF einen Gesetzestext extrahiert, hat keine urheberrechtlichen Bedenken. Es können aber andere Schutzrechte greifen (z.B. der Schutz der amtlichen Datenbank, oder Markenrechte an Logos im PDF).

Was bedeutet das für pdftxt.de

pdftxt.de ist ein Tool, kein Verlag oder Verbreiter. Das ist rechtlich entspannend. Die Verantwortung liegt beim Nutzer:

  1. Der Nutzer ist verantwortlich dafür, dass er das Original-PDF rechtmässig in seinem Besitz hat.
  2. Der Nutzer ist verantwortlich dafür, dass seine Nutzung der extrahierten TXT-Datei durch eine Schranke (Privatkopie, Forschung, Lehre) gedeckt ist oder eine Lizenz vorliegt.
  3. pdftxt.de selbst speichert keine Datei-Inhalte und verbreitet nichts. Das Tool ist eine technische Hilfe, vergleichbar mit einem Kopierer.

Die client-only-Architektur macht die juristische Lage besonders klar: weil keine Datei den Browser verlässt, kann pdftxt.de auch keine Inhalte vervielfältigen oder verbreiten. Die Vervielfältigung passiert ausschließlich auf dem Gerät des Nutzers, und das für eine Privatkopie-Schranke ist eine klassische Konstellation.

Im Impressum und in der Datenschutzerklärung wird das transparent dokumentiert. Im Impressum-Abschnitt “Eigentum an den Dateien” steht explizit, dass der Nutzer dafür verantwortlich ist, dass er die Rechte an den konvertierten Dateien hat. Das ist Standard-Disclaimer-Sprache und juristisch sauber.

Was bleibt vom Urheberrecht

Urheberrecht bei PDF-Text-Extraktion ist im Alltag selten ein praktisches Problem. Die Privatkopie-Schranke § 53 UrhG deckt die meisten Use-Cases. Die Bildungs- und Wissenschafts-Schranken §§ 60a-h erweitern das für Forscher und Lehrer. Was bleibt: kommerzielle Weiterverwendung braucht eine eigene Lizenzbasis.

Wer pdftxt.de für interne Firmen-Use-Cases nutzt, bewegt sich in einer Grauzone. Die Privatkopie greift nicht (weil firmlich, nicht privat), die §§ 60a-h greifen meist nicht (weil nicht wissenschaftlich-akademisch). Hier braucht es entweder eine Lizenz, eine vertragliche Erlaubnis vom Original-Anbieter, oder die Beschränkung auf eigene firmen-eigene PDFs.

Was bleibt: bewusst prüfen, woher das PDF kommt und was mit dem extrahierten Text passiert. Im Zweifel: Privatkopie ja, Verbreitung nein, kommerzielle Nutzung mit Lizenz. Diese drei Regeln decken 95 Prozent der realen Anwendungsfälle ab.

FAQ

Häufige Fragen

Darf ich ein wissenschaftliches PDF zu TXT konvertieren?

Für den eigenen Gebrauch: ja, das deckt die Privatkopie-Schranke § 53 UrhG. Für Forschung und Lehre: ja, die §§ 60a-h UrhG erlauben Text- und Data-Mining sowie Vervielfältigungen für Unterricht. Für kommerzielle Nutzung (z.B. den extrahierten Text in einem KI-Trainingsdatensatz): das ist heikler und braucht im Zweifel Lizenz. Wichtig: die Schranken erlauben das Extrahieren, nicht das Weiterverbreiten der extrahierten Inhalte.

Was ist die Schöpfungshöhe?

Die Schöpfungshöhe ist die Schwelle, ab der ein Werk urheberrechtlich geschützt ist. Wissenschaftliche Texte haben in der Regel die nötige individuelle Schöpfungshöhe (BGH-Linie), weil sie eigenständige Gedanken in eigenen Worten ausdrücken. Reine Daten-Sammlungen (Tabellen, Statistiken) sind oft nur als Datenbank geschützt (§ 4 UrhG), nicht als Text. Standardformulierungen ohne individuelle Prägung (z.B. eine reine Inhaltsangabe) können unterhalb der Schwelle liegen, das ist Einzelfall-Beurteilung.

Was ist mit Public-Domain-PDFs?

Public Domain bedeutet kein Urheberrechtsschutz mehr, weil die Schutzfrist abgelaufen ist (70 Jahre nach Tod des Autors). Wer ein PDF von Göthe konvertiert, hat keine urheberrechtlichen Bedenken zum Original-Text. Aber Vorsicht: eine moderne Edition von Göthe (mit Anmerkungen, Editorischen Kommentaren, Layout) kann Edition-Urheberrecht haben. Pure Scans alter Bücher (Project Gutenberg, Wikisource) sind in der Regel sicher.

Was sage ich, wenn ich keinen Urheber kenne?

Manche PDFs (z.B. Behörden-Formulare, anonyme Memos, alte Dokumente ohne Autoren-Angabe) haben keinen ersichtlichen Urheber. Das macht das Urheberrechtsschutz nicht weg, aber die Identifikation des Berechtigten schwierig. Bei orphan works (verwaiste Werke) gibt es eine Sonderregelung § 61 UrhG, die eine Nutzung erlaubt, wenn der Rechteinhaber nach sorgfältiger Recherche nicht ermittelt werden kann.

Was, wenn ich das PDF auf einem internen Firmennetz teile?

Das ist Vervielfältigung im Sinne § 16 UrhG. Innerhalb einer Firma greift in der Regel nicht die Privatkopie-Schranke, weil das nicht privat ist. Es muss eine Lizenz oder eine andere Schranke (z.B. § 60a UrhG für Bildung und Wissenschaft) greifen. Im Zweifel sollte das Original-Dokument als Beweis für eine zulässige Nutzung vorgehalten werden, und die Weitergabe sollte auf das Notwendige beschränkt sein.

Anzeige

Quellen

Weitere Ratgeber

Weiterlesen

Alle Ratgeber

Anzeige
Anzeige
Anzeige
Anzeige