Strukturierte PDFs erfassen: Wenn Text wirklich Text ist

Nicht jedes PDF muss zuerst in Bilder zerlegt und von einem Vision-Modell neu interpretiert werden. Manche PDFs bringen bereits eine brauchbare Struktur mit: Überschriften, Kapitel, Absätze, Listen, Inhaltsverzeichnis, Seitenzahlen und eingebetteten Text. Typische Beispiele sind Dokumentationen aus Word, LaTeX, Redaktionssystemen oder sauber gepflegten Handbüchern. Bei solchen Dokumenten ist der beste Weg oft nicht die visuelle Neuerkennung, sondern die saubere Übernahme der vorhandenen Struktur in Markdown oder JSON. Das Ziel ist nicht möglichst viel Text. Das Ziel ist ein Dokument, das von Menschen und KI zuverlässig gelesen, durchsucht und zitiert werden kann.

Wenn ein PDF bereits Struktur enthält, sollte man diese Struktur nicht zerstören, nur um sie danach mit KI wiederherzustellen. Gute Erfassung bedeutet hier: vorhandene Ordnung bewahren, bereinigen und in ein maschinenlesbares Format überführen.

Der Vorteil strukturierter PDFs

Ein gutes PDF aus einem Textsystem ist nicht nur eine sichtbare Seite. Es enthält oft einen echten Textlayer. Das bedeutet: Der Text liegt nicht nur als Bild vor, sondern kann direkt ausgelesen werden.

Das ist ein großer Vorteil.

Die Wörter müssen nicht per OCR erkannt werden. Überschriften sind oft erkennbar. Absätze folgen einer logischen Reihenfolge. Listen und Kapitel können übernommen werden. Bei einfachen Tabellen lässt sich die Struktur manchmal ebenfalls erhalten.

Für KI ist das nützlich, weil der Inhalt nicht erst visuell geraten werden muss. Der Text ist bereits da. Die Aufgabe besteht darin, ihn sauber zu ordnen.

Das klingt unspektakulär. Genau deshalb ist es gut.

Nicht blind rendern

Bei strukturierten PDFs ist es oft falsch, sofort jede Seite als PNG zu rendern und durch ein Vision-Modell zu schicken.

Der Grund ist einfach: Man verwandelt echten Text zuerst in Pixel. Danach muss ein Modell wieder Text daraus machen. Das kann funktionieren, ist aber ein Umweg. Dabei können Fehler entstehen: falsch erkannte Zeichen, verlorene Sonderzeichen, fehlerhafte Codeblöcke, veränderte Einrückungen oder unklare Absatzgrenzen.

Besonders bei juristischen Texten, technischen Spezifikationen, Entwicklerdokumentation oder Prozesshandbüchern ist Genauigkeit wichtiger als optische Interpretation.

Wenn der Text sauber vorhanden ist, sollte er auch als Text verarbeitet werden.

Ein Vision-Modell kann ergänzend helfen. Aber es sollte nicht automatisch die erste Wahl sein.

Was aus einem strukturierten PDF werden sollte

Das Ziel ist kein großer Textblock. Das Ziel ist eine saubere, strukturierte Repräsentation.

Ein gutes Ergebnis kann Markdown sein:

# Benutzerverwaltung

## Rollen

Das System unterscheidet drei Rollen:

- Administrator
- Projektmanager
- Standardbenutzer

## Rechte

Administratoren können Benutzer anlegen, Rollen ändern und Projekte archivieren.

Quelle: handbuch.pdf, Seite 12

Oder JSON:

{
  "document": "handbuch.pdf",
  "page_start": 12,
  "page_end": 13,
  "section": "Benutzerverwaltung",
  "heading_level": 1,
  "content_markdown": "## Rollen\n\nDas System unterscheidet drei Rollen:\n\n- Administrator\n- Projektmanager\n- Standardbenutzer",
  "source": "handbuch.pdf, Seiten 12-13"
}

Der Unterschied zu einfachem pdf2text ist entscheidend. Der Text wird nicht nur herausgezogen. Er wird als Abschnitt erhalten.

Für einen Vector Store ist das deutlich besser. Die KI findet später nicht nur Wörter. Sie findet sinnvolle Wissenseinheiten.

Kapitelstruktur ist wichtiger als Seitenstruktur

Ein häufiger Fehler bei der PDF-Erfassung ist die reine Orientierung an Seiten.

Seiten sind für Druck und Darstellung wichtig. Für Wissen sind Abschnitte wichtiger.

Ein Kapitel kann auf Seite 14 beginnen und auf Seite 16 enden. Eine Liste kann über eine Seitenkante laufen. Ein Codebeispiel kann unten beginnen und oben weitergehen. Eine Tabelle kann sich über mehrere Seiten erstrecken.

Wenn man jede Seite isoliert verarbeitet, entstehen künstliche Brüche. Der Zusammenhang wird beschädigt.

Besser ist eine Extraktion entlang der Dokumentstruktur:

Überschrift erkennen
Abschnitt bilden
Inhalte bis zur nächsten Überschrift sammeln
Seitenbezug speichern
längere Abschnitte sinnvoll teilen
Quellenangabe erhalten

So entsteht ein Wissensmodell, das dem Dokument folgt und nicht nur dem Seitenlayout.

Die Seite bleibt trotzdem wichtig. Sie dient als Quelle. Aber sie sollte nicht immer die kleinste fachliche Einheit sein.

Inhaltsverzeichnis und Überschriften nutzen

Ein Inhaltsverzeichnis ist nicht nur für Leser nützlich. Es ist auch eine Landkarte für die Erfassung.

Wenn ein Dokument ein sauberes Inhaltsverzeichnis hat, kann es helfen, Kapitelgrenzen zu erkennen. Überschriften zeigen, welche Inhalte zusammengehören. Unterüberschriften geben Hierarchie. Daraus entsteht eine Struktur, die später für Suche und KI sehr wertvoll ist.

Ein Abschnitt wie „4.2.1 Preisfindung bei Sonderkunden“ ist für KI deutlich besser als ein zufälliger Chunk mit 800 Zeichen.

Gute Chunks sollten Kontext tragen:

# 4 Preisfindung

## 4.2 Sonderkunden

### 4.2.1 Preisfindung bei Sonderkunden

Bei Sonderkunden wird zuerst die Kundengruppe geprüft. Danach werden projektbezogene Konditionen berücksichtigt.

Quelle: ERP-Handbuch.pdf, Seite 37

So weiß die KI nicht nur, was im Abschnitt steht. Sie weiß auch, wo der Abschnitt fachlich hingehört.

Tabellen brauchen Sonderbehandlung

Auch in strukturierten PDFs sind Tabellen oft schwierig.

Ein einfacher Textexport macht daraus schnell eine unlesbare Folge von Begriffen und Zahlen. Dann stehen Spaltenwerte zwar irgendwo im Text, aber nicht mehr zuverlässig nebeneinander.

Tabellen sollten deshalb möglichst als Tabellen erhalten bleiben. Markdown ist dafür oft ausreichend:

| Rolle | Darf Benutzer anlegen | Darf Projekte löschen |
|---|---:|---:|
| Administrator | Ja | Ja |
| Projektmanager | Nein | Nein |
| Standardbenutzer | Nein | Nein |

Bei wichtigen technischen oder kaufmännischen Tabellen kann zusätzlich JSON sinnvoll sein:

{
  "table_title": "Rollenrechte",
  "columns": ["Rolle", "Darf Benutzer anlegen", "Darf Projekte löschen"],
  "rows": [
    ["Administrator", "Ja", "Ja"],
    ["Projektmanager", "Nein", "Nein"],
    ["Standardbenutzer", "Nein", "Nein"]
  ]
}

Das ist nicht schöner als Fließtext. Aber es ist zuverlässiger.

KI kann daraus später Rechte vergleichen, Fragen beantworten oder Lücken erkennen.

Codeblöcke nicht zerstören

Bei Entwicklerdokumentation ist besondere Vorsicht nötig. Code ist empfindlich.

Einrückungen, Klammern, Sonderzeichen und Zeilenumbrüche sind nicht Dekoration. Sie sind Bedeutung.

Ein schlechter PDF-Export oder eine einfache Textextraktion kann Code beschädigen. Dann sieht er noch ungefähr richtig aus, funktioniert aber nicht mehr.

Codeblöcke sollten deshalb ausdrücklich erkannt und als Code erhalten werden:

```csharp
public bool CanApprove(User user)
{
    return user.Role == "Administrator";
}
```

Wenn ein Codeblock über mehrere Seiten läuft, muss er zusammengeführt werden. Genau hier ist Kontext wichtig. Die Erfassung darf nicht an der Seitenkante aufhören, wenn der fachliche Block weitergeht.

Eine KI, die später mit Entwicklerdokumentation arbeiten soll, braucht korrekten Code. Fast korrekter Code ist in etwa so hilfreich wie ein fast richtiger Haustürschlüssel.

Bilder und Diagramme trotzdem nicht ignorieren

Auch strukturierte PDFs können Bilder enthalten. Screenshots, Diagramme, Architekturabbildungen oder Prozessgrafiken sind oft fachlich wichtig.

Hier reicht reine Textextraktion nicht aus. Der Textteil kann sauber übernommen werden, aber Bilder sollten separat behandelt werden.

Ein sinnvoller Ansatz:

Text direkt extrahieren
Bilder aus dem PDF erfassen
relevante Bilder durch ein Vision-Modell beschreiben lassen
Bildbeschreibung an der richtigen Stelle im Dokument einfügen
Quelle und Seitenbezug speichern

Beispiel:

## Login-Prozess

Der Benutzer gibt E-Mail-Adresse und Passwort ein. Danach prüft das System die Berechtigung.

**Abbildung:** Die Grafik zeigt den Ablauf vom Login-Formular über die Authentifizierung bis zur Rollenprüfung.

Quelle: systemhandbuch.pdf, Seite 22, Abbildung 3

So bleibt der Text sauber. Gleichzeitig gehen visuelle Informationen nicht verloren.

Quellenbezug ist Pflicht

Für Unternehmenswissen reicht es nicht, Text in einen Vector Store zu werfen. Jede Information muss später prüfbar sein.

Deshalb sollte jeder Abschnitt speichern:

Dokumentname
Seitenbereich
Überschriftspfad
Elementtyp
Extraktionsmethode
optional: Position oder Bildreferenz
Zeitstempel der Verarbeitung

Das wirkt bürokratisch. Ist es aber nicht. Es ist die Grundlage für Vertrauen.

Wenn eine KI später eine Antwort gibt, muss klar sein, woher die Information stammt. Sonst entsteht ein System, das zwar hilfreich klingt, aber nicht belastbar ist.

Und ein nicht prüfbares Wissenssystem ist nur ein sehr selbstbewusstes Ratespiel.

Praktischer Ablauf

Für strukturierte PDFs eignet sich ein mehrstufiger Ablauf:

PDF prüfen: Textlayer, Inhaltsverzeichnis, Überschriften, Tabellen, Bilder.
Text direkt extrahieren.
Überschriften und Abschnitte erkennen.
Tabellen gesondert in Markdown oder JSON umwandeln.
Codeblöcke erkennen und schützen.
Relevante Bilder oder Diagramme separat beschreiben lassen.
Abschnitte mit Quellenbezug speichern.
Chunks entlang fachlicher Abschnitte bilden.
Stichproben prüfen.
Erst danach in den Vector Store schreiben.

Der wichtigste Punkt ist Schritt 8. Chunks sollten nicht zufällig entstehen. Sie sollten fachlich Sinn ergeben.

Ein Abschnitt über Rollenrechte gehört nicht zufällig mit dem nächsten Abschnitt über Passwortregeln zusammen, nur weil beide auf derselben Seite stehen.

Grenzen

Auch strukturierte PDFs sind nicht automatisch sauber.

Manche PDF-Exporte sehen ordentlich aus, enthalten intern aber chaotischen Text. Manche Dokumente haben Überschriften, die technisch nicht als Überschriften erkennbar sind. Manche Tabellen sehen sauber aus, sind aber intern nur platzierte Textfragmente. Manche PDFs enthalten gescannte Seiten ohne echten Textlayer.

Deshalb braucht es vor der Verarbeitung eine Prüfung. Nicht jedes scheinbar strukturierte PDF ist wirklich strukturiert.

Wenn die Extraktion merkwürdige Reihenfolgen, zerstörte Tabellen oder fehlende Abschnitte erzeugt, sollte man nicht versuchen, den Fehler im Vector Store zu verstecken. Dann braucht das Dokument eine andere Pipeline.

Fazit

Strukturierte PDFs sind ein guter Ausgangspunkt für KI und Unternehmenswissen. Aber nur, wenn ihre Struktur erhalten bleibt.

Der richtige Weg ist nicht blindes pdf2text. Und auch nicht automatisch PNG plus Vision. Der richtige Weg ist eine saubere Extraktion der vorhandenen Ordnung: Überschriften, Abschnitte, Listen, Tabellen, Codeblöcke, Bilder und Quellenbezug.

Für einfache Textdokumente kann klassische Extraktion sehr gut funktionieren. Sie muss aber mehr leisten als Zeichen auslesen. Sie muss Wissen in nutzbare Einheiten überführen.

Die Regel ist einfach:

Wenn Text wirklich Text ist, nutze ihn als Text.
Wenn Struktur vorhanden ist, bewahre sie.
Wenn Bilder Bedeutung tragen, erfasse sie zusätzlich.

So wird aus einem PDF kein Textbrei, sondern eine verlässliche Grundlage für Suche, KI und Unternehmenswissen.