Warum manuelles Abtippen das teuerste Tool im Unternehmen ist
In fast jedem mittelstaendischen Betrieb laufen dieselben drei Engpaesse: Eingangsrechnungen werden von Hand in die Buchhaltung getippt, Vertragsdaten werden aus PDFs in Excel kopiert, und E-Mail-Anfragen werden manuell gelesen, kategorisiert und weitergeleitet. Das ist nicht nur langsam, sondern fehleranfaellig – eine vertauschte IBAN oder ein falsches Lieferdatum kostet spaeter deutlich mehr als die eingesparte Minute.
Gute Nachricht: Genau dieser Schritt – strukturierte Daten aus unstrukturierten Dokumenten holen – ist heute eine der zuverlaessigsten KI-Anwendungen ueberhaupt. Schlechte Nachricht: Es gibt viele halbgare Loesungen, die im Pilotprojekt glaenzen und im Echtbetrieb scheitern. Dieser Artikel erklaert, wie ein belastbarer Extraktions-Workflow tatsaechlich aufgebaut ist.
OCR und KI sind nicht dasselbe – der Unterschied entscheidet
Der haeufigste Denkfehler: "KI liest das PDF". In Wahrheit arbeiten zwei Technologien zusammen, und man muss wissen, welche was tut.
- OCR (Optical Character Recognition) wandelt Pixel in Text um. Ein eingescanntes Papierdokument oder ein Foto vom Lieferschein ist erstmal nur ein Bild. OCR erkennt: "Hier steht *Rechnungsnummer 2026-0815*." OCR versteht aber nicht, *dass* das eine Rechnungsnummer ist.
- KI-Extraktion (LLM/NLP) ordnet den erkannten Text in Bedeutung ein: "Das ist die Rechnungsnummer, das der Netto-Betrag, das das Faelligkeitsdatum." Ein modernes Sprachmodell kann das auch dann, wenn jede Rechnung anders aussieht.
Die Kombination ist der Hebel: OCR liefert sauberen Text, das Sprachmodell macht daraus ein strukturiertes Ergebnis (JSON, Tabelle, Datenbankeintrag). Bei digital erzeugten PDFs (z.B. aus einem ERP) braucht es oft gar keine OCR – der Text ist bereits maschinenlesbar und geht direkt ins Modell. Nur bei Scans und Fotos ist OCR zwingend vorgeschaltet.
Drei typische Anwendungsfaelle im Mittelstand
1. Eingangsrechnungen automatisch verbuchen
Lieferant, Rechnungsnummer, Datum, Netto, USt, Brutto, IBAN, Positionen – alles wird extrahiert und an DATEV, lexoffice oder die Warenwirtschaft uebergeben. Ein realer Effekt aus einem Projekt mit einem Pflanzen-Grosshandel: Eingangsrechnungen von dutzenden Lieferanten mit voellig unterschiedlichen Layouts laufen jetzt durch einen einzigen Workflow statt durch drei Personen.
2. E-Mail-Anfragen klassifizieren und Daten ziehen
Ein Visa- und Auswanderungs-Consulting bekommt taeglich Anfragen mit Name, Zielland, Familienstand und angehaengten Dokumenten. Statt jede Mail manuell zu sichten, extrahiert die KI die Kerndaten, ordnet die Anfrage einer Kategorie zu und legt sie strukturiert im CRM ab. Der Mensch entscheidet, die Maschine sortiert vor.
3. Vertraege und Exposés durchsuchbar machen
Gerade fuer Immobilienmakler relevant: Aus Grundbuchauszuegen, Exposés und Mietvertraegen lassen sich Flaeche, Baujahr, Miethoehe, Laufzeit oder Sonderklauseln automatisch herausziehen und vergleichbar machen – statt 40 PDFs einzeln zu lesen.
So sieht ein sauberer Extraktions-Workflow aus
Ein belastbarer Aufbau hat fuenf Stufen. Wer eine ueberspringt, baut sich Probleme.
- Eingang normalisieren. Dokumente kommen per Mail, Upload oder Scan-Ordner rein. Erster Schritt: einheitliches Format, Trennung von Bild-PDFs und Text-PDFs, Erkennung von mehrseitigen oder zusammengefassten Dateien.
- Texterkennung (nur wenn noetig). Bei Scans/Fotos OCR anwenden. Qualitaet pruefen – schiefe oder verrauschte Scans vorab geraderichten und entrauschen, das hebt die Trefferquote spuerbar.
- Extraktion. Das Sprachmodell bekommt den Text plus eine klare Vorgabe, welche Felder in welcher Struktur zurueckkommen sollen. Ergebnis ist maschinenlesbares JSON, kein Fliesstext.
- Validierung. Hier trennt sich Spielzeug von Produktivsystem: Pruefregeln gegen das Extraktionsergebnis. Summiert sich Netto + USt zum Brutto? Ist die IBAN formal gueltig? Liegt das Datum in einem plausiblen Bereich? Was die Pruefung nicht besteht, geht in eine manuelle Pruefschleife statt blind ins Zielsystem.
- Uebergabe. Saubere Daten gehen automatisch ins Zielsystem (Buchhaltung, CRM, ERP), via API oder einer Automationsplattform wie n8n oder Make.
Welche Werkzeuge in Frage kommen
Es gibt nicht *das eine* Tool – die Wahl haengt von Volumen, Dokumenttyp und vorhandener IT ab.
- OCR-Engines: Tesseract (Open Source, kostenlos, solide bei guten Scans), Google Document AI oder Azure Document Intelligence (cloudbasiert, stark bei schlechten Vorlagen und Tabellen).
- Sprachmodelle fuer die Extraktion: moderne LLMs wie Claude oder GPT-4-Klasse-Modelle. Sie sind bei wechselnden Layouts robuster als starre Template-Parser, die nur funktionieren, solange die Rechnung exakt gleich aussieht.
- Spezialisierte Rechnungs-Tools: Klippa, Rossum, Nanonets – fertige Pakete, schneller startklar, aber weniger flexibel und mit laufenden Lizenzkosten.
- Orchestrierung: n8n oder Make verbinden Eingang, OCR, Modell, Validierung und Zielsystem zu einem durchgehenden Ablauf – ohne dass jemand etwas anstoesst.
Die ehrliche Empfehlung: Fertig-Tools sind super fuer einen klar abgegrenzten Standardfall. Sobald mehrere Dokumenttypen, Sonderregeln und eine Anbindung an die eigene Software dazukommen, lohnt ein massgeschneiderter Workflow – genau hier setzt Plugwork an, mit Banking-Hintergrund fuer die Frage "welche Daten sind wofuer kritisch", bevor ueberhaupt Technik gebaut wird.
Die haeufigsten Stolpersteine
- Schlechte Scans. Knicke, Schatten, Handyfotos im Schraegwinkel ruinieren die OCR. Vorverarbeitung (Geraderichten, Kontrast) ist Pflicht, kein Nice-to-have.
- Tabellen. Mehrspaltige Positionslisten sind der Klassiker, an dem einfache Loesungen scheitern. Hier braucht es Engines mit Tabellen-Erkennung.
- Halluzinationen. Ein Sprachmodell erfindet im Zweifel ein plausibles Datum, statt "nicht gefunden" zu sagen. Deshalb ist die Validierungsschicht nicht verhandelbar – jeder extrahierte Wert muss gegen Regeln laufen.
- DSGVO. Rechnungen und Anfragen enthalten personenbezogene Daten. Cloud-OCR und externe Modelle brauchen einen Auftragsverarbeitungsvertrag (AVV), und es muss geklaert sein, wo verarbeitet wird. Bei besonders sensiblen Daten ist eine lokale oder EU-gehostete Verarbeitung das sauberere Setup.
- Kein Mensch im Prozess. Wer 100 % Automatisierung ohne Kontrollpfad anstrebt, baut sich stille Fehler ein. Der Goldstandard: Sicher Erkanntes laeuft durch, Unsicheres landet in der manuellen Pruefung.
Mini-Checkliste vor dem Start
- Welche Dokumenttypen und welches monatliche Volumen sollen verarbeitet werden?
- Sind die Dokumente digital erzeugt (kein OCR noetig) oder gescannt/fotografiert (OCR noetig)?
- Welche Felder braucht das Zielsystem konkret – und welche davon sind kritisch?
- Welche Pruefregeln machen ein Ergebnis vertrauenswuerdig?
- Wohin gehen die Daten am Ende – und gibt es dafuer eine API?
- Ist der Datenschutz (AVV, Speicherort) geklaert?
- Wer uebernimmt die manuelle Pruefschleife fuer Zweifelsfaelle?
Fazit
Daten aus PDFs und E-Mails zu extrahieren ist keine Zukunftsmusik, sondern eine der reifsten KI-Anwendungen fuer den Mittelstand – vorausgesetzt, man baut nicht nur "KI liest PDF", sondern einen kompletten Workflow mit OCR, Extraktion, Validierung und sauberer Uebergabe. Der ROI ist meist schnell sichtbar, weil eingesparte Tipparbeit und vermiedene Fehler direkt messbar sind. Entscheidend ist, mit einem klar abgegrenzten Use-Case zu starten, statt das ganze Unternehmen auf einmal automatisieren zu wollen.