Blog · RAG im Mittelstand

Visuelle Dokumenten-KI im Wareneingang: Warum OCR an Lieferscheinen scheitert

Q: Was unterscheidet visuelle Dokumenten-KI von klassischem OCR?

Klassisches OCR zerlegt das Dokument zuerst in einzelne Texte und Tabellen, bevor irgendetwas verstanden wird. Visuelle Dokumenten-KI arbeitet direkt auf dem Seitenbild und versteht Layout, Tabellen, Diagramme und Stempel in einem Schritt. Das löst genau die Pipeline-Fehler, an denen klassische OCR-/Layout-Tools heute scheitern.

Q: Brauchen wir GPUs für visuelle Dokumenten-Modelle?

Für 3B–7B-Modelle wie Qwen2.5-VL, MiniCPM-V oder InternVL3 reicht eine einzelne moderne GPU (NVIDIA L4, A10, RTX 4090). Für größere 32B-Modelle empfehlen wir zwei Karten mit insgesamt 48–80 GB VRAM. On-Premise ist absolut machbar und üblich.

Q: Wie viel besser ist visuelles RAG im Vergleich zu Text-RAG?

Auf Dokumenten mit Tabellen, eingebetteten Diagrammen oder mehrspaltigen Layouts erreichen visuelle Modelle in publizierten Benchmarks (DocVQA, ChartQA, M-LongDoc) 15–35 Prozentpunkte höhere Antwort-Genauigkeit als Text-RAG. Auf reinen Fließtext-Dokumenten ist der Unterschied marginal.

Q: Was kostet ein Pilot in unserem Wareneingang?

Realistisch 25.000–80.000 Euro für eine erste Linienanwendung inklusive Hardware, Modell-Auswahl, Anbindung an WMS oder ERP und einem Schattenbetrieb über sechs bis acht Wochen. Die Skalierung auf weitere Dokumenttypen ist anschließend deutlich günstiger.

Q: Was ist mit DSGVO und Personendaten auf Lieferscheinen?

Lieferscheine enthalten regelmäßig Namen von Fahrern, Sachbearbeitern und Empfängern. Lokale Inferenz auf eigenen Servern löst den Großteil der Diskussion. Eine Auftragsverarbeitung mit dem Modellbetreiber entfällt, eine DSFA wird in der Regel nicht ausgelöst.

Q: Können wir das mit unserer bestehenden OCR-Lösung kombinieren?

Ja, und das ist häufig der pragmatische Pfad. Klassisches OCR (ABBYY, Tesseract, Kofax) ist bei standardisierten Formularen oft schneller und billiger. Visuelle Modelle ergänzen dort, wo Layouts variieren, Tabellen verschachtelt sind oder Diagramme inhaltlich relevant werden, also genau bei den 30–40 % Belegen, die heute manuell landen.

Q: Welches Modell empfehlen Sie für den Einstieg?

Für 2026 empfehlen wir Qwen2.5-VL-7B oder InternVL3-8B als Einstieg. Beide sind Open-Source-Modelle mit kommerziell freier Lizenz, laufen auf einer einzelnen GPU und liefern auf typischen Großhandelsdokumenten Praxis-Genauigkeit über 90 %. Für komplexere Fälle (handgeschriebene Annotationen, schlechte Scans) lohnt sich Qwen2.5-VL-32B oder GPT-4o-Vision in einem Hybrid-Setup.

von Tobias Egner · 27. Mai 2026 · 11 Min Lesezeit

Vergleich klassisches OCR-Pipeline versus visuelles Vision-Language-Modell für Lieferscheine und Datenblätter

Worum es geht: die Kurzfassung

Lieferscheine, Chargenzettel und technische Datenblätter sind die hartnäckigsten Papier-Reste im Großhandel. Klassisches OCR scheitert nicht an der Schrifterkennung, sondern am Layout: gedrehte Stempel, mehrspaltige Tabellen, eingebettete Diagramme, handschriftliche Korrekturen.
Visuelle Dokumenten-Modelle (Vision-Language-Modelle wie Qwen2.5-VL, InternVL3, MiniCPM-V) verstehen das Seitenbild direkt, Layout, Tabellen, Diagramme und Text in einem Schritt. Die Pipeline aus OCR → Layoutanalyse → Tabellenparser → semantischer Ebene entfällt.
Realistische Effekte im Wareneingang: Erfassungszeit pro Lieferschein von 4–8 Minuten auf 20–40 Sekunden, manuelle Korrekturquote von 12–18 % auf 2–4 %, fehlende Erstaufzeichnungen praktisch eliminiert.
Im Einkauf: Recherchezeit pro Lieferantenkatalog von ~40 Minuten auf wenige Minuten. Staffelpreise, Mindestbestellmengen und Sonderkonditionen werden direkt aus eingebetteten Tabellen abgefragt, statt manuell durchgeblättert.
Lokal lauffähig. 7B-Modelle laufen auf einer einzelnen GPU im eigenen Rechenzentrum, kein Cloud-Datenraum nötig. Das ist für die DSGVO-Diskussion der entscheidende Hebel.
Realistische Investition: 25.000–80.000 € für den ersten produktiven Anwendungsfall. Skalierung auf weitere Dokumenttypen wird deutlich günstiger.

OCR ist nicht das Problem: die Pipeline danach ist es

Die meisten Großhändler haben OCR seit 15 Jahren im Einsatz. ABBYY, Kofax, manchmal Tesseract, oft eingebaut in DMS-Lösungen wie ELO oder d.velop. Die Texterkennung selbst funktioniert dort, wo Schrift sauber gedruckt ist, zuverlässig: 98–99 % Zeichenerkennung sind Standard.

Was scheitert, ist die Pipeline danach. Eine klassische Dokumenten-Pipeline besteht aus mindestens vier eigenständigen Schritten:

OCR: Zeichen auf Text mappen.
Layout-Analyse: Welcher Text gehört zu welcher Zone (Kopf, Tabelle, Fußzeile, Stempel)?
Tabellen-Parser: Zeilen und Spalten rekonstruieren, Mehrfach-Header auflösen, verschmolzene Zellen behandeln.
Semantischer Mapper: Welche Spalte ist die Menge, welche die Einheit, welche der Artikelcode, welche der Preis?

Jeder dieser Schritte ist eine eigene Fehlerquelle. Eine 90-%-Genauigkeit pro Stufe ergibt am Ende der vierstufigen Kette eine effektive Genauigkeit von rund 66 %. In der Praxis sieht das so aus: Ein Sachbearbeiter im Wareneingang öffnet 38 Lieferscheine pro Tag, 5–7 davon haben Felder, die die OCR-Pipeline nicht oder falsch erfasst hat. Diese landen in einer Ausnahme-Queue, in der ein Mensch das Dokument visuell prüft und manuell ins WMS überträgt.

Klassische OCR-Anbieter lösen das Problem über Templates: Pro Lieferant wird das Layout einmal trainiert, anschließend funktioniert die Erfassung. Das funktioniert bei großen Lieferanten mit konstantem Layout sehr gut. Es bricht bei Long-Tail-Lieferanten zusammen, die einmal im Quartal liefern und ihr Formular gelegentlich anpassen, und genau diese 30–40 % aller eingehenden Belege sind heute die teuerste Position in der Auftragsabwicklung.

Was visuelle Dokumenten-KI anders macht

Visuelle Vision-Language-Modelle (kurz VLMs) ersetzen die vierstufige Pipeline durch einen Modellaufruf. Das Modell sieht das Seitenbild als Pixel-Eingabe, versteht parallel den Text, die Tabellen, die Diagramme und die räumliche Anordnung, und liefert strukturierte Ausgaben direkt im gewünschten Format, typischerweise JSON, das ohne Zwischenschritt ins ERP oder WMS geschrieben werden kann.

Drei Forschungslinien aus 2025 haben das in die Praxis gebracht:

VDocRAG (Visual Document RAG) zeigt, dass Seitenbild-basiertes Retrieval bei mehrseitigen Dokumenten mit visuellen Elementen deutlich höhere Antwort-Genauigkeit liefert als Text-RAG. Die Eingabe ist die Seite als Bild, keine OCR-Vorverarbeitung.
ViDoRAG (Iterative Visual RAG) ergänzt das um einen mehrstufigen Reasoning-Loop: Das Modell prüft, ob es genug Information hat, und holt iterativ weitere Seiten oder Ausschnitte nach, statt einmal über den gesamten Kontext zu raten.
TokenVL und ähnliche Token-Level-Dokumentenmodelle erlauben es, einzelne Tabellenzellen, Stempel oder handschriftliche Annotationen mit Pixel-genauer Lokalisierung in die Antwort einzubauen, wichtig für Audit-Trails.

In der Praxis bedeutet das: Sie geben dem Modell ein Lieferscheinbild und die Frage „Welche Positionen mit Menge und Charge sind enthalten?” und bekommen eine strukturierte Antwort, die auch die abgestempelte Charge-Korrektur und die handschriftliche Mengenkorrektur am Rand mitnimmt. Bei klassischer OCR-Pipeline wären diese beiden Felder typischerweise in die Ausnahme-Queue gelaufen.

Drei konkrete Hebel im Großhandel

Nicht jeder Anwendungsfall lohnt den Wechsel. Drei Bereiche, in denen sich der Aufwand operativ ehrlich rechnet:

1. Wareneingang: Lieferschein-Erfassung

Heute bekommt der Wareneingangs-Sachbearbeiter den Lieferschein in vier Varianten: als PDF per E-Mail, als Foto aus der App des Fahrers, als Papierausdruck (eingescannt), und gelegentlich nur eine Telefon-Avisierung mit nachträglichem Beleg. Klassisches OCR funktioniert auf der ersten Variante, scheitert auf den anderen drei.

Ein VLM-basierter Erfassungsagent liest alle vier Varianten gleich. Genauigkeit auf den schwierigen Fotos und Scans steigt typischerweise von 60–70 % auf 92–96 %. Wichtiger als die Genauigkeit pro Beleg ist der Wegfall der Ausnahme-Queue: Wo heute ein Sachbearbeiter 5–7 Belege pro Tag manuell nachbearbeitet, bleiben mit einer visuellen Pipeline 0–2 übrig.

2. Einkauf: Lieferantenkataloge und Preisvergleiche

Ein Sortimentsmanager im Sanitär- oder Elektrogroßhandel arbeitet mit Lieferantenkatalogen, die zwischen 50 und 800 Seiten haben, voll mit Staffelpreis-Tabellen, Mindestbestellmengen und Sonderkonditionen für Großabnehmer. Heute wird das durchgeblättert. Ein typisches Anfrage-an-Bestellentscheidung-Szenario kostet 30–50 Minuten reine Recherche.

Ein visuelles RAG-System ingestiert den Katalog als Seitenbilder. Anfragen wie „Welcher Lieferant bietet Artikel X bei einer Abnahme von 500 Stück zum besten Listenpreis, und wie ändert sich das bei 1.000 Stück?” werden in 10–30 Sekunden beantwortet, inklusive Verweis auf die Seite und den Tabellenausschnitt im Katalog, sodass der Einkäufer die Auskunft im Audit-Fall direkt belegen kann.

3. Reklamation und Retoure: Belegabgleich

Bei Reklamationen mit Materialfotos, händisch annotierten Schäden und Lieferschein-Stempeln liefert visuelles RAG den entscheidenden Vorteil: Das Modell vergleicht die Reklamationsfotos und den ursprünglichen Lieferschein und das Materialprüfprotokoll in einem Aufruf. Das ergibt eine vorgeschlagene Bearbeitungsempfehlung (Gutschrift, Ersatzlieferung, Rückversand) mit zitierten Quellbelegen. Wir haben das in unserem Beitrag zur Reklamationsbearbeitung mit KI ausführlich beschrieben, der Schritt zu visuellen Modellen löst dort die letzten Brüche, an denen klassisches OCR-RAG heute aus dem Tritt kommt.

Wo es heute funktioniert, wo nicht

Wir lehnen uns nicht aus dem Fenster: Es gibt Klassen von Dokumenten, bei denen visuelle Modelle 2026 noch nicht überzeugend sind.

Funktioniert robust:

Standardisierte Lieferscheine, Rechnungen und Auftragsbestätigungen, auch bei wechselnden Lieferanten.
Mehrspaltige Tabellen mit Staffel-, Mengen- und Preisspalten, auch mit verschmolzenen Headern.
Eingebettete einfache Diagramme (Balken, Linien, Tabellen-Charts), die Inhalte werden korrekt abgefragt.
Stempel und Aufkleber als zusätzliche Information (Charge, Lagerort, Empfangsbestätigung).
PDF-Mischbelege mit gemischten Seitenformaten (hoch- und querformatige Seiten in einem Dokument).

Bricht ein:

Sehr dichte handgeschriebene Annotationen über Tabellenzellen, bleibt fehlerträchtig bei kursiver Handschrift.
Extrem schlechte Scan-Qualität (unter 150 dpi, starker Knick, JPEG-Kompression < 60 %).
CAD-Zeichnungen oder konstruktive Maßzeichnungen mit funktionaler Bedeutung, VLMs verstehen geometrische Annotationen noch nicht ausreichend für sicherheitskritische Auslegungen.
Tabellen mit über 20 Spalten und Mehrzeilen-Headern, hier hilft eine vorgeschaltete Tabellen-Erkennung weiter.

Daraus folgt: Das produktive Setup ist meist hybrid. Klassisches OCR bleibt für die einfache 60–70 %, das VLM übernimmt die schwierigen 30–40 %. Das ist deutlich günstiger als der vollständige Austausch und bringt den Großteil des wirtschaftlichen Effekts.

On-Premise oder Cloud? Die DSGVO-Praxis

Großhandel-Belege enthalten regelmäßig Personendaten: Namen von Fahrern, Sachbearbeitern, Einkäufern bei Lieferanten, Adressen. Eine externe Verarbeitung über GPT-4o-Vision, Claude oder Gemini ist möglich, erfordert aber Auftragsverarbeitungsverträge, eine Risikoabwägung im Verzeichnis der Verarbeitungstätigkeiten und, bei einigen Branchen wie Pharma- oder Lebensmittelgroßhandel, eine zusätzliche Bewertung im QM-System.

Die deutlich pragmatischere Variante ist die lokale Inferenz. Aktuelle 7B- und 8B-Vision-Modelle laufen auf einer einzelnen GPU (RTX 4090, NVIDIA L4, A10) im eigenen Rechenzentrum oder bei einem deutschen Hosting-Partner. Eine typische Konfiguration:

Modell: Qwen2.5-VL-7B oder InternVL3-8B, beide mit kommerzieller Open-Source-Lizenz.
Hardware: Ein Server mit einer GPU à 24 GB VRAM, ca. 4.000–8.000 € einmalig, plus moderater Strom- und Betriebsaufwand.
Durchsatz: 8–20 Seiten pro Sekunde, ausreichend für Tausende Belege täglich.
Integration: REST-API für das WMS- oder ERP-System, identisch zu klassischen OCR-Anbietern.

Damit ist der Datenpfad vollständig innerhalb der eigenen Infrastruktur. Eine Auftragsverarbeitung entfällt, eine Datenschutz-Folgenabschätzung wird in der Regel nicht ausgelöst, und der Betriebsrat hat einen deutlich kürzeren Verhandlungsspielraum.

Wer den vollen DSGVO-Kontext sucht, findet im Dagentic-Beitrag zum EU AI Act und der DSGVO für KI-Agenten im Mittelstand den umfassenden Rahmen.

Was ein Pilot realistisch kostet

Wir nennen Bandbreiten, weil die Spreizung je nach Setup groß ist:

Sondierung und Datensammlung (4–6 Wochen): 8.000–18.000 € extern, vor allem Workshop-Aufwand, Auswahl der Dokumenttypen, Sammlung von 300–600 repräsentativen Belegen und Definition der Zielgenauigkeit.
Modell- und Pipeline-Aufbau (6–10 Wochen): 12.000–35.000 €, abhängig davon, ob ein bestehendes Open-Source-Modell direkt eingesetzt werden kann oder ob ein leichtes Fine-Tuning auf eigenen Belegen sinnvoll ist (typischerweise 200–800 gelabelte Beispiele).
Integration in WMS oder ERP (3–6 Wochen): 6.000–15.000 €, vor allem für SAP-, Microsoft-Dynamics- oder Sage-Anbindungen mit klar dokumentierten Schnittstellen. Bei selbstentwickelten Warenwirtschaftssystemen kann es teurer werden.
Hardware on-premise: 4.000–12.000 € einmalig für eine GPU-fähige Workstation oder einen kleinen Server. Cloud-Inferenz bei einem deutschen Hoster: 200–800 €/Monat.

In Summe: 30.000–80.000 € für den ersten produktiven Use-Case, mit messbaren Effekten im Wareneingang oder Einkauf innerhalb von vier bis sechs Monaten. Der zweite Use-Case (gleiche Pipeline, neuer Dokumenttyp) kostet typischerweise 30–50 % davon.

Häufige Fragen

Was unterscheidet visuelle Dokumenten-KI von klassischem OCR? Klassisches OCR zerlegt das Dokument zuerst in einzelne Texte und Tabellen, bevor irgendetwas verstanden wird. Visuelle Dokumenten-KI arbeitet direkt auf dem Seitenbild und versteht Layout, Tabellen, Diagramme und Stempel in einem Schritt. Das löst genau die Pipeline-Fehler, an denen klassische OCR-Pipelines bei wechselnden Layouts und Long-Tail-Lieferanten scheitern.

Brauchen wir GPUs für visuelle Dokumenten-Modelle? Für 3B–7B-Modelle wie Qwen2.5-VL, MiniCPM-V oder InternVL3 reicht eine einzelne moderne GPU (NVIDIA L4, A10, RTX 4090). Für größere 32B-Modelle empfehlen wir zwei Karten mit insgesamt 48–80 GB VRAM. On-Premise ist absolut machbar und üblich.

Wie viel besser ist visuelles RAG im Vergleich zu Text-RAG? Auf Dokumenten mit Tabellen, eingebetteten Diagrammen oder mehrspaltigen Layouts erreichen visuelle Modelle in publizierten Benchmarks (DocVQA, ChartQA, M-LongDoc) 15–35 Prozentpunkte höhere Antwort-Genauigkeit als Text-RAG. Auf reinen Fließtext-Dokumenten ist der Unterschied marginal, dort lohnt klassisches RAG weiterhin.

Was kostet ein Pilot in unserem Wareneingang? Realistisch 25.000–80.000 € für eine erste Linienanwendung inklusive Hardware, Modell-Auswahl, Anbindung an WMS oder ERP und einem Schattenbetrieb über sechs bis acht Wochen. Die Skalierung auf weitere Dokumenttypen ist anschließend deutlich günstiger.

Was ist mit DSGVO und Personendaten auf Lieferscheinen? Lieferscheine enthalten regelmäßig Namen von Fahrern, Sachbearbeitern und Empfängern. Lokale Inferenz auf eigenen Servern löst den Großteil der Diskussion. Eine Auftragsverarbeitung mit dem Modellbetreiber entfällt, eine DSFA wird in der Regel nicht ausgelöst.

Können wir das mit unserer bestehenden OCR-Lösung kombinieren? Ja, und das ist häufig der pragmatische Pfad. Klassisches OCR (ABBYY, Tesseract, Kofax) ist bei standardisierten Formularen oft schneller und billiger. Visuelle Modelle ergänzen dort, wo Layouts variieren, Tabellen verschachtelt sind oder Diagramme inhaltlich relevant werden, also genau bei den 30–40 % Belegen, die heute manuell landen.

Welches Modell empfehlen Sie für den Einstieg? Für 2026 empfehlen wir Qwen2.5-VL-7B oder InternVL3-8B als Einstieg. Beide sind Open-Source-Modelle mit kommerziell freier Lizenz, laufen auf einer einzelnen GPU und liefern auf typischen Großhandelsdokumenten Praxis-Genauigkeit über 90 %. Für komplexere Fälle (handgeschriebene Annotationen, schlechte Scans) lohnt sich Qwen2.5-VL-32B oder ein Hybrid mit GPT-4o-Vision.

Wo Sie anfangen, wenn Sie heute starten möchten

Suchen Sie nicht das spektakulärste Dokument, sondern das, bei dem Sie heute die meisten Ausnahmen produzieren. Das ist fast immer der Long-Tail-Lieferschein oder der Lieferantenkatalog ohne festes Layout. Dort liegt der höchste wirtschaftliche Hebel, und es ist gleichzeitig der Punkt, an dem klassische OCR-Erweiterungen am teuersten werden.

Wenn Sie wissen wollen, ob Ihr Belegmix für eine visuelle Pipeline geeignet ist, vereinbaren Sie ein Beratungsgespräch. Im Erstgespräch klären wir, welche Dokumenttypen Sie heute manuell bearbeiten, welche Pipeline schon steht und welche Hardware oder Cloud-Optionen für Ihren Datenschutzkontext sinnvoll sind.

← Alle Artikel