Wie lang dauert ein Pilotprojekt für die KI-gestützte Auftragsabwicklung?

Realistisch 8–14 Wochen vom Kick-off bis zur ersten automatisch verarbeiteten Live-Bestellung. Die Hälfte entfällt erfahrungsgemäß auf Stammdaten-Bereinigung und ERP-Schnittstellen-Tests, nicht auf die KI selbst.

Lohnt sich das auch für reine Inbox-Anfragen statt Bestellungen?

Ja, oft sogar zuerst. Ein Klassifikations-Agent, der eingehende Mails sauber routet, ist in 2–3 Wochen produktiv und entlastet die Inbox sofort. Erst danach lohnt sich die volle Bestell-Pipeline.

Blog · Automatisierung

Auftragsabwicklung mit KI automatisieren: was im Mittelstand wirklich geht

Q: Können wir n8n als Workflow-Engine nutzen oder brauchen wir eine eigene Lösung?

n8n eignet sich gut als Orchestrator für mittlere Volumina bis etwa 50.000 Bestellungen pro Jahr und ist Self-Hosted DSGVO-konform. Für höhere Volumina oder Hochverfügbarkeit lohnt sich Temporal, Prefect oder eine schlanke Custom-Lösung.

von Tobias Egner · 25. Mai 2026 · 9 Min Lesezeit

Pipeline eines KI-Auftrags-Agenten: vom Posteingang bis zum Auftrag im ERP

Worum es geht: die Kurzfassung

Manuelle Auftragsabwicklung kostet im Mittelstand 6–15 Minuten pro Beleg (eigene Schätzungen aus Projektsondierungen, deckungsgleich mit Workist- und Innoby-Marktdaten).
KI-Agenten kommen heute auf 50–80 % Dunkelverarbeitung bei heterogenem Lieferantenmix; die obere Bandgrenze nur bei sauberen Stammdaten und stabilen Formaten.
EDI bleibt das Ideal, deckt aber nur ~20–30 % der Bestellungen im klassischen Mittelstand ab (BME-Verbandsdaten 2024). Den Rest macht die KI-Strecke wirtschaftlich attraktiv.
Der ROI rechnet sich meist ab 2.000 Bestellungen/Jahr. Darunter ist der Pilotaufwand schwer wieder einzuspielen.
Wo der Mensch bleibt: bei Sonderkonditionen, neuen Lieferanten, Reklamationen, alles was Vertragsentscheidungen tangiert.

Warum klassische EDI an der Realität des Mittelstands scheitert

EDI funktioniert hervorragend, wenn alle Beteiligten mitspielen. Im klassischen Mittelstand spielen sie es nicht. Die typische B2B-Realität sind 30–60 % Bestellungen per E-Mail, 20–30 % per PDF im Anhang, dazu Faxe (ja, noch immer), Excel-Tabellen, vereinzelte Webshops mit eigenen Exportformaten. Auf Großhändlerseite werden diese Eingänge bisher manuell ins ERP übertragen, Position für Position, mit Stammartikel-Lookup, Verfügbarkeitsprüfung und Rückbestätigung.

Die Kosten dieser Erfassung sind oft unsichtbar, weil sie über mehrere Personen verteilt sind. Eine Bestellsachbearbeiterin verarbeitet zwischen 30 und 60 Belege pro Tag; Klärfälle ziehen die Bearbeitungszeit pro Beleg von typischen 6 Minuten auf 15 oder mehr. In einem Großhandelsbetrieb mit 30.000 Bestellungen pro Jahr liegt der Aufwand schnell zwischen 3.000 und 7.500 Personenstunden. Bei 50–60 € Vollkosten pro Stunde sind das 150.000 € bis 450.000 € jährlich nur für die Auftragserfassung.

Ein klassisches EDI-Projekt scheitert dort, wo es am wichtigsten wäre: Die langen Tails der Kleinlieferanten und der wechselnden Endkunden lassen sich nicht standardisieren.

Wie ein KI-Agent eine Bestellung Schritt für Schritt verarbeitet

Ein produktiver Auftragsagent ist keine Magie, sondern eine geordnete Kette aus Erkennung, Anreicherung, Entscheidung und Aktion. Die acht Schritte:

Trigger: Ein dediziertes Postfach (bestellung@kunde.tld) empfängt die Mail. Ein Webhook oder ein n8n-Workflow gibt sie an den Agenten weiter.
Klassifikation: Der Agent erkennt, ob es sich um eine Bestellung, eine Anfrage, eine Reklamation oder eine Rückfrage handelt. Nur Bestellungen laufen ins Auftrags-Pipeline; alles andere wird an die zuständige Rolle geroutet.
Extraktion: Aus PDF-Anhang oder Mail-Body werden Positionen ausgelesen: Artikelnummer (wenn vorhanden), Bezeichnung, Menge, gewünschter Liefertermin, Anschrift.
Stammdaten-Matching: Jede Position wird gegen den Artikelstamm im ERP gemappt. Hier helfen Embeddings (semantischer Ähnlichkeitsvergleich), wenn der Kunde unsere Artikelbezeichnung nicht 1:1 verwendet.
Validierung: Verfügbarkeit, Preis, Konditionen werden aus dem ERP geprüft. Der Agent erkennt Abweichungen vom Standard (z. B. fehlende Rahmenpreise, ungewöhnliche Mengen).
Entscheidung: Bei vollständig validierten Positionen wird der Auftrag direkt im ERP angelegt, Status „freigegeben”. Bei Klärfällen erstellt der Agent einen Auftragsentwurf mit konkretem Hinweis („Position 3: Artikel nicht im Stamm. Vorschlag: 47-A22 oder 47-A23?”) und legt ihn der Bestellsachbearbeitung vor.
Bestätigung: Eine Auftragsbestätigung wird im Corporate Design generiert und an den Kunden versandt, automatisch beim Happy Path, nach Freigabe beim Klärfall.
Logging: Jeder Schritt landet im Audit-Log: Welche Felder wurden extrahiert, wie sicher war der Agent, wer hat freigegeben.

Wichtig ist Schritt 6. Ein Agent, der bei Unsicherheit trotzdem den Auftrag anlegt, ist gefährlicher als ein langsamer manueller Prozess. Die Kunst ist die Schwellwert-Kalibrierung: bei welchem Confidence-Score wird durchgeschoben, bei welchem wird zur Klärung vorgelegt.

Was realistisch geht: 50–80 % Dunkelverarbeitung als ehrliche Bandbreite

Verkäufer erzählen gern von „95 % Automatisierung”. Die Realität ist differenzierter:

Mit homogenem Lieferantenmix (z. B. wenige Großkunden mit konsistenten Formaten) sind 70–85 % Dunkelverarbeitung möglich.
Mit klassischem Mittelstand-Mix (viele kleine Kunden, wechselnde Formate, schlechte Stammdaten) sind 40–60 % realistisch. Den Rest holt man über kontinuierliche Optimierung: Stammdaten-Bereinigung, Lieferantenschulung, bessere Templates.
In den ersten drei Monaten nach Go-Live ist die Quote oft 20 % niedriger als im Steady State, weil der Agent erst lernen muss, wo Ihre spezifischen Klärfälle liegen.

Die zitierten 80 % aus Marketing-Materialien beziehen sich meist auf den Happy Path nach 12+ Monaten Optimierung, nicht auf Tag 1. Wer eine Investitionsentscheidung trifft, sollte für die ersten sechs Monate mit 40–60 % rechnen und dann nach oben skalieren.

ROI-Rechenmodell: Was eine manuell erfasste Bestellung wirklich kostet

Statt fiktiver Customer-Zahlen liefert das folgende Modell ehrlich, was die Kalkulation für einen Mittelstand-Handelsbetrieb ergibt. Setzen Sie Ihre eigenen Eingangswerte ein:

Position	Wert (Beispiel)	Ihre Annahme
Bestellungen pro Jahr	18.000	_____
Manuelle Bearbeitungszeit pro Beleg (Ø, inkl. Klärfälle)	9 Min	_____
Vollkosten Bestellsachbearbeitung pro Stunde	55 €	_____
Personalkosten heute	148.500 €/Jahr	_____
Erwartete Dunkelverarbeitung Jahr 1	55 %	_____
Verbleibende manuelle Bearbeitung	66.825 €/Jahr	_____
Einsparung Personalbudget Jahr 1	81.675 €/Jahr	_____
Einmalig: Implementierung Agent + ERP-Anbindung	35.000–80.000 €	_____
Laufend: LLM-Inferenz + Hosting + Wartung	12.000–25.000 €/Jahr	_____
ROI Jahr 1 (Mitte beider Spannen)	~30 % im Plus	_____
ROI Jahr 2 (ohne erneute Implementierung)	~170 % im Plus	_____

Das Modell zeigt: Bei weniger als 2.000 Bestellungen/Jahr lohnt sich der Implementierungsaufwand schwer; oberhalb von 10.000 wird die Rechnung deutlich. Für Fertigungsbetriebe mit hohem Sonderfertigungs-Anteil sieht die Rechnung anders aus. Siehe unsere Pillar-Übersicht zu KI-Agenten im Mittelstand.

Wo der Mensch bleibt (Human-in-the-Loop)

Ein guter Auftragsagent eliminiert nicht den Menschen, sondern befreit ihn von der Belegerfassung und gibt ihm die Klärfälle bewusst zur Entscheidung:

Neue Lieferanten und Kunden ohne Stammdaten-Historie.
Abweichende Konditionen: Preisanfragen, ungewöhnliche Zahlungsziele, Sonderrabatte.
Reklamations- und Stornofälle, die emotional und juristisch geführt werden.
Strategische Großbestellungen oberhalb definierter Schwellwerte (z. B. > 50 k€), die immer eine Freigabe brauchen.
Erkennbare Mehrdeutigkeiten, bei denen der Agent zwei Lösungen mit ähnlicher Confidence sieht.

Die Bestellsachbearbeitung verschwindet nicht, sie wird zur Klärinstanz mit Vetorecht. Das ist häufig auch ein Argument gegen Betriebsratsbedenken: Es geht nicht um Personalabbau, sondern um Entlastung von Routinearbeit, die niemand gern macht.

Integration in SAP, Business Central, DATEV, Sage & Co.

Die ERP-Anbindung ist der eigentliche Engpass, nicht die KI. Drei Integrationsmuster sind heute Standard:

API-First (modern): SAP S/4HANA, Business Central, Odoo, proALPHA, abas. Alle bieten REST- oder OData-APIs. Ein Auftragsagent kann direkt Aufträge anlegen, Stammdaten lesen, Bestände prüfen. Sauberste Lösung.
Datenbank/Adapter-Schicht (klassisch): Bei älteren Versionen von SAP B1 oder Sage hilft eine Middleware (z. B. Mulesoft, Make, n8n mit Custom Nodes), die strukturiert auf die Datenbank zugreift.
RPA als Notnagel: Wenn keine API verfügbar ist (selten, aber bei manchen Branchenlösungen Realität), simuliert ein RPA-Bot die Eingabe in der ERP-Oberfläche. Funktioniert, ist aber brüchig: jedes UI-Update kann den Bot lahmlegen.

Für die Buchhaltung ist DATEV der häufigste Endpunkt. Hier reicht meist eine strukturierte Übergabe via DATEV-Unternehmen-Online-Format, die jeder Auftragsagent erzeugen kann.

Häufige Fragen

Brauchen wir eigene Modelle, oder reicht ein API-Modell wie GPT-4 / Claude? Für die Klassifikation und Extraktion reichen kommerzielle API-Modelle. Wer DSGVO-strikt vorgeht (besonders bei personenbezogenen Daten in den Bestellungen), nutzt EU-gehostete Endpunkte (z. B. Azure OpenAI EU, Mistral Le Plateforme) oder eine lokale Inferenz mit Llama 3.1 / Qwen 2.5 auf eigener Hardware.

Wie lang dauert ein Pilotprojekt? Realistisch 8–14 Wochen vom Kick-off bis zur ersten automatisch verarbeiteten Live-Bestellung. Die Hälfte davon entfällt erfahrungsgemäß auf Stammdaten-Bereinigung und ERP-Schnittstellen-Tests, nicht auf die KI selbst.

Was passiert bei einer falsch verarbeiteten Bestellung? Bei sauber implementiertem Human-in-the-Loop fällt eine fehlerhafte Auftragsanlage entweder dem ERP (Plausibilitätsprüfung) oder dem Bestellsachbearbeiter (Stichproben-Review) auf. Das Audit-Log lässt jederzeit nachvollziehen, warum der Agent welche Entscheidung getroffen hat. Wichtig für Lehrschleifen und für die Revision.

Lohnt sich das auch für reine Inbox-Anfragen (nicht Bestellungen)? Ja, oft sogar zuerst. Ein Klassifikations-Agent, der eingehende Mails sauber routet (Bestellung / Anfrage / Reklamation / Spam), ist in 2–3 Wochen produktiv und entlastet die Inbox sofort. Erst danach lohnt sich die volle Bestell-Pipeline.

Können wir n8n als Workflow-Engine nutzen, oder brauchen wir eine eigene Lösung? n8n eignet sich gut als Orchestrator für mittlere Volumina (bis ~50.000 Bestellungen/Jahr) und ist Self-Hosted DSGVO-konform. Für höhere Volumina oder Hochverfügbarkeitsanforderungen lohnt sich die Diskussion über Temporal, Prefect oder eine schlanke Custom-Lösung.

Wo Sie ansetzen, wenn Sie heute starten möchten

Drei Schritte sind unabhängig vom Anbieter sinnvoll, bevor Sie überhaupt mit einem Pilotpartner sprechen:

Eine Woche lang messen, wie viele Bestellungen Sie über welchen Kanal erhalten und wie viel Zeit deren Erfassung kostet. Ohne diese Zahlen ist keine Investitionsentscheidung sauber zu begründen.
Den Stammartikel-Datensatz kurz reviewen: Wie viel Prozent Ihrer Artikel sind eindeutig benannt, mit Synonymen versehen, aktuell? Das ist der größte Hebel für die spätere Erkennungsquote.
Eine kleine Pilot-Strecke definieren, am besten ein Lieferant oder Kundensegment mit hohem Volumen und konsistentem Format. Dort lässt sich der Mehrwert messbar zeigen, bevor Sie skalieren.

Wir begleiten den Weg von der Sondierung bis zum produktiven Betrieb. Wenn Sie mit dem Gedanken spielen, vereinbaren Sie ein Beratungsgespräch. Die ersten 30 Minuten kosten Sie nichts und liefern Ihnen mindestens eine klare Aussage, ob sich der Aufwand für Ihren Lieferantenmix rechnet.

← Alle Artikel