Was ist der häufigste Pilotfehler bei KI-Agenten?

Zu großer Scope. Wer in 90 Tagen die ganze Auftragsabwicklung automatisieren will, scheitert. Klein anfangen, einen Use Case messbar produktiv bringen, dann skalieren.

Welche Volumina rechtfertigen einen eigenen KI-Agenten?

Faustregel: Bei weniger als 30 Vorgängen pro Woche im Zielprozess rechnet sich ein eigener Agent meist nicht. Oberhalb von 100 Vorgängen pro Woche wird die Frage interessant; bei mehreren Tausend lohnt sich fast immer.

Blog · Agentic AI

KI-Agenten im Mittelstand 2026: Neun Anwendungsfälle für Handel und Fertigung, die einen 90-Tage-Pilot tragen

Q: Wie messen wir den Erfolg eines KI-Agenten?

Drei Kennzahlen: Dunkelverarbeitungsquote (Prozent ohne menschliches Zutun), durchschnittliche Bearbeitungszeit pro Fall, Fehlerquote nach Stichprobe. Plus Mitarbeiterzufriedenheit. Wird der Agent als Entlastung erlebt, läuft das Projekt.

von Tobias Egner · 25. Mai 2026 · 11 Min Lesezeit

Neun KI-Agenten-Anwendungsfälle für Handel, Fertigung und Workflows im Überblick

Worum es geht: die Kurzfassung

Ein KI-Agent ist kein Chatbot und keine RPA. Er bekommt ein Ziel und passende Werkzeuge und entscheidet selbst, in welcher Reihenfolge er sie einsetzt.
Im Handel ist der Hebel oft groß und schnell sichtbar (Reklamationen, Auftragseingang, Lead-Qualifizierung, Sortimentspflege, dynamische Preisanpassung).
In der Fertigung sind die Use Cases technischer und datenintensiver (Stücklistenextraktion, Schichtplanung, Lieferantenkommunikation, Service-Doku).
Architektur-typisch: LLM-Kern, Tool-Layer mit ERP/CRM/PIM/MES-Anbindung, Memory, ein Workflow-Orchestrator (n8n, Temporal, eigene Lösung) und ein Audit-Log.
EU AI Act: Für die meisten unserer Use Cases gilt „limited risk”, Transparenzpflichten reichen. „High risk” greift dort, wo Personalentscheidungen, Bonitätsbewertungen oder kritische Infrastruktur tangiert sind.
Pilot in 90 Tagen ist realistisch, wenn Sie eine eng abgegrenzte Strecke wählen: nicht „die ganze Auftragsabwicklung”, sondern „die ersten 500 Bestellungen eines Lieferanten”.

Was unterscheidet KI-Agenten von Chatbots und RPA?

Die drei Begriffe werden oft synonym verwendet, sie meinen Verschiedenes.

Chatbot: Antwortet auf Fragen. Mit oder ohne KI im Hintergrund, aber er handelt nicht. Die Buchung machen Sie selbst.
RPA (Robotic Process Automation): Folgt einem vorprogrammierten Pfad. Wenn der Pfad sich ändert (anderes Excel-Layout, anderes ERP-Update), bricht er ab. Klassisch sind UiPath, Blue Prism, Automation Anywhere.
KI-Agent: Bekommt ein Ziel und einen Werkzeugkasten. Er plant den Pfad selbst, passt sich an unbekannte Situationen an und eskaliert, wenn er ansteht. Bei Unsicherheit gibt er an einen Menschen ab.

Die kritische Eigenschaft eines Agenten ist die Tool Use: Der Agent kann via API auf das ERP zugreifen, eine PDF parsen, eine E-Mail versenden, eine Datenbankzeile schreiben. Vor zwei Jahren war das experimentell, heute ist es Standard. Wer mehr zur Abgrenzung lesen will: unsere Übersicht zu Agentic AI im Mittelstand geht tiefer auf die Konzepte ein.

Fünf Anwendungsfälle im Handel

1. Reklamationsbearbeitung mit Vorqualifikation

Eingehende Reklamationen werden klassifiziert (Transportschaden, Sachmangel, Falschlieferung, Kulanzfall), gegen Auftrags- und Versanddaten geprüft und mit einem Lösungsvorschlag versehen. Der Bearbeiter entscheidet. Der Agent hat alle Unterlagen schon gezogen, den Vorgang in Salesforce/HubSpot eröffnet und einen Antwortentwurf formuliert. Realistischer Effekt: Bearbeitungszeit pro Fall typisch 60–80 % kürzer; nicht alle Fälle laufen automatisch durch, aber alle laufen vorqualifiziert ein. Den eng verwandten, aber anders gelagerten Rücksendeprozess behandelt der Beitrag zum Retourenmanagement mit KI.

2. Auftragseingang aus heterogenen Kanälen

Bestellungen per Mail, PDF, Fax oder Webshop werden ausgelesen, gegen Stammartikel und Verfügbarkeit geprüft und im ERP als Auftrag angelegt: bei sauberen Stammdaten und konsistenten Lieferantenformaten zu 70–85 %, im klassischen Mittelstandsmix zu 40–60 %. Details dazu im eigenen Artikel: Auftragsabwicklung mit KI automatisieren.

3. Lead-Qualifizierung aus eingehenden Kontaktanfragen

Ein Agent liest die Mail oder das Formular, gleicht den Absender mit Branchendaten ab (LinkedIn-Profil, Unternehmensdaten, frühere Kontakte im CRM), schätzt Fit und Buying-Stage ein und erstellt einen vorqualifizierten Lead-Datensatz inkl. nächstem sinnvollen Schritt. Der Vertrieb sieht eine sortierte Inbox statt eines undifferenzierten Stapels. Wie ein faires Scoring entsteht und wo DSGVO und EU AI Act Grenzen setzen, vertieft der Beitrag zur Lead-Qualifizierung mit KI im B2B-Vertrieb.

4. Sortiments- und Stammdatenpflege im E-Commerce

Produkttexte, Attribute und Übersetzungen werden zwischen ERP, PIM, Shop und Marktplätzen synchron gehalten. Fehlende Inhalte (Maße, Materialangaben, SEO-Texte) ergänzt der Agent auf Basis vorhandener Quellen. Freigabe bleibt beim Team. Wer heute 400 Artikel pro Monat manuell pflegt, schafft mit Agent-Support ein Vielfaches.

5. Dynamische Preisanpassung (mit Schwellwert-Kontrolle)

Auf Basis von Wettbewerbspreisen, Lagerstand, Saisonalität und Margenzielen schlägt ein Agent Preisanpassungen vor. Der Mensch behält die Hoheit. Der Agent darf Preise in einem definierten Korridor (z. B. ±5 %) eigenständig ändern, alles darüber geht zur Freigabe. Für Marketplace-Geschäft ist das heute oft die einzige skalierbare Strategie.

Vier Anwendungsfälle in der Fertigung

6. Autonome Stücklistenextraktion aus Anfragen

Bei Sonderfertigungs-Anfragen extrahiert der Agent aus dem Anfrage-PDF die Positionen, gleicht sie gegen den vorhandenen Stücklistenkatalog ab und schlägt eine Vorkalkulation vor. Der Konstrukteur prüft nur noch die Treffer, statt jede Zeile manuell zu erfassen.

7. Schichtplanung mit Live-Datenlage

Ein Agent zieht Krankmeldungen, Maschinenstörungen, Auftragslagen und Mitarbeiterpräferenzen zusammen und schlägt einen Schichtplan vor, der die nächsten 7–14 Tage abdeckt. Konflikte werden klar benannt, der Personalverantwortliche entscheidet in Minuten statt Stunden. Wichtig: Die finale Freigabe bleibt beim Menschen, sonst greift schnell der EU AI Act mit „high risk”-Einstufung.

8. Lieferanten-Kommunikation und Rahmenvertrags-Monitoring

Der Agent verfolgt Rahmenvertragsmengen, sendet Erinnerungen an Lieferanten bei drohender Unterdeckung, fordert proaktiv Lieferterminbestätigungen an und eskaliert bei Verzug. Im Hintergrund pflegt er das Lieferanten-Performance-Dashboard. Effekt: weniger spontane Engpässe, weniger Ad-hoc-Telefonate aus dem Einkauf. Wie sich Liefertreue, Preis-Drift und Risiken laufend aus den ERP-Daten bewerten lassen, behandelt der Beitrag zum Lieferanten-Monitoring mit KI.

9. Service- und Wartungsdokumentation per RAG

Techniker im Außendienst fragen am Mobilgerät: „Welcher Hydraulikdruck ist für die Anlage X1 bei Schmiermittel Y zulässig?” Der Agent zieht die Antwort aus dem Maschinenhandbuch, der Service-Historie und früheren Reparaturberichten, mit Quellenangabe, ohne dass Daten die Werkshalle verlassen.

Wie ein Agent ans ERP/CRM angebunden wird (Kurz-Architektur)

Ein produktionsreifer Agent besteht aus fünf Schichten:

Trigger-Layer: Posteingang, Webhook, Cron-Job, Event-Bus. Wovon der Agent geweckt wird.
LLM-Kern: Ein oder mehrere Sprachmodelle, gehostet entweder in der EU (Azure OpenAI EU, Mistral, AWS Bedrock EU) oder lokal (Llama 3.1, Qwen 2.5 auf eigener Hardware).
Tool-Layer: Strukturierte APIs zu den Zielsystemen: REST-Endpunkte des ERP (SAP B1, BC, proALPHA, abas), CRM (Salesforce, HubSpot), PIM/MES und Datenbanken. Jeder Tool-Call ist protokolliert.
Memory: Kurzfristig (Session-Kontext der aktuellen Aufgabe) und langfristig (Vektor-Store für Stammdaten, vergangene Klärfälle, Lieferantenprofile).
Orchestrator: n8n, Temporal, Prefect oder eine eigene Lösung. Verantwortlich für Retry-Logik, Eskalation an den Menschen, Parallelisierung.

Darüber hängt ein Audit-Log, das jede Entscheidung mit Confidence-Score, verwendeten Tools und Outputs aufzeichnet, für Revision, Compliance und kontinuierliche Modellverbesserung.

EU AI Act und DSGVO: was Mittelständler 2026 wissen müssen

Der EU AI Act ist seit Februar 2025 in voller Wirkung. Für die hier beschriebenen Use Cases gilt:

„Limited risk”: Die meisten kundenorientierten Agenten (Auftragseingang, Reklamationen, Lead-Qualifizierung). Pflicht ist Transparenz. Wenn ein Kunde mit einem Agenten kommuniziert, muss das erkennbar sein. Eine Zeile im Footer reicht oft.
„High risk”: Schichtplanung mit finaler Entscheidung durch den Agenten, automatische Bonitätsbewertung, Personalauswahl. Hier braucht es Risikomanagement, Datendokumentation, menschliche Aufsicht und in vielen Fällen eine Konformitätsbewertung. Lösung: den Agenten als Vorschlagsmaschine bauen, die finale Entscheidung beim Menschen lassen.
„Prohibited”: Social Scoring, manipulatives Profiling. Für klassische Mittelstandszwecke nicht relevant.
DSGVO: Personenbezogene Daten (Kundennamen, Mitarbeiterdaten) gehören in EU-Hosting oder besser On-Premise. Tracking jeder Verarbeitung, Auftragsverarbeitungsvertrag mit dem Hosting-Anbieter, klare Löschfristen.

In unseren Projekten arbeiten wir grundsätzlich mit EU-Inferenz oder lokalen Modellen. Das nimmt 80 % der DSGVO-Diskussion vorweg, bevor sie aufkommt.

Pilotprojekt in 90 Tagen: realistisches Vorgehen

Wer in 90 Tagen einen produktiven Agenten will, schneidet das Problem klein.

Woche 1–2: Sondierung. Ein Use Case mit messbarem Volumen (mind. 30 Fälle/Woche), klarer Erfolgsmetrik (Bearbeitungszeit, Durchsatz, Fehlerquote) und sauberen Quelldaten.
Woche 3–6: Architektur und Datenanbindung. ERP-Schnittstellen prüfen, Stammdaten bereinigen, Tool-Calls für den Agenten implementieren. Diese Phase ist meist die längste, nicht das KI-Training, sondern die Integrationsarbeit.
Woche 7–10: Agent-Implementierung und interne Tests. Prompt-Engineering, Confidence-Schwellwerte kalibrieren, Eskalationspfade einbauen, Audit-Log aufsetzen.
Woche 11–12: Schattenlauf. Der Agent läuft parallel zum manuellen Prozess, ohne real Aktionen auszulösen. Sie sehen, wo er Entscheidungen anders trifft als der Mensch, und justieren.
Woche 13: Go-Live für die definierte Pilot-Strecke. Keine Werks- oder Konzern-weite Einführung, sondern ein scharf begrenzter Live-Test mit Monitoring.

Wer in 90 Tagen alles automatisieren will, scheitert und stützt damit nachhaltig den internen Widerstand gegen weitere Projekte. Wer in 90 Tagen einen Use Case sauber produktiv hat, hat einen Beweis, an dem alle weiteren Diskussionen sich orientieren.

Häufige Fragen

Brauchen wir eigene LLMs, oder reicht ein kommerzielles Modell? Für die meisten Use Cases reichen kommerzielle EU-gehostete Modelle. Eigene Modelle (Llama, Qwen) lohnen sich bei sehr hohem Volumen, sehr sensiblen Daten oder bei Spezialanwendungen (z. B. domänenspezifische Klassifikation), wo Feintuning Mehrwert bringt.

Wie ändert sich der Agent, wenn unser ERP ein Update bekommt? Bei API-Anbindungen meist gar nicht. Der Vertragsendpunkt bleibt stabil. Bei RPA-basierten Bot-Anbindungen kann jedes UI-Update den Bot lahmlegen; das ist einer der Hauptgründe, warum wir RPA nur als Notlösung empfehlen.

Verlieren Mitarbeiter ihre Jobs? In unseren Projekten bisher nicht. Sie verlieren Routinearbeit. In Zeiten von Fachkräftemangel wandelt sich die Stellenbeschreibung: von „Bestellsachbearbeiterin, die Mails übersetzt” zu „Klärfall-Spezialistin, die strittige Aufträge entscheidet”. Der Betriebsrat ist oft ein wichtiger Verbündeter, wenn man ihn früh einbindet.

Was ist der häufigste Pilotfehler? Zu großer Scope. „Wir automatisieren die ganze Auftragsabwicklung” wird zu „Wir haben in sechs Monaten noch keinen Auftrag automatisch verarbeitet, aber drei Reporting-Templates fertig”. Klein anfangen, einen Use Case messbar produktiv bringen, dann skalieren.

Welche Volumina rechtfertigen einen Agenten? Faustregel: Wenn Sie weniger als 30 Vorgänge pro Woche im Zielprozess haben, rechnet sich ein eigener Agent meist nicht. Dann lohnt sich entweder eine generische Lösung (Out-of-the-box) oder es bleibt manuell. Oberhalb 100 Vorgänge/Woche wird die Frage interessant.

Wie messen wir den Erfolg? Drei Kennzahlen, die wir in jedem Projekt mitschneiden: Dunkelverarbeitungsquote (% ohne menschliches Zutun), durchschnittliche Bearbeitungszeit pro Fall, Fehlerquote nach Stichprobe. Plus Mitarbeiter-Zufriedenheit. Wenn der Agent als Entlastung erlebt wird, läuft das Projekt; wenn er als Bedrohung erlebt wird, scheitert es politisch. Wie Sie aus diesen Kennzahlen einen belastbaren Business Case rechnen, zeigt der Beitrag KI-ROI im Mittelstand messen.

Wo Sie anfangen, wenn Sie heute starten möchten

Suchen Sie sich keinen Vorzeige-Use-Case aus dieser Liste, sondern den Prozess, der bei Ihnen am meisten weh tut. Den, bei dem Krankmeldungen sofort spürbar sind. Den, der nachts in den Köpfen Ihrer Sachbearbeitung hängenbleibt. Dort liegt der größte Hebel, und meist auch die größte Bereitschaft im Team, einen Agenten als Entlastung anzunehmen.

Wenn Sie wissen wollen, ob Ihr Wunschprozess agentenfähig ist, vereinbaren Sie ein Beratungsgespräch. Im Erstgespräch klären wir, ob die Daten- und Schnittstellenlage tragfähig ist und welche Pilot-Strecke einen ehrlichen 90-Tage-Beweis erlaubt.

← Alle Artikel