Posteingangs-Klassifikation mit KI: der unterschätzte 2-Wochen-Einstieg vor jedem Agenten-Projekt
Worum es geht: die Kurzfassung
- Klassifikation vor Aktion. Bevor ein Agent Bestellungen automatisch verarbeitet, muss er wissen, was keine Bestellung ist. Ein simpler Klassifikator routet eingehende Mails in 4–6 Kategorien und entlastet die Sachbearbeitung sofort.
- Implementierung in 2 Wochen vom Kick-off bis zur ersten produktiv klassifizierten Mail, wesentlich schneller als der nachgelagerte Auftrags-Agent (typisch 8–14 Wochen).
- Trefferquote 90–96 % auf Standard-Kategorien im B2B-Mittelstand, gemessen in Sondierungen mit 5.000–15.000 Mails pro Monat.
- Sofortiger Effekt: Eine Sachbearbeitung sieht die richtige Kategorie schon im Betreff, das Sekretariat verbringt keine Zeit mehr mit Vor-Sortierung.
- Der ehrlichste Beweis für oder gegen das Folgeprojekt: Wenn der Klassifikator gut läuft, ist die Datenlage stabil genug für den nächsten Use Case.
Warum die Klassifikation der ehrlichste Einstieg ist
Die meisten Mittelständler kommen mit klarer Erwartung in das erste Gespräch: „Wir wollen Bestellungen automatisch ins ERP buchen.” Sinnvoll, aber zu groß für den ersten Schritt. Vor der Buchung steht das Routing. Vor dem Routing steht die Erkennung, ob die Mail überhaupt eine Bestellung ist.
Diese Vor-Erkennung machen heute Sachbearbeiter im Sekretariat oder in der Vertriebsinnendienst-Inbox manuell, und sie wird in keiner ROI-Rechnung erfasst, weil sie über mehrere Köpfe verteilt ist. Eine typische Mittelstands-Inbox enthält:
- 30–45 % Bestellungen (regulär oder Erweiterung bestehender Aufträge)
- 15–25 % Anfragen (Preis, Verfügbarkeit, Sonderkonditionen)
- 10–15 % Reklamationen und Rückfragen
- 5–15 % interne Mails / Lieferanten-Mails / Cc-Mitleser
- 10–25 % Newsletter, Akquise-Mails, Spam
Diese Verteilung manuell zu sichten kostet pro Mail 10–30 Sekunden. Bei 200 Mails pro Tag und Inbox sind das 30–100 Minuten täglich, die ein Mitarbeiter mit Routing verbringt. Ein Klassifikator nimmt diese Stunde zurück.
Wie ein Klassifikations-Agent technisch funktioniert
Die Pipeline ist im Vergleich zu einem vollen Auftrags-Agenten erfreulich kurz:
- Empfang. Microsoft Graph (für Outlook/Exchange), Gmail API oder IMAP. Alle drei sind produktionsreif. Achten Sie bei Microsoft Graph auf die richtigen Permissions (Mail.Read, Mail.ReadWrite), für DSGVO-Strenge auf delegated access statt application access.
- Vorverarbeitung. Betreff, Body, Absender-Domain, Anhänge-Liste werden in einen kompakten Klassifikations-Prompt eingebaut. Anhänge selbst werden nicht zwingend gelesen. Die meiste Klassifikations-Signalkraft sitzt in Betreff plus ersten 500 Wörtern Body.
- Klassifikation. Ein kleines LLM (Mistral Small, Llama 3.1 8B, GPT-4o mini) entscheidet zwischen 4–6 vordefinierten Kategorien plus Fallback „Sonstiges/Eskalation”. Die Confidence wird mitgespeichert.
- Aktion. Bei klarer Klassifikation: Verschieben in den Zielordner (Outlook) oder Label setzen (Gmail), plus optional ein Webhook an das Folgesystem (CRM, Auftrags-Agent). Bei niedriger Confidence: Markierung „bitte prüfen” und Verbleib im Posteingang.
- Logging. Jede Entscheidung im Audit-Log, plus monatlicher Sample-Check durch die Inbox-Verantwortlichen.
Kein Vektor-Store nötig, kein Fine-Tuning, keine RAG-Architektur. Ein guter Prompt mit 3–5 Beispielen pro Kategorie reicht für die meisten Mittelstands-Sortimente. Hosting bei einem EU-Anbieter (Azure OpenAI EU, Mistral) reicht für DSGVO-Konformität, sofern AVV abgeschlossen ist. Siehe unsere Übersicht zu EU AI Act und DSGVO für KI-Agenten.
Welche Klassen sich bewährt haben
Vier bis sechs Kategorien sind das pragmatische Optimum. Mehr Klassen erhöhen die Fehlerquote unverhältnismäßig, weniger Klassen verschenken Routing-Potenzial. Bewährtes Standard-Set für B2B-Handel:
- Bestellung: neue Bestellung oder Erweiterung eines bestehenden Auftrags
- Anfrage: Preis, Verfügbarkeit, Lieferzeit, Angebot
- Reklamation: Beschwerde, Sachmangel, Falschlieferung, Rückforderung
- Rückfrage zur laufenden Bestellung: Lieferstatus, Auftragsbestätigung, Versanddetails
- Lieferanten-Mail: Auftragsbestätigung Eingang, Versand-Avis, Rechnungseingang
- Sonstiges / unklar: Bewerbung, Newsletter, Spam, Vertriebs-Mails, geht an Sekretariat
Für Fertigungsbetriebe kommen zwei Klassen dazu: „technische Anfrage” (Konstruktions-PDF, Stücklisten-Anfrage) und „Service-Anfrage” (Wartungsanforderung, Störungsmeldung). Mehr als acht Klassen führen in unseren Projekten immer zu Drift. Kalibrieren Sie eher zwei Modelle hintereinander, als eines mit zehn Klassen.
Realistische Bandbreiten: Was funktioniert, was nicht
- Standard-Klassifikation 90–96 % Trefferquote. Die Top-Kategorien (Bestellung, Anfrage, Reklamation) sind sehr gut trennbar. Schwächer wird es bei „Bestellung vs. Rückfrage zur Bestellung”. Beide enthalten oft eine Bestellnummer. Lösung: Eine Folgefrage des Klassifikators („Wird hier ein neuer Auftrag erteilt oder eine bestehende Bestellung kommentiert?”) schiebt die Trefferquote auf 93–96 %.
- Sonderfälle 5–8 % Fehlerrate. Mischmails (Bestellung plus Reklamation in einer Mail), Mails mit fehlendem Kontext (nur Betreff plus Anhang), interne Weiterleitungen ohne Betreff-Anpassung: hier sinkt die Confidence, und der Klassifikator markiert „bitte prüfen”. Das ist gut, nicht schlecht: lieber zu vorsichtig als falsch routen.
- Spam-Erkennung ist nicht Teil der Aufgabe. Lassen Sie Ihrem bestehenden Spam-Filter (Microsoft Defender, Google Spam, Mimecast) die Arbeit; der Klassifikator bekommt die bereinigte Inbox.
In Sondierungen 2025–2026 haben wir Trefferquoten in den oberen 90ern bei Posteingängen mit klar definierten Kunden- und Lieferanten-Mustern gesehen. Bei stark heterogenen B2C-Inboxen sind 85 % realistisch.
Implementierungsplan in zwei Wochen
Ein Pilot ist nicht das, was Sie ein Jahr ankündigen sollten. Es ist das, was zwei Wochen nach Kick-off läuft. Konkret:
- Tag 1–2: Zugang zum Postfach prüfen, Microsoft-Graph- oder Gmail-API-Anbindung, Berechtigungen klären, DSB einbinden.
- Tag 3–5: 200–500 historische Mails händisch klassifizieren. Diese werden Test-Set und Beispielsammlung für den Prompt.
- Tag 6–8: Klassifikator implementieren (Python-Skript oder n8n-Workflow), gegen Test-Set evaluieren, Schwellwerte kalibrieren.
- Tag 9–10: Schattenlauf: der Klassifikator läuft parallel zur manuellen Sichtung, Ergebnisse werden täglich abgeglichen.
- Tag 11–14: Go-Live mit einer Inbox. Tägliches Monitoring der Confidence-Verteilung in der ersten Woche, wöchentliches Sample-Audit in den ersten zwei Monaten.
Wer das parallel zu anderen Projekten laufen lässt, sieht in vier Wochen Wirkung. Wer es als Vollzeit-Pilot fährt, ist nach 14 Kalendertagen produktiv.
Integration in Outlook, Exchange und Google Workspace
Drei Standard-Integrationen decken den Mittelstand zu fast 100 % ab:
- Microsoft 365 / Exchange Online via Microsoft Graph. REST-API, Webhook-fähig (Subscriptions), saubere DSGVO-Story bei EU-Tenant. Berechtigungen über Azure-App-Registrierung.
- Google Workspace via Gmail API. REST-API, Push-Notifications via Pub/Sub. EU-Datenresidenz nur in Workspace Enterprise Plus oder mit Sovereign-Workspace zugesichert.
- Self-Hosted Exchange / IMAP. Klassischer IMAP-Pull oder Push via Sieve-Filter. Für DSGVO-strikte Häuser oft die einfachste Antwort: alles bleibt im Haus.
Outlook-Regeln nicht ersetzen, sondern ergänzen. Der Klassifikator sitzt vor den Regeln, nicht statt ihnen.
Häufige Fragen
Wie ist das datenschutzrechtlich zu bewerten? Bei EU-gehostetem LLM, AVV mit dem Provider, ausschließlich Verarbeitung zu betrieblichen Zwecken, Art. 6 (1) f als Rechtsgrundlage (berechtigtes Interesse: effiziente Bearbeitung des Posteingangs). Datenschutzerklärung um die Verarbeitung ergänzen. Eine DPIA ist meist nicht erforderlich. Siehe unsere AI-Act- und DSGVO-Übersicht.
Lohnt sich das auch für eine einzelne Inbox? Knapp. Für eine einzelne 50-Mails-pro-Tag-Inbox ist der Implementierungsaufwand selten gerechtfertigt. Ab 150 Mails pro Tag oder ab 3 Inboxen, die gleich klassifiziert werden sollen, rechnet sich der Aufwand.
Was passiert, wenn der Klassifikator falsch routet? Im Worst Case landet eine Bestellung im Anfragen-Ordner. Das wird durch die wöchentlichen Sample-Audits gefunden und im Prompt korrigiert. Wichtig: Keine destruktive Aktion (Löschen, automatische Antwort) ohne Confidence-Schwelle und Audit-Log.
Können wir den Klassifikator lokal hosten? Ja. Mistral Small (22B), Llama 3.1 8B oder Qwen 2.5 7B laufen produktiv auf einer einzelnen A100- oder H100-GPU und reichen für die Klassifikationsaufgabe locker. Für 5.000–15.000 Mails/Monat ist das technisch und wirtschaftlich machbar.
Wie viele Mails muss ich annotieren? Für die Erstkalibrierung reichen 200–500 Beispiele, gleich verteilt über die Klassen. Für die kontinuierliche Verbesserung machen wir Sample-Reviews monatlich: jeweils 30–50 Mails, die strittig waren.
Wie hängt das mit dem Auftrags-Agenten zusammen? Direkt. Der Klassifikator füttert den Auftrags-Agenten mit den Mails, die er bearbeiten soll, und nichts anderem. Das spart dem Auftrags-Agenten die Klassifikationsarbeit (oder die Notwendigkeit, falsch zugeordnete Mails zu rejizieren) und macht seine Pipeline robuster. Details zur Auftrags-Pipeline in unserem Artikel zu Auftragsabwicklung mit KI automatisieren.
Wo Sie ansetzen, wenn Sie heute starten möchten
Drei Schritte, die in jedem Mittelstand funktionieren:
- Eine Woche lang die Inbox-Verteilung messen. Nehmen Sie sich eine Stichprobe aus einer Inbox, klassifizieren Sie händisch in die 5–6 Kategorien. Sie haben am Ende der Woche eine ehrliche Datengrundlage für jedes Folgegespräch.
- Den DSB einbinden, bevor Code geschrieben wird. Posteingang ist personenbezogen. Eine schriftliche Risikoeinschätzung und Aktualisierung der Datenschutzerklärung gehören vor den Pilot, nicht danach.
- Eine Inbox als Pilot wählen. Bestellinbox oder Service-Inbox sind die häufigsten Kandidaten: hohes Volumen, klare Kategorien. Erweiterung auf weitere Inboxen geht nach erfolgreicher Pilotphase in 2–3 Tagen pro Inbox.
Wenn Sie unsicher sind, ob Ihre Inbox-Verteilung den Aufwand rechtfertigt, oder welche Klassen sich in Ihrem Sortiment trennen lassen, vereinbaren Sie ein Beratungsgespräch. 30 Minuten reichen für eine ehrliche Einschätzung, ob der Zwei-Wochen-Pilot bei Ihnen Sinn ergibt.