Blog · Automatisierung

Posteingangs-Klassifikation mit KI: der unterschätzte 2-Wochen-Einstieg vor jedem Agenten-Projekt

von · 25. Mai 2026 · 7 Min Lesezeit
Posteingangs-Klassifikator routet Mails in Bestellung, Anfrage, Reklamation, Rückfrage und Spam

Worum es geht: die Kurzfassung

Warum die Klassifikation der ehrlichste Einstieg ist

Die meisten Mittelständler kommen mit klarer Erwartung in das erste Gespräch: „Wir wollen Bestellungen automatisch ins ERP buchen.” Sinnvoll, aber zu groß für den ersten Schritt. Vor der Buchung steht das Routing. Vor dem Routing steht die Erkennung, ob die Mail überhaupt eine Bestellung ist.

Diese Vor-Erkennung machen heute Sachbearbeiter im Sekretariat oder in der Vertriebsinnendienst-Inbox manuell, und sie wird in keiner ROI-Rechnung erfasst, weil sie über mehrere Köpfe verteilt ist. Eine typische Mittelstands-Inbox enthält:

Diese Verteilung manuell zu sichten kostet pro Mail 10–30 Sekunden. Bei 200 Mails pro Tag und Inbox sind das 30–100 Minuten täglich, die ein Mitarbeiter mit Routing verbringt. Ein Klassifikator nimmt diese Stunde zurück.

Wie ein Klassifikations-Agent technisch funktioniert

Die Pipeline ist im Vergleich zu einem vollen Auftrags-Agenten erfreulich kurz:

  1. Empfang. Microsoft Graph (für Outlook/Exchange), Gmail API oder IMAP. Alle drei sind produktionsreif. Achten Sie bei Microsoft Graph auf die richtigen Permissions (Mail.Read, Mail.ReadWrite), für DSGVO-Strenge auf delegated access statt application access.
  2. Vorverarbeitung. Betreff, Body, Absender-Domain, Anhänge-Liste werden in einen kompakten Klassifikations-Prompt eingebaut. Anhänge selbst werden nicht zwingend gelesen. Die meiste Klassifikations-Signalkraft sitzt in Betreff plus ersten 500 Wörtern Body.
  3. Klassifikation. Ein kleines LLM (Mistral Small, Llama 3.1 8B, GPT-4o mini) entscheidet zwischen 4–6 vordefinierten Kategorien plus Fallback „Sonstiges/Eskalation”. Die Confidence wird mitgespeichert.
  4. Aktion. Bei klarer Klassifikation: Verschieben in den Zielordner (Outlook) oder Label setzen (Gmail), plus optional ein Webhook an das Folgesystem (CRM, Auftrags-Agent). Bei niedriger Confidence: Markierung „bitte prüfen” und Verbleib im Posteingang.
  5. Logging. Jede Entscheidung im Audit-Log, plus monatlicher Sample-Check durch die Inbox-Verantwortlichen.

Kein Vektor-Store nötig, kein Fine-Tuning, keine RAG-Architektur. Ein guter Prompt mit 3–5 Beispielen pro Kategorie reicht für die meisten Mittelstands-Sortimente. Hosting bei einem EU-Anbieter (Azure OpenAI EU, Mistral) reicht für DSGVO-Konformität, sofern AVV abgeschlossen ist. Siehe unsere Übersicht zu EU AI Act und DSGVO für KI-Agenten.

Welche Klassen sich bewährt haben

Vier bis sechs Kategorien sind das pragmatische Optimum. Mehr Klassen erhöhen die Fehlerquote unverhältnismäßig, weniger Klassen verschenken Routing-Potenzial. Bewährtes Standard-Set für B2B-Handel:

Für Fertigungsbetriebe kommen zwei Klassen dazu: „technische Anfrage” (Konstruktions-PDF, Stücklisten-Anfrage) und „Service-Anfrage” (Wartungsanforderung, Störungsmeldung). Mehr als acht Klassen führen in unseren Projekten immer zu Drift. Kalibrieren Sie eher zwei Modelle hintereinander, als eines mit zehn Klassen.

Realistische Bandbreiten: Was funktioniert, was nicht

In Sondierungen 2025–2026 haben wir Trefferquoten in den oberen 90ern bei Posteingängen mit klar definierten Kunden- und Lieferanten-Mustern gesehen. Bei stark heterogenen B2C-Inboxen sind 85 % realistisch.

Implementierungsplan in zwei Wochen

Ein Pilot ist nicht das, was Sie ein Jahr ankündigen sollten. Es ist das, was zwei Wochen nach Kick-off läuft. Konkret:

Wer das parallel zu anderen Projekten laufen lässt, sieht in vier Wochen Wirkung. Wer es als Vollzeit-Pilot fährt, ist nach 14 Kalendertagen produktiv.

Integration in Outlook, Exchange und Google Workspace

Drei Standard-Integrationen decken den Mittelstand zu fast 100 % ab:

Outlook-Regeln nicht ersetzen, sondern ergänzen. Der Klassifikator sitzt vor den Regeln, nicht statt ihnen.

Häufige Fragen

Wie ist das datenschutzrechtlich zu bewerten? Bei EU-gehostetem LLM, AVV mit dem Provider, ausschließlich Verarbeitung zu betrieblichen Zwecken, Art. 6 (1) f als Rechtsgrundlage (berechtigtes Interesse: effiziente Bearbeitung des Posteingangs). Datenschutzerklärung um die Verarbeitung ergänzen. Eine DPIA ist meist nicht erforderlich. Siehe unsere AI-Act- und DSGVO-Übersicht.

Lohnt sich das auch für eine einzelne Inbox? Knapp. Für eine einzelne 50-Mails-pro-Tag-Inbox ist der Implementierungsaufwand selten gerechtfertigt. Ab 150 Mails pro Tag oder ab 3 Inboxen, die gleich klassifiziert werden sollen, rechnet sich der Aufwand.

Was passiert, wenn der Klassifikator falsch routet? Im Worst Case landet eine Bestellung im Anfragen-Ordner. Das wird durch die wöchentlichen Sample-Audits gefunden und im Prompt korrigiert. Wichtig: Keine destruktive Aktion (Löschen, automatische Antwort) ohne Confidence-Schwelle und Audit-Log.

Können wir den Klassifikator lokal hosten? Ja. Mistral Small (22B), Llama 3.1 8B oder Qwen 2.5 7B laufen produktiv auf einer einzelnen A100- oder H100-GPU und reichen für die Klassifikationsaufgabe locker. Für 5.000–15.000 Mails/Monat ist das technisch und wirtschaftlich machbar.

Wie viele Mails muss ich annotieren? Für die Erstkalibrierung reichen 200–500 Beispiele, gleich verteilt über die Klassen. Für die kontinuierliche Verbesserung machen wir Sample-Reviews monatlich: jeweils 30–50 Mails, die strittig waren.

Wie hängt das mit dem Auftrags-Agenten zusammen? Direkt. Der Klassifikator füttert den Auftrags-Agenten mit den Mails, die er bearbeiten soll, und nichts anderem. Das spart dem Auftrags-Agenten die Klassifikationsarbeit (oder die Notwendigkeit, falsch zugeordnete Mails zu rejizieren) und macht seine Pipeline robuster. Details zur Auftrags-Pipeline in unserem Artikel zu Auftragsabwicklung mit KI automatisieren.

Wo Sie ansetzen, wenn Sie heute starten möchten

Drei Schritte, die in jedem Mittelstand funktionieren:

  1. Eine Woche lang die Inbox-Verteilung messen. Nehmen Sie sich eine Stichprobe aus einer Inbox, klassifizieren Sie händisch in die 5–6 Kategorien. Sie haben am Ende der Woche eine ehrliche Datengrundlage für jedes Folgegespräch.
  2. Den DSB einbinden, bevor Code geschrieben wird. Posteingang ist personenbezogen. Eine schriftliche Risikoeinschätzung und Aktualisierung der Datenschutzerklärung gehören vor den Pilot, nicht danach.
  3. Eine Inbox als Pilot wählen. Bestellinbox oder Service-Inbox sind die häufigsten Kandidaten: hohes Volumen, klare Kategorien. Erweiterung auf weitere Inboxen geht nach erfolgreicher Pilotphase in 2–3 Tagen pro Inbox.

Wenn Sie unsicher sind, ob Ihre Inbox-Verteilung den Aufwand rechtfertigt, oder welche Klassen sich in Ihrem Sortiment trennen lassen, vereinbaren Sie ein Beratungsgespräch. 30 Minuten reichen für eine ehrliche Einschätzung, ob der Zwei-Wochen-Pilot bei Ihnen Sinn ergibt.

Nächster Schritt

Lassen Sie uns konkret werden.

30 Minuten, kostenfrei, ergebnisoffen. Wir hören zu, stellen die richtigen Fragen und sagen ehrlich, was sich lohnt und was nicht.

Beratungsgespräch anfragen