Wie hängt Stammdatenqualität mit RAG zusammen?

RAG nutzt unstrukturierte Wissensquellen, Stammdaten sind dagegen strukturierter Bestand. Beide ergänzen sich: Ein Reklamations-Agent sucht im Stamm nach dem Artikel und im RAG nach der passenden Service-Anleitung. Schlechte Stammdaten machen das Stamm-Lookup unzuverlässig. RAG hilft dann nicht, sondern verstärkt das Problem.

Blog · Automatisierung

Stammdaten als Engpass: warum KI-Projekte ohne sauberen Artikelstamm scheitern

Q: Wie messe ich Stammdatenqualität objektiv?

Sie bilden einen Quality Score aus den sieben Audit-Dimensionen: 0 bis 100 Prozent pro Dimension, gewichtet nach Geschäftsrelevanz (Eindeutigkeit und Status höher als Synonym-Coverage). In Pilotprojekten messen wir den Score zu Projektstart und alle drei Monate, um den Fortschritt zu zeigen.

Q: Wer macht die Stammdaten-Bereinigung: interne Disposition oder externer Dienstleister?

Beides möglich. Intern hat die Disposition Branchenwissen, aber meist nicht die Zeit. Extern geht schneller, braucht aber sauberes Onboarding mit Glossar und Klassifikationsregeln. Hybrid funktioniert am besten: externer Dienstleister bereinigt einfache Fälle, interne Spezialisten entscheiden die strittigen.

Q: Was kostet eine Stammdaten-Bereinigung im Mittelstand?

Faustregel für 10.000 bis 30.000 Artikel: 30.000 bis 90.000 Euro bei externer Vergabe, oder 30 bis 80 Personentage intern. Die obere Bandgrenze trifft Sortimente mit hohem Variantenreichtum wie Befestigungstechnik oder Elektronik-Komponenten.

Q: Lohnt sich Stammdaten-Bereinigung auch ohne KI-Projekt?

Ja. Saubere Stammdaten verbessern die Aussagekraft Ihrer ABC-Analyse, die Effizienz der Disposition, die Pflege der Online-Shops und die Reaktion auf Lieferantenpreiserhöhungen. Der ROI dieser Punkte allein rechnet die Bereinigung häufig.

Q: Müssen wir die Lieferanten in die Bereinigung einbinden?

Bei Lieferantenartikelnummern und EANs: ja. Lieferanten haben oft selbst keinen sauberen Stamm, aber im direkten Austausch lassen sich kritische Punkte wie Doppel-EANs oder falsche Maße in einer Telefonaktion klären. Das kostet 1 bis 3 Tage pro Top-Lieferant, meist billiger als Daten extern zu kaufen.

von Tobias Egner · 25. Mai 2026 · 9 Min Lesezeit

7-Punkte-Audit für die Stammdatenqualität als Voraussetzung für KI-Projekte

Worum es geht: die Kurzfassung

Stammdatenqualität bestimmt 70–80 % der Erkennungsquote eines KI-Agenten. Das beste Modell kann eine schlechte Artikelnummer-Disziplin nicht reparieren.
Typische Mittelstands-Probleme: Duplikate (4711-A vs. 4711A), inkonsistente Bezeichnungen, fehlende Synonyme, mehrsprachige Bezeichnungen ohne Mapping, Lieferantenartikel ohne Verknüpfung zum eigenen Stamm.
Was sich automatisieren lässt: Duplikat-Clustering via Embeddings, Synonym-Anreicherung mit Review, EAN/GTIN-Hygiene, Attribut-Extraktion aus Lieferantenkatalogen.
Was nicht: Strategische Sortimentsentscheidungen, domänenspezifische Kategorisierung, juristisch relevante Klassifikation (Gefahrgut, Zoll, Energieeffizienzklassen).
Aufwand für eine ernsthafte Bereinigung im Mittelstand: typisch 30–80 Personentage für 10.000–50.000 Artikel, und nicht in einem Rutsch, sondern in Wellen.
Reihenfolge entscheidend: Vor dem KI-Projekt nur das Nötigste aufräumen. Den Rest macht der laufende Agent mit. Sonst bereinigen Sie ein Jahr lang, ohne Mehrwert zu sehen.

Warum Stammdaten die echte Engpass-Stelle sind

Wer einen KI-Agenten für die Auftragsabwicklung baut, lernt es spätestens in Woche 6: Das LLM ist nicht das Problem. Das Problem sind zwei Artikel mit fast identischen Bezeichnungen, die im ERP als getrennte Einträge laufen, und ein Kunde, der mal die eine und mal die andere Schreibweise nutzt. Der Agent steht vor zwei Treffern mit ähnlicher Confidence und kann nicht entscheiden.

Diese Situation tritt in praktisch jedem Mittelstandsprojekt auf. Die Ursachen sind historisch:

Über die Jahre gewachsene ERPs mit mehreren Migrationen aus älteren Systemen, bei denen Doppel-Einträge entstanden sind.
Externe Stammdaten-Pflege durch wechselnde Disponenten ohne harte Benennungsregeln.
Lieferanten-Import ohne Mapping auf den eigenen Artikelstamm.
Mehrsprachigkeit in Bezeichnungen, ohne dass ein zentrales Mapping (z. B. „Schraube M8” = „Bolt M8” = „Vis M8”) gepflegt wäre.
Sortimentswandel ohne sauberes Auslauf-Kennzeichen: die alte Variante bleibt im System, die neue kommt dazu.

Diese Probleme sind nicht KI-spezifisch. Sie tun heute auch der manuellen Sachbearbeitung weh, nur unsichtbar, weil eine geübte Disponentin durch Kontextwissen ausgleicht. Eine KI hat dieses Kontextwissen nicht; sie braucht es im Datensatz.

Das 7-Punkte-Audit für Ihren Artikelstamm

Bevor Sie sich auf ein KI-Projekt einlassen, sollten Sie diese sieben Dimensionen prüfen. Eine Tabelle mit Soll- und Ist-Werten reicht. Sie brauchen kein Audit-Tool.

1. Eindeutigkeit der Artikelnummer

Werden Artikel durchgängig über eine eindeutige ID identifiziert? Gibt es Mehrfach-Belegungen oder „freie” Felder, die als Quasi-ID dienen? Soll: 100 % eindeutig, keine White-Spaces in der ID, keine versteckten Trailing-Characters.

2. Bezeichnungs-Konsistenz

Gleiche Artikel-Klassen folgen einer einheitlichen Benennungslogik? Beispiel: „Schraube DIN 933 M8x20 Stahl verzinkt” vs. „M8x20 Innensechskant 8.8 verz.”. Beide bezeichnen Ähnliches, aber kein Mensch und kein Algorithmus sehen das ohne Mapping. Soll: Eine dokumentierte Namens-Konvention, die mindestens für die Top-200-Artikel-Klassen durchgehalten wird.

3. Synonym- und Mehrsprachen-Coverage

Pro Artikel hinterlegte Synonyme und Sprachvarianten? Soll: Top-Artikel (Pareto: 20 % der SKUs, die 80 % des Umsatzes machen) mit mindestens drei alternativen Bezeichnungen und EN/FR-Variante, wenn Sie ins EU-Ausland verkaufen.

4. Attribut-Vollständigkeit

Sind Maße, Material, Norm, Farbe, Verpackungseinheit gepflegt? Wenn ja, wie konsistent? Soll: Für die Top-20 %-Artikel 100 % Attribut-Vollständigkeit; für den Long Tail die kritischen 3–5 Attribute pro Warengruppe.

5. Lieferantenartikel-Mapping

Sind die Lieferantenartikelnummern fest verknüpft mit dem eigenen Stamm? Soll: Jeder aktive Einkaufsartikel hat genau eine Lieferantenartikelnummer pro Hauptlieferant, kein „freier Text” als Identifikator.

6. EAN/GTIN-Hygiene

EAN/GTIN gepflegt und korrekt? Häufiges Problem: Die EAN wurde manuell eingetippt und enthält Zahlendreher, oder mehrere Artikel teilen sich versehentlich eine EAN. Soll: EAN-Prüfziffern-Validierung pro Eintrag, keine Doppel-EAN.

7. Aktualität und Auslauf-Kennzeichen

Aktive vs. ausgelaufene Artikel klar getrennt? Soll: Ein expliziter Status („aktiv”, „auslaufend”, „inaktiv”) pro Artikel; ausgelaufene Artikel bleiben für Historie sichtbar, gehen aber nicht mehr in Vorschläge des Agenten ein.

Für jedes der sieben Felder vergeben Sie sich eine Quote 0–100 %. Wenn Sie auf weniger als 70 % Durchschnitt kommen, ist die Stammdaten-Bereinigung Pflicht-Vorarbeit. Zwischen 70 und 85 % können Sie parallel zum Pilot starten. Über 85 % sind Sie startklar.

Was sich automatisiert bereinigen lässt, und wie

Nicht alles muss von Hand. Drei Bereinigungs-Typen lassen sich heute mit moderaten KI-Mitteln effizient angehen:

Duplikat-Clustering via Embeddings. Bezeichnungen werden in einem semantischen Vektorraum verglichen. Artikel mit Ähnlichkeit > 0,90 werden als Duplikat-Kandidaten markiert. Aus 18.000 Artikeln werden so typisch 200–800 Duplikat-Cluster identifiziert. Ein Disponent prüft jeden Cluster in 30–60 Sekunden, 5–15 Personentage für die Erstprüfung.

Synonym- und Übersetzungs-Anreicherung. Pro Artikel-Bezeichnung schlägt ein LLM 3–5 Synonyme und Übersetzungen vor, auf Basis des bestehenden Sortiments, nicht freihändig. Die Vorschläge gehen zur Review; kritische Warengruppen (Gefahrgut, regulierte Bauteile) ausgenommen. Inferenzaufwand: 0,5–1 Sekunde pro Artikel; Review-Aufwand pro Cluster 10–20 Sekunden.

Attribut-Extraktion aus Lieferantenkatalogen. PDF- oder Excel-Kataloge der Lieferanten werden ausgelesen; fehlende Attribute (Maße, Material, Norm) werden mit Quellen-Verweis in den eigenen Stamm vorgeschlagen. Wieder mit Review-Pflicht.

EAN/GTIN-Validierung. Prüfziffer-Validierung ist regelbasiert (keine KI nötig). Bei ungültigen EANs geht eine Anfrage an den Lieferanten, oder die EAN wird über externe Datenbanken (GS1) verifiziert.

Was nicht automatisierbar ist

Drei Dinge bleiben Handarbeit, und sollten es bleiben:

Strategische Sortimentsentscheidungen. Ein Algorithmus kann Ihnen sagen, welche 800 Artikel im letzten Jahr nicht verkauft wurden. Die Entscheidung, ob sie raus müssen, hängt an Lieferantenverträgen, Mindestabnahmen, strategischen Beziehungen und Kundenerwartungen. Dafür ist kein Modell zuständig.
Juristisch relevante Klassifikation. Gefahrgutklassen (ADR), Zolltarifnummern, Energieeffizienzklassen, REACH-Konformität: überall, wo eine Fehlklassifikation rechtliche Folgen hat, gehört die Pflege in die Hand qualifizierter Mitarbeiter mit Schulung. KI kann hier nur Vorschläge machen, nicht entscheiden.
Domänenspezifische Kategorisierung in einem speziellen Sortiment. Ein LLM weiß, was eine Schraube ist. Es weiß nicht zuverlässig, was eine „Festo-konforme PNEU-Verschraubung mit FKM-Dichtung in Edelstahl 1.4404 für Lebensmittelanwendung” ist und in welche Ihrer 14 Kategorien sie gehört. Das ist Branchenwissen, das Sie selbst pflegen.

Reihenfolge: Vorher aufräumen vs. parallel zum Agenten

Eine der häufigeren Fehlentscheidungen ist, sechs Monate Stammdaten zu bereinigen, bevor das KI-Projekt überhaupt startet. Das ist meistens falsch.

Was vor dem Pilot Pflicht ist: Eindeutigkeit der IDs (Punkt 1), explizite Status (Punkt 7), grobes Lieferantenartikel-Mapping für die Top-Lieferanten (Punkt 5). Diese drei Punkte müssen sitzen, sonst stolpert der Agent bei jeder zweiten Bestellung.
Was parallel zum Pilot läuft: Bezeichnungs-Konsistenz, Synonyme, Attribute. Der Agent selbst markiert Klärfälle, aus denen die Disposition lernen kann, wo gepflegt werden muss. Eine Liste der Top-100-Klärfälle entsteht im ersten Monat von selbst, und ist deutlich präziser als jeder vorgängige Audit-Versuch.
Was später kommt: Mehrsprachen-Pflege (wenn Sie internationalen Vertrieb ausbauen), EAN/GTIN-Komplett-Validierung (wenn Sie auf Marktplätze gehen). Beides ist ohne KI-Projekt schon sinnvoll.

Diese Reihenfolge spart typisch 3–6 Monate Projektzeit und sorgt für sichtbare Quick Wins, während im Hintergrund die Datenqualität wächst.

Brauchen Sie ein PIM-System?

Die Frage kommt in jedem Projekt. Die ehrliche Antwort: meistens nicht für den Start, oft für die Skalierung.

ERP allein reicht für Mittelständler mit < 5.000 aktiven Artikeln, einem Vertriebskanal und einer Sprache. Die Stammdaten dort sauber pflegen ist günstiger als ein neues System einzuführen.
Ein leichtgewichtiges PIM (Pimcore Community, Akeneo Community, Plytix Starter) lohnt sich ab 5.000–10.000 Artikeln und mehreren Vertriebskanälen. Aufwand für die Einführung typisch 30–60 Personentage.
Enterprise-PIM (Akeneo Enterprise, Contentserv, Stibo) ist sinnvoll bei mehr als 30.000 Artikeln, mehreren Sprachen, mehreren Kanälen und großen Lieferantenkatalogen. Aufwand 6–12 Monate Einführung, sechsstellige Lizenz- plus Implementierungskosten.

Wichtig: Ein PIM-System ersetzt die Stammdaten-Disziplin nicht. Es macht sie nur sichtbar. Wer im ERP nicht aufräumt, räumt im PIM auch nicht auf.

Häufige Fragen

Wie messe ich Stammdatenqualität objektiv? Sie können einen Quality Score aus den sieben Audit-Dimensionen bilden: 0–100 % pro Dimension, gewichtet nach Geschäftsrelevanz (Eindeutigkeit und Status höher gewichtet als Synonym-Coverage). In Pilotprojekten messen wir den Score zu Projektstart und alle drei Monate, um den Fortschritt zu zeigen.

Wer macht die Stammdaten-Bereinigung: interne Disposition oder externer Dienstleister? Beides möglich, mit Vor- und Nachteilen. Intern hat die Disposition das Branchenwissen, aber meist nicht die Zeit. Extern geht schneller, braucht aber einen sauberen Onboarding-Prozess (Glossar, Klassifikations-Regeln, Eskalationspfad). Hybrid funktioniert am besten: externer Dienstleister bereinigt die einfachen Fälle, interne Spezialisten entscheiden die strittigen.

Was kostet eine Stammdaten-Bereinigung im Mittelstand? Faustregel für 10.000–30.000 Artikel: 30.000–90.000 € bei externer Vergabe, oder 30–80 Personentage intern. Die obere Bandgrenze trifft Sortimente mit hohem Variantenreichtum (z. B. Befestigungstechnik, Elektronik-Komponenten).

Lohnt sich Stammdaten-Bereinigung auch ohne KI-Projekt? Ja. Saubere Stammdaten verbessern unter anderem die Aussagekraft Ihrer ABC-Analyse, die Effizienz der Disposition, die Pflege der Online-Shops und die Reaktion auf Lieferantenpreiserhöhungen. Der ROI dieser Punkte allein rechnet die Bereinigung häufig.

Müssen wir die Lieferanten in die Bereinigung einbinden? Bei Lieferantenartikelnummern und EANs: ja. Lieferanten haben oft selbst keinen sauberen Stamm, aber im direkten Austausch lassen sich die kritischsten Punkte (Doppel-EANs, falsche Maße) in einer Telefonaktion klären. Das kostet 1–3 Tage pro Top-Lieferant, und ist meist billiger, als die Daten extern zu kaufen.

Wie hängt das mit RAG zusammen? RAG nutzt unstrukturierte Wissensquellen (siehe unsere RAG-Übersicht). Stammdaten sind dagegen strukturierter Bestand. Beide ergänzen sich: Ein Reklamations-Agent sucht im Stamm nach dem Artikel, im RAG nach der passenden Service-Anleitung. Schlechte Stammdaten machen das Stamm-Lookup unzuverlässig. RAG hilft dann nicht, sondern verstärkt das Problem.

Wo Sie ansetzen, wenn Sie heute starten möchten

Drei Schritte, die in jeder Phase Sinn ergeben, mit oder ohne KI-Projekt am Horizont:

Ein Wochenende mit dem 7-Punkte-Audit. Nehmen Sie sich Ihren Artikelstamm, ziehen Sie 200 zufällige Artikel und bewerten Sie pro Dimension. Sie haben am Montag eine ehrliche Bestandsaufnahme.
Die Top-Klärfälle der letzten 3 Monate auswerten. Welche Aufträge mussten zurück zur Klärung, weil ein Artikel nicht eindeutig war? Diese Liste zeigt die teuersten 50 Stammdaten-Probleme, die löst man zuerst.
Eine kleine Lieferanten-Aktion fahren. Telefonisch oder per Mail die Top-10-Lieferanten anschreiben, EANs und Lieferantenartikelnummern abgleichen. Aufwand: 3–5 Tage. Effekt: oft sofort sichtbar.

Wenn Sie nicht sicher sind, ob Ihre Stammdaten für einen KI-Piloten reichen, vereinbaren Sie ein Beratungsgespräch. In 30 Minuten an Ihren Daten geprüft sehen Sie, ob Sie startklar sind, und welche zwei oder drei Bereinigungen sich vorher noch lohnen.

← Alle Artikel