Brauchen wir ein eigenes Sprachmodell für DSGVO-konformes RAG?

Nicht zwingend. EU-gehostete Modelle (Azure OpenAI EU, Mistral La Plateforme, AWS Bedrock EU) reichen für die meisten Mittelstands-Use-Cases. Lokale Open-Weights-Modelle (Llama 3.3, Qwen 2.5) lohnen sich bei sehr sensiblen Daten oder hohem Volumen.

Wie unterscheidet sich RAG von Fine-Tuning?

Fine-Tuning verändert das Modell selbst und ist teuer, langsam und schwer aktuell zu halten. RAG lässt das Modell unverändert und gibt ihm pro Anfrage die relevanten Dokumente mit: schnell, günstig, jederzeit aktuell, mit Quellenverweis.

Welche Dokumente eignen sich für ein RAG-System?

Alles, was strukturiert oder semi-strukturiert vorliegt: Verträge, Maschinenhandbücher, QS-Akten, SOPs, Tickets, Mail-Historie, Wiki, Confluence, SharePoint. PDFs werden mit OCR vorverarbeitet, schwierig bleiben handschriftliche Notizen und reine Bilddokumente ohne Text.

Wie verhindern wir, dass das System Halluzinationen produziert?

Drei Hebel: erstens Quellenangabe verpflichtend (Antworten ohne belegbare Quelle werden markiert), zweitens Confidence-Schwellen (unsichere Antworten gehen an einen Menschen), drittens regelmäßige Stichproben durch Fachverantwortliche in den ersten Monaten.

Was kostet ein RAG-System im Mittelstand?

Pilot mit einer Quelle und 5.000 bis 20.000 Dokumenten: 25.000 bis 60.000 Euro Implementierung. Laufend 5.000 bis 15.000 Euro pro Jahr für Hosting, Inferenz, Wartung, je nach Frageaufkommen und Modellwahl.

Blog · RAG im Mittelstand

RAG: Warum KI erst mit Ihren eigenen Daten wirklich nützlich wird

Q: Was ist RAG einfach erklärt?

Retrieval-Augmented Generation: Bevor das Sprachmodell antwortet, sucht es in Ihren eigenen Dokumenten nach den passenden Stellen und nutzt nur diese als Grundlage. Die Antwort kommt mit Quellenangabe und kann nichts aus dem Internet halluzinieren, das nicht in Ihren Quellen steht.

von Tobias Egner · 24. April 2026 · 8 Min Lesezeit

RAG-Architektur: Frage geht in Vektor-Suche über die eigenen Dokumente, LLM antwortet mit Quellenangabe

Worum es geht: die Kurzfassung

RAG verbindet ein Sprachmodell mit Ihren Dokumenten. Vor jeder Antwort sucht das System in Ihren Quellen, zitiert die passenden Stellen und antwortet auf dieser Basis: keine Halluzination, immer mit Quellenangabe.
Der entscheidende Unterschied zu Fine-Tuning: Modell bleibt unverändert, Daten kommen pro Anfrage frisch dazu. Schneller, günstiger, jederzeit aktualisierbar.
Typische Use Cases im Mittelstand: Wissensmanagement, Support, Außendienst, Onboarding, Compliance, Angebotserstellung.
DSGVO ist meist der entscheidende Knackpunkt. EU-Inferenz oder On-Premise nehmen 80 % der Diskussion vorweg, bevor sie aufkommt.
Woran man ein gutes RAG-System erkennt: Quellenangabe pro Antwort, Confidence-Score, Eskalation bei Unsicherheit, sauberes Berechtigungssystem.

Das Problem: Warum generische KI-Modelle im Unternehmen scheitern

ChatGPT kann Gedichte schreiben, Python-Code refactoren und japanische Redewendungen übersetzen. Aber fragen Sie es, warum die Rechnung vom Lieferanten Müller um 2,3 Prozent abweicht oder welchen Preis Ihr Vertrieb im letzten Quartal mit der Schmidt-Werke GmbH verhandelt hat, und Sie bekommen eine höfliche, aber komplett nutzlose Antwort.

Das liegt in der Natur des Modells. Ein LLM (Large Language Model) ist auf öffentlich verfügbaren Texten aus dem Internet trainiert. Ihre Verträge, Ihre E-Mail-Historie, Ihre Buchungssätze, Ihr Produktkatalog: davon hat das Modell nichts gesehen. Und es wird auch nie darauf trainiert werden, weil Sie (zu Recht) nicht Ihre Firmendaten an OpenAI oder Anthropic schicken möchten.

Die Konsequenz: Das mächtigste Werkzeug der letzten zehn Jahre bleibt vor Ihrer Firewall hängen. Oder Ihre Mitarbeiter kopieren Daten heimlich in ChatGPT und Sie haben ein DSGVO-Problem. Beides ist keine Lösung.

Was ist RAG, einfach erklärt

RAG steht für „Retrieval-Augmented Generation”. Die Idee dahinter ist so einfach wie wirkungsvoll: Bevor die KI eine Antwort gibt, schaut sie erst in Ihren eigenen Dokumenten nach.

Stellen Sie sich einen neuen Mitarbeiter am ersten Tag vor. Sie stellen ihm eine Frage. Bevor er antwortet, geht er ins Archiv, liest die relevanten Ordner und kommt dann mit einer fundierten Antwort zurück, inklusive Verweis auf die Quelle, aus der er seine Information hat.

RAG macht genau das, nur in Sekundenbruchteilen und für jede Anfrage neu. Das Sprachmodell formuliert die Antwort elegant wie gewohnt. Aber der Inhalt kommt aus Ihren Daten, nicht aus dem Internet. Das Ergebnis: Antworten, die zu Ihrem Unternehmen passen und die Sie nachvollziehen können.

Wie ein RAG-System im Alltag arbeitet

Ein typischer Ablauf sieht so aus:

Eine Mitarbeiterin stellt im Chat eine Frage: „Was ist mit unserer Kulanz-Regelung bei Reklamationen über 30 Tagen?”
Das RAG-System zerlegt die Frage und sucht in Ihrer Wissensbasis nach relevanten Abschnitten. Das können Confluence-Seiten, PDF-Handbücher, E-Mail-Verläufe oder Datenbank-Einträge sein.
Die besten Treffer (etwa die drei relevantesten Passagen) werden zusammen mit der Frage an das Sprachmodell geschickt.
Das Sprachmodell formuliert eine präzise Antwort, die ausschließlich auf diesen Quellen basiert, inklusive Verweis auf die Dokumente.

Die Antwort könnte lauten: „Laut unserer Service-Richtlinie vom März 2024 gilt für Reklamationen nach mehr als 30 Tagen eine Kulanz nach Einzelfallprüfung durch den Teamleiter. Details siehe Confluence-Seite ‚Reklamationsprozess 2024’.”

Der Unterschied zum normalen ChatGPT: Die Antwort ist konkret, aktuell und überprüfbar. Und sie verlässt nie Ihr Unternehmen.

Typische Anwendungsfälle im Mittelstand

RAG-Systeme lohnen sich überall dort, wo Mitarbeiter heute viel Zeit mit Suchen verbringen:

Internes Wissensmanagement. Das klassische Firmenwiki wird zum Assistenten, der Fragen direkt beantwortet, statt auf 20 Seiten zu verweisen.

Support und Service. Der Agent liest eingehende Anfragen, findet passende Antworten aus FAQ und Tickethistorie und erstellt einen Antwortentwurf für den Mitarbeiter.

Vertriebsunterstützung. Außendienstler fragen unterwegs nach Produktdetails, Preishistorie oder Vertragskonditionen mit bestimmten Kunden, ohne Rückfrage ins Büro.

Onboarding neuer Mitarbeiter. Statt sich durch alte Teams-Kanäle zu graben, bekommen neue Kollegen Antworten auf Arbeitsfragen direkt aus dem Wissenssystem.

Compliance und Recht. Welche Klausel steht in welchem Vertrag? Welche Regelung gilt für welchen Kunden? RAG beantwortet diese Fragen, statt dass jemand zwei Stunden in Verträgen blättert.

Angebotserstellung. Der Agent zieht sich Produktdaten, Preise und Vertragsklauseln aus bestehenden Systemen und baut daraus einen fertigen Entwurf, wie wir es im Detail unter Auftragsabwicklung mit KI automatisieren beschreiben.

Service- und Wartungsdokumentation in der Fertigung. Techniker fragen am Mobilgerät, der Agent antwortet aus Maschinenhandbüchern und Service-Historie. Mehr dazu im Pillar KI-Agenten im Mittelstand 2026 und im Fertigungs-Schwerpunkt Predictive Quality in der Fertigung.

DSGVO & Datenhoheit: was viele übersehen

Hier trennt sich die Spreu vom Weizen. Die meisten RAG-Lösungen laufen technisch unter der Haube auf amerikanischen Sprachmodellen von OpenAI oder Anthropic. Das ist für viele Anwendungsfälle vollkommen in Ordnung, vor allem wenn die Daten anonymisiert oder nicht personenbezogen sind.

Wenn Sie aber personenbezogene Daten verarbeiten, Betriebsgeheimnisse schützen müssen oder in einer regulierten Branche tätig sind, brauchen Sie klare Antworten auf drei Fragen:

Wo liegen die Daten während der Verarbeitung? Werden Ihre Dokumente tatsächlich an ein US-Modell geschickt, oder bleibt alles in Europa?

Welches Modell wird eingesetzt? Es gibt heute starke deutsche und europäische Modelle (Mistral, Aleph Alpha) sowie On-Premise-Lösungen (Llama, Qwen, DeepSeek), die keine Daten nach außen geben.

Wer hat Zugriff auf was? Ein gutes RAG-System respektiert Ihre bestehenden Zugriffsrechte. Ein Praktikant soll nicht die Gehaltsdaten finden können, nur weil sie irgendwo in SharePoint liegen.

Unser Rat: Für geschäftskritische oder personenbezogene Daten gehört das Modell entweder auf Ihre Infrastruktur oder zu einem Hoster mit klarer Auftragsverarbeitung nach Art. 28 DSGVO und Serverstandort EU.

Woran Sie ein gutes RAG-System erkennen

Nicht jede „KI-Suche” ist ein gutes RAG-System. Achten Sie auf diese Qualitätskriterien:

Quellenangaben bei jeder Antwort. Das System muss sagen können, aus welchen Dokumenten die Antwort stammt. Ohne das können Sie die Antwort weder prüfen noch korrigieren.

Schutz vor Halluzinationen. Wenn das System keine gute Quelle findet, sollte es sagen „Ich weiß es nicht”, nicht eine plausibel klingende Antwort erfinden. Gute Systeme haben klare Guardrails dafür.

Aktualität. Ihre Dokumente ändern sich. Das System muss neue Dateien indexieren und veraltete Inhalte als solche erkennen.

Mehrsprachigkeit. Viele Mittelständler haben Dokumente auf Deutsch und Englisch. Das System sollte beide verstehen und übergreifend suchen können.

Integration in bestehende Systeme. Das System muss dort andocken, wo Ihre Mitarbeiter arbeiten: Teams, Outlook, Ihr CRM. Eine weitere Oberfläche, in der sich niemand anmeldet, bringt nichts.

Nachvollziehbarkeit. Jede Interaktion sollte protokolliert werden, damit Sie sehen, welche Fragen gestellt werden und wo das System Schwächen hat.

Erste Schritte: wann es sich lohnt und wie Sie starten

RAG lohnt sich, wenn mindestens einer dieser Punkte auf Sie zutrifft:

Ihre Mitarbeiter verlieren täglich Stunden mit der Suche nach Informationen.
Ihr Wissen ist über viele Systeme verteilt (SharePoint, Confluence, Outlook, ERP).
Sie haben wiederkehrende Fragen, die immer wieder dieselbe Person beantworten muss.
Sie möchten KI nutzen, aber nicht Ihre Daten an amerikanische Anbieter geben.

So starten Sie sinnvoll:

Klein anfangen. Wählen Sie einen klar umrissenen Bereich (z. B. „Antworten auf Kundenanfragen zum Produkt X”) und bauen Sie dafür einen Proof of Concept. Zwei bis vier Wochen reichen.

Qualität statt Masse. Lieber 200 gute Dokumente indexieren als 20.000 schlechte. Die Qualität der Antworten hängt direkt von der Qualität der Quellen ab.

Mit den Nutzern testen. Stellen Sie das System früh echten Anwendern zur Verfügung und sammeln Sie systematisch Feedback. Halluzinations-Schutz und Prompt-Qualität werden erst im realen Einsatz deutlich.

Skalieren, wenn es funktioniert. Wenn der erste Anwendungsfall läuft, erweitern Sie schrittweise auf andere Bereiche. Die Infrastruktur bleibt dieselbe.

Ein realistischer Zeitrahmen für den ersten produktiven RAG-Anwendungsfall: acht bis zwölf Wochen, inklusive Datenaufbereitung, Zugriffsrechte-Klärung und Nutzerschulung.

Richtig gebaut, ist RAG kein weiteres teures IT-Projekt, sondern eines der wenigen KI-Vorhaben mit direkt messbarem Nutzen: eingesparter Zeit, besseren Antworten, weniger Rückfragen.

Wenn Sie das bei sich konkret prüfen möchten, sprechen Sie uns an.

← Alle Artikel