RAG & interne Assistenten

Ihr Wissen, klug zugänglich.

Retrieval-Augmented Generation, kurz RAG, ist die pragmatischste Form, KI im Unternehmen einzusetzen: ein Sprachmodell, das Fragen auf Basis Ihrer eigenen Dokumente beantwortet — mit Quellen-Verweis, ohne Halluzinationen, ohne dass Ihr Wissen das Unternehmen verlässt. Hier erklären wir, wie es funktioniert, wo es sich lohnt und welche Architektur-Entscheidungen Souveränität ermöglichen.

Wie RAG funktioniert

Vier Schritte, die der Assistent bei jeder Frage durchläuft. Drei davon laufen einmal beim Aufsetzen, einer pro Anfrage — das macht den Unterschied zwischen „eine Antwort auswendig wissen“ und „die Antwort sauber recherchieren“ aus.

Ingestion

Ihre Inhalte werden eingelesen.

Verfahrensanweisungen, Wikis, Produkt-Datenblätter, Handbücher, Mail-Verläufe — alles, was als Wissensquelle taugen soll, wird automatisiert in eine zentrale Pipeline geladen. Dokumente werden in handhabbare Abschnitte (Chunks) zerlegt, damit später nicht ganze 80-Seiten-PDFs an das Modell gehen.

Embedding

Jeder Abschnitt bekommt eine semantische Adresse.

Ein Embedding-Modell übersetzt jeden Chunk in einen Zahlen-Vektor, der die Bedeutung — nicht die Wortwahl — repräsentiert. „Wie lange ist die Probezeit?" und „Probezeit-Dauer Mitarbeiter" landen damit dicht beieinander, auch wenn sie textlich kaum überlappen. Die Vektoren werden in einer Vektor-Datenbank abgelegt.

Retrieval

Zur Frage werden die richtigen Stellen gefunden.

Bei jeder Nutzer-Frage wird auch die Frage selbst in einen Vektor übersetzt. Die Datenbank gibt die fünf bis zehn ähnlichsten Chunks zurück — typischerweise innerhalb weniger Millisekunden, auch bei zehntausenden Dokumenten. Das ist das R in RAG.

Generation

Das Sprachmodell antwortet auf Basis der Treffer.

Erst jetzt kommt das LLM ins Spiel: Frage + die gefundenen Abschnitte gehen als Kontext an das Modell, das daraus eine Antwort formuliert und die Quellen mit ausweist. Halluzinationen werden seltener, Antworten nachvollziehbar — und das Modell muss nichts „auswendig" wissen.

Wofür RAG taugt

Nicht jede KI-Anwendung ist ein RAG-Fall — aber überall, wo Fragen auf bestehende, dokumentierte Inhalte verweisen, ist RAG fast immer die richtige Wahl. Vier Muster, die im Mittelstand besonders häufig produktiv werden.

Interner Wissens-Assistent

Die nachhaltigste Anwendung: alles, was sonst in 14 Sharepoint-Ordnern, drei Wikis und der Mail-Box vom Kollegen verstreut liegt, wird via Chat zugänglich. Antworten kommen mit Quellen-Verweis, sodass jeder die Originalstelle nachschlagen kann.

Beispiel: „Welche Schritte muss ich für eine Lieferanten-Freigabe gehen?" — Antwort plus Link zur Verfahrensanweisung.

Onboarding-Begleiter

Neue Mitarbeitende stellen typischerweise dieselben hundert Fragen — über Wochen. Ein RAG-Assistent auf der Mitarbeiter-Dokumentation entlastet die Kolleginnen und Kollegen und ist 24/7 verfügbar, ohne dass jemand wartet.

Beispiel: „Wie beantrage ich Urlaub?", „Wo finde ich die VPN-Konfiguration?", „Welcher Dienstleister macht unsere Visitenkarten?"

Vertriebs-Unterstützung

Der Vertrieb braucht Produktwissen, Referenz-Cases, Angebots-Bausteine, technische Detailfragen — meist verteilt über Jahre an gewachsener Doku. Ein Assistent mit Zugriff auf den kompletten Vertriebs-Wissensschatz verkürzt die Vorbereitungszeit pro Termin spürbar.

Beispiel: „Gib mir alle Referenzen, in denen wir SAP-Integrationen für die Automobilbranche gemacht haben, mit Ansprechpartner und Projektgröße."

First-Level-Support

Intern für IT-Helpdesk, extern für Kunden-Support: häufige Fragen mit nachvollziehbaren Quellen beantworten, komplexere Fälle sauber an menschliche Agentinnen übergeben. Spart Routine, ohne den persönlichen Kontakt zu ersetzen.

Beispiel: „Wie konfiguriere ich Outlook für unser Mail-System?" beantwortet der Assistent direkt; „Mein Drucker druckt nur leere Seiten" geht an den Helpdesk.

Souverän umsetzen

Drei Architektur-Entscheidungen bestimmen, wie souverän Ihr RAG-Assistent am Ende ist. Für jede gibt es eine Standard-Empfehlung, mit der Sie Ihre Daten unter Kontrolle behalten — ohne dass das Setup unverhältnismäßig wird.

Wo läuft das Sprachmodell?

Empfehlung: lokales LLM (Llama, Mistral, Qwen) auf eigener GPU oder EU-konforme API (Mistral, Aleph Alpha).

Die fundamentale Souveränitäts-Entscheidung. Lokale Modelle halten alle Daten im Haus — höchste Kontrolle, höhere Initial-Investition. EU-konforme APIs sind ein guter Mittelweg: keine GPU-Wartung, aber keine Datenflüsse nach Übersee. US-Cloud-APIs (OpenAI, Anthropic, Google) sind schnell und stark, aber DSGVO-rechtlich heikel und ein klarer Vendor Lock-in.

Wo liegen Embeddings und Vektor-Datenbank?

Empfehlung: pgvector auf Ihrer bestehenden Postgres-Instanz, oder Qdrant self-hosted bei großen Volumina.

pgvector macht aus jeder Postgres-DB eine Vektor-DB — keine zusätzliche Infrastruktur, eine Backup-Strategie für alles. Für sehr große Korpora (Millionen Dokumente) oder Spezial-Anforderungen lohnt sich eine dedizierte Lösung wie Qdrant. Managed-Vektor-DBs (Pinecone, Weaviate Cloud) lösen kein Problem, das pgvector self-hosted nicht auch löst — und schicken Ihre Embeddings raus.

Wie wird der Index aktuell gehalten?

Empfehlung: automatisierter Ingestion-Job pro Quelle, getriggert durch Änderungs-Webhook oder Cron, mit Versions-Tracking.

Inhalte ändern sich. Wenn der Assistent veraltete Verfahrensanweisungen ausgibt, verliert er Vertrauen. Pro Quelle (Wiki, Sharepoint, CRM) wird ein Ingestion-Job aufgesetzt, der bei Änderungen die betroffenen Chunks neu erzeugt. Dokumente werden versioniert, damit sich rückwirkend nachvollziehen lässt, auf welcher Wissensbasis eine Antwort entstanden ist.

Vertiefung

Warum die Frage „wo läuft das Modell“ mehr ist als eine Hosting-Entscheidung — und welche Bausteine zu echter KI-Souveränität gehören — lesen Sie unter Souveräne KI und Digitale Souveränität.

Ihr internes ChatGPT — nur sicher.

Wir bauen RAG-Assistenten auf Ihrer Infrastruktur oder in einer EU-konformen Cloud — mit Ihrem Wissen, unter Ihrer Kontrolle. Erstgespräch klärt, welche Wissensquellen, welche Nutzergruppen und welches Hosting für Sie passen.

KI-Assistent anfragen Oder alle Umsetzungs-Leistungen ansehen →

Glossar: Embedding, RAG und verwandte Begriffe knapp erklärt
Leistung: Souveräner KI-Assistent — wie wir RAG für Sie aufsetzen
Werkzeug: pgvector — Open-Source Vektor-Erweiterung für Postgres