Retrieval-augmented Generation (RAG)
Retrieval-augmented Generation (RAG) ist eine Technik, die ein Sprachmodell Fragen mithilfe von Dokumenten beantworten lässt, die es zur Abfragezeit abruft, statt sich nur auf das zu stützen, was es während des Trainings auswendig gelernt hat.
Wenn ein Nutzer etwas fragt, durchsucht das System zunächst einen Wissensspeicher (oft eine Vektordatenbank, die Embeddings Ihrer Dokumente hält), holt die relevantesten Passagen zurück und fügt sie in den Prompt ein. Das Modell schreibt seine Antwort dann verankert in diesem abgerufenen Text.
Der Reiz ist praktisch. Sie können das Modell aktuell halten, ohne es neu zu trainieren, es auf private oder geschützte Inhalte ausrichten, die es nie gesehen hat, und die Rate verringern, mit der es sich Dinge ausdenkt. Für Governance-Teams verändert RAG zudem das Risikobild auf Weisen, die leicht unterschätzt werden.
Wie RAG funktioniert
Eine typische RAG-Pipeline hat ein paar Stufen. Dokumente werden in Abschnitte aufgeteilt und in Embeddings umgewandelt, also numerische Repräsentationen, die in einem Index gespeichert werden. Zur Abfragezeit wird auch die Frage des Nutzers in ein Embedding umgewandelt, und das System ruft die Abschnitte ab, deren Embeddings ihr am nächsten liegen.
Diese abgerufenen Abschnitte werden zusammen mit der ursprünglichen Frage und etwaigen Systemanweisungen zu einem Kontextfenster zusammengesetzt. Das Modell liest alles und erzeugt eine Antwort. Die meisten Produktivsysteme fügen einen Reranking-Schritt hinzu, der abgerufene Passagen nach Relevanz neu ordnet, und viele verweisen die Quelldokumente an den Nutzer zurück.
Die Qualität einer RAG-Antwort hängt ebenso vom Abruf wie vom Modell ab. Liefert der Index die falschen Passagen, gibt selbst ein starkes Modell eine selbstbewusste falsche Antwort. Deshalb behandeln Teams Abruf und Generierung als zwei getrennte Dinge, die zu testen sind.
Warum RAG für die Governance wichtig ist
RAG ist für die KI-Governance aus vier Gründen wichtig.
Verankerung. Antworten sind an konkrete Quelldokumente gebunden statt an das parametrische Gedächtnis des Modells, was es leichter macht zu prüfen, ob eine Behauptung belegt ist.
Verringerung von Halluzinationen. Dem Modell relevanten Kontext zu geben senkt die Wahrscheinlichkeit, dass es Fakten erfindet, beseitigt das Risiko aber nicht. Ein Modell kann die ihm gegebenen Passagen immer noch falsch lesen oder ihnen widersprechen.
Herkunft der Daten. Weil Antworten auf abgerufene Quellen zurückführen, können Sie zeigen, woher Informationen stammen. Das unterstützt die Prüfbarkeit und hilft, Transparenzerwartungen zu erfüllen.
Eine neue Angriffsfläche. Der Retrieval-Speicher wird Teil der Vertrauensgrenze. Kann ein Angreifer in die indexierten Dokumente schreiben, kann er Anweisungen oder falsche Fakten platzieren, die das Modell später abruft und auf die es reagiert. Das ist das Problem der indirekten Prompt-Injection, und es ist einzigartig für Systeme, die externe Inhalte hereinziehen.
Der Retrieval-Speicher als Risikofläche
Die Wissensbasis ist nun ein Sicherheits- und Compliance-Thema, nicht nur eine technische Annehmlichkeit.
Zugriffskontrolle ist auf Abschnittsebene wichtig. Mischt der Index Dokumente mit unterschiedlichen Berechtigungen, könnte ein Nutzer Passagen abrufen, die er nicht sehen sollte. Viele Vorfälle gehen auf eine zu breite Indexierung statt auf einen Modellfehler zurück.
Die Sensibilität der Daten reist mit den Dokumenten. Wenn Sie Kundendatensätze, Gesundheitsdaten oder vertrauliche Verträge indexieren, können diese Daten in Antworten und in Protokollen auftauchen. Datenschutzpflichten wie die Zweckbindung und Datenminimierung der DSGVO gelten für das, was Sie in den Speicher legen.
Vergiftung ist eine reale Bedrohung. Inhalte, die aus dem offenen Web, aus geteilten Laufwerken oder aus Nutzer-Uploads aufgenommen werden, können versteckte Anweisungen tragen. Behandeln Sie aufgenommene Inhalte als nicht vertrauenswürdige Eingaben.
Wie RAG-Systeme evaluiert werden
RAG zu evaluieren bedeutet, Abruf und Generierung getrennt und dann zusammen zu messen.
Quellentreue misst, ob die erzeugte Antwort tatsächlich durch den abgerufenen Kontext gestützt wird, statt unbelegte Behauptungen hinzuzufügen. Eine nicht quellentreue Antwort ist eine Halluzination, auch wenn der Abruf korrekt war.
Kontextuelle Präzision und kontextueller Recall messen die Abrufqualität. Die Präzision fragt, ob die abgerufenen Passagen relevant und sinnvoll geordnet sind. Der Recall fragt, ob die Passagen, die die Antwort enthielten, überhaupt abgerufen wurden.
Die Antwortrelevanz prüft, ob die Antwort die eigentliche Frage anspricht. Teams kombinieren dies oft mit einer menschlichen Prüfung an einer Stichprobe, und einige nutzen ein separates Modell als Richter, um die Quellentreue im großen Maßstab zu bewerten.
Governance-Folgen
RAG entfernt die Governance-Arbeit nicht, es verlagert sie. Dokumentieren Sie, was in den Index gelangt und warum, wer auf welche Abschnitte zugreifen kann und wie oft der Speicher aktualisiert wird. Führen Sie Abrufprotokolle, damit Sie rekonstruieren können, warum eine bestimmte Antwort erzeugt wurde, was die Untersuchung von Vorfällen und das Audit unterstützt.
Nach dem EU AI Act und ISO 42001 gelten dieselben Erwartungen rund um Tests, Überwachung und Aufzeichnung für RAG-Systeme. Die Abruf-Pipeline ist Teil des Systems, daher gehören ihre Datenquellen, Zugriffsregeln und Evaluierungsergebnisse in Ihre technische Dokumentation.
FAQ
Stoppt RAG Halluzinationen?
Nein. RAG senkt die Rate erfundener Antworten, indem es Antworten in abgerufenem Text verankert, doch das Modell kann eine Passage immer noch falsch deuten, sie mit eigenen Annahmen vermischen oder selbstbewusst antworten, wenn der Abruf nichts Relevantes zurückgibt. Die Quellentreue zu messen ist die Art, wie Sie diese Fälle abfangen. Behandeln Sie RAG als starke Minderung, nicht als Garantie.
Was ist der Unterschied zwischen RAG und Feinabstimmung?
Die Feinabstimmung ändert die Gewichte des Modells, sodass es einen Stil oder eine Domäne lernt. RAG lässt das Modell unverändert und liefert zur Abfragezeit frische Informationen. RAG ist leichter zu aktualisieren, da Sie nur die Dokumente ändern, und es liefert Herkunft. Die Feinabstimmung ist besser, wenn das Modell ein Verhalten oder Format beständig übernehmen soll. Viele Teams nutzen beides.
Ist die Vektordatenbank ein Sicherheitsrisiko?
Sie kann es sein. Der Retrieval-Speicher hält Ihre indexierten Inhalte, daher können schwache Zugriffskontrollen sensible Passagen preisgeben, und beschreibbare Quellen können mit versteckten Anweisungen vergiftet werden. Wenden Sie dieselbe Zugriffskontrolle, Datenklassifizierung und Eingabeprüfung an, die Sie bei jedem System mit Produktivdaten anwenden würden.
Was ist indirekte Prompt-Injection in einem RAG-System?
Es ist der Fall, dass böswillige Anweisungen in Dokumenten versteckt sind, die später abgerufen und in den Kontext des Modells gelegt werden. Das Modell behandelt diesen Text womöglich als Befehl. Weil der Inhalt über den Abruf statt über den Nutzer eintrifft, umgeht er die Eingabefilterung. Den abgerufenen Inhalt zu bereinigen und zu isolieren hilft, dies zu verringern.
Was sollte ich für ein RAG-System protokollieren?
Mindestens die Abfrage, welche Abschnitte abgerufen wurden, die Quelldokumente und ihre Versionen sowie die abschließende Antwort. Diese Protokolle lassen Sie rekonstruieren, warum eine Antwort erzeugt wurde, Vorfälle untersuchen und Audit-Nachweise liefern. Achten Sie darauf, dass die Protokolle selbst nicht zu einer ungeschützten Kopie sensibler Daten werden.
Wie evaluiere ich die Abrufqualität?
Nutzen Sie kontextuelle Präzision und Recall gegen einen gelabelten Satz von Fragen mit bekannten korrekten Quellpassagen. Die Präzision sagt Ihnen, ob abgerufene Passagen relevant sind, der Recall sagt Ihnen, ob die richtigen Passagen überhaupt gefunden wurden. Verbinden Sie diese mit Quellentreue-Prüfungen an den erzeugten Antworten, damit Sie Abruffehler von Generierungsfehlern trennen.
Zusammenfassung
Retrieval-augmented Generation verankert Modellantworten in Dokumenten, die zur Abfragezeit abgerufen werden, was Antworten aktuell hält, das Erfinden verringert und Ihnen Herkunft liefert. Der Kompromiss ist, dass der Retrieval-Speicher Teil der Vertrauensgrenze wird und Risiken durch Zugriffskontrolle, Datensensibilität und Vergiftung trägt. Steuern Sie RAG, indem Sie Ihre Quellen dokumentieren, den Zugriff auf Abschnittsebene kontrollieren, Abrufe protokollieren und Quellentreue sowie kontextuelle Präzision getrennt evaluieren, damit Sie wissen, ob eine falsche Antwort aus dem Abruf oder aus der Generierung kam.