Génération augmentée par récupération (RAG)
La génération augmentée par récupération (RAG, pour retrieval-augmented generation) est une technique qui permet à un modèle de langage de répondre à des questions en s'appuyant sur des documents qu'il récupère au moment de la requête, plutôt que de se fonder uniquement sur ce qu'il a mémorisé pendant l'entraînement.
Lorsqu'un utilisateur pose une question, le système commence par chercher dans un magasin de connaissances (souvent une base de données vectorielle contenant les plongements de vos documents), en ramène les passages les plus pertinents et les insère dans le prompt. Le modèle rédige ensuite sa réponse en l'ancrant dans ce texte récupéré.
L'intérêt est pratique. Vous pouvez tenir le modèle à jour sans le réentraîner, le pointer vers du contenu privé ou propriétaire qu'il n'a jamais vu, et réduire le rythme auquel il invente des choses. Pour les équipes de gouvernance, le RAG modifie aussi le tableau des risques de façons faciles à sous-estimer.
Comment fonctionne le RAG
Un pipeline RAG type comporte quelques étapes. Les documents sont découpés en fragments et convertis en plongements, des représentations numériques stockées dans un index. Au moment de la requête, la question de l'utilisateur est elle aussi convertie en plongement, et le système récupère les fragments dont les plongements en sont les plus proches.
Ces fragments récupérés sont assemblés dans une fenêtre de contexte aux côtés de la question d'origine et de toute instruction système. Le modèle lit l'ensemble et produit une réponse. La plupart des systèmes en production ajoutent une étape de reclassement pour réordonner les passages récupérés par pertinence, et beaucoup citent les documents source à l'utilisateur.
La qualité d'une réponse RAG dépend autant de la récupération que du modèle. Si l'index renvoie les mauvais passages, même un modèle puissant donnera une réponse fausse avec aplomb. C'est pourquoi les équipes traitent récupération et génération comme deux éléments distincts à tester.
Pourquoi le RAG compte pour la gouvernance
Le RAG compte pour la gouvernance de l'IA pour quatre raisons.
L'ancrage. Les réponses sont rattachées à des documents source précis plutôt qu'à la mémoire paramétrique du modèle, ce qui facilite la vérification du caractère étayé d'une affirmation.
La réduction des hallucinations. Donner au modèle un contexte pertinent abaisse le risque qu'il invente des faits, sans toutefois l'éliminer. Un modèle peut encore mal lire les passages fournis ou les contredire.
La provenance des données. Parce que les réponses remontent à des sources récupérées, vous pouvez montrer d'où vient l'information. Cela soutient l'auditabilité et aide à satisfaire les attentes de transparence.
Une nouvelle surface d'attaque. Le magasin de récupération devient une partie de la frontière de confiance. Si un attaquant peut écrire dans les documents indexés, il peut implanter des instructions ou de faux faits que le modèle récupère ensuite et sur lesquels il agit. C'est le problème de l'injection de prompt indirecte, et il est propre aux systèmes qui ingèrent du contenu externe.
Le magasin de récupération comme surface de risque
La base de connaissances est désormais un sujet de sécurité et de conformité, et pas seulement une commodité d'ingénierie.
Le contrôle d'accès importe au niveau du fragment. Si l'index mélange des documents aux autorisations différentes, un utilisateur pourrait récupérer des passages qu'il ne devrait pas voir. De nombreux incidents remontent à une indexation trop large plutôt qu'à un défaut du modèle.
La sensibilité des données voyage avec les documents. Si vous indexez des dossiers clients, des données de santé ou des contrats confidentiels, ces données peuvent ressurgir dans les réponses et les journaux. Les obligations de protection de la vie privée comme la limitation des finalités et la minimisation des données du RGPD s'appliquent à ce que vous placez dans le magasin.
L'empoisonnement est une menace réelle. Le contenu ingéré depuis le web ouvert, des disques partagés ou des fichiers téléversés peut véhiculer des instructions cachées. Traitez le contenu ingéré comme une entrée non fiable.
Comment les systèmes RAG sont évalués
Évaluer un système RAG, c'est mesurer la récupération et la génération séparément, puis ensemble.
La fidélité mesure si la réponse générée est réellement étayée par le contexte récupéré, plutôt que d'ajouter des affirmations non étayées. Une réponse infidèle est une hallucination, même quand la récupération était correcte.
La précision contextuelle et le rappel contextuel mesurent la qualité de la récupération. La précision demande si les passages récupérés sont pertinents et classés judicieusement. Le rappel demande si les passages contenant la réponse ont bien été récupérés.
La pertinence de la réponse vérifie si la réponse aborde la question réelle. Les équipes combinent souvent ces mesures avec une relecture humaine sur un échantillon, et certaines utilisent un modèle distinct comme juge pour noter la fidélité à grande échelle.
Implications pour la gouvernance
Le RAG ne supprime pas le travail de gouvernance, il le déplace. Documentez ce qui entre dans l'index et pourquoi, qui peut accéder à quels fragments, et à quelle fréquence le magasin est rafraîchi. Conservez des journaux de récupération afin de reconstituer pourquoi une réponse donnée a été produite, ce qui soutient l'enquête sur les incidents et l'audit.
Au titre du règlement européen sur l'IA (EU AI Act) et de la norme ISO 42001, les mêmes attentes en matière de tests, de surveillance et de tenue de relevés s'appliquent aux systèmes RAG. Le pipeline de récupération fait partie du système, donc ses sources de données, ses règles d'accès et ses résultats d'évaluation appartiennent à votre documentation technique.
FAQ
Le RAG arrête-t-il les hallucinations ?
Non. Le RAG abaisse le taux de réponses fabriquées en ancrant les réponses dans un texte récupéré, mais le modèle peut encore mal interpréter un passage, le mêler à ses propres suppositions, ou répondre avec aplomb quand la récupération ne renvoie rien de pertinent. Mesurer la fidélité est la façon de repérer ces cas. Considérez le RAG comme une atténuation forte, et non comme une garantie.
Quelle est la différence entre le RAG et l'affinage ?
L'affinage modifie les poids du modèle pour qu'il apprenne un style ou un domaine. Le RAG laisse le modèle inchangé et lui fournit une information fraîche au moment de la requête. Le RAG est plus simple à mettre à jour, puisqu'il suffit de changer les documents, et il vous donne la provenance. L'affinage est préférable quand vous avez besoin que le modèle adopte un comportement ou un format de façon constante. Beaucoup d'équipes utilisent les deux.
La base de données vectorielle est-elle un risque de sécurité ?
Elle peut l'être. Le magasin de récupération contient votre contenu indexé, donc des contrôles d'accès faibles peuvent laisser fuir des passages sensibles, et des sources accessibles en écriture peuvent être empoisonnées avec des instructions cachées. Appliquez le même contrôle d'accès, la même classification des données et la même validation des entrées que pour tout système contenant des données de production.
Qu'est-ce que l'injection de prompt indirecte dans un système RAG ?
C'est lorsque des instructions malveillantes sont dissimulées à l'intérieur de documents qui sont ensuite récupérés et placés dans le contexte du modèle. Le modèle peut traiter ce texte comme une commande. Comme le contenu arrive par la récupération plutôt que par l'utilisateur, il contourne le filtrage des entrées. Assainir et isoler le contenu récupéré aide à réduire ce risque.
Que dois-je journaliser pour un système RAG ?
Au minimum, la requête, les fragments récupérés, les documents source et leurs versions, et la réponse finale. Ces journaux vous permettent de reconstituer pourquoi une réponse a été produite, d'enquêter sur les incidents et de fournir des preuves d'audit. Veillez à ce que les journaux eux-mêmes ne deviennent pas une copie non protégée de données sensibles.
Comment évaluer la qualité de la récupération ?
Utilisez la précision et le rappel contextuels par rapport à un jeu de questions étiqueté avec des passages source corrects connus. La précision vous indique si les passages récupérés sont pertinents, le rappel vous indique si les bons passages ont été trouvés. Associez ces mesures à des vérifications de fidélité sur les réponses générées, afin de distinguer les échecs de récupération des échecs de génération.
Résumé
La génération augmentée par récupération ancre les réponses du modèle dans des documents récupérés au moment de la requête, ce qui maintient les réponses à jour, réduit la fabrication et vous donne la provenance. La contrepartie est que le magasin de récupération devient une partie de la frontière de confiance, porteur de risques de contrôle d'accès, de sensibilité des données et d'empoisonnement. Gouvernez le RAG en documentant vos sources, en contrôlant l'accès au niveau du fragment, en journalisant les récupérations, et en évaluant séparément la fidélité et la précision contextuelle pour savoir si une mauvaise réponse provient de la récupération ou de la génération.