Generación aumentada por recuperación (RAG)

La generación aumentada por recuperación (RAG, por sus siglas en inglés) es una técnica que permite a un modelo de lenguaje responder preguntas usando documentos que recupera en el momento de la consulta, en lugar de depender solo de lo que memorizó durante el entrenamiento.

Cuando un usuario pregunta algo, el sistema primero busca en un almacén de conocimiento (a menudo una base de datos vectorial que guarda embeddings de tus documentos), trae los pasajes más relevantes y los inserta en el prompt. El modelo entonces escribe su respuesta anclada en ese texto recuperado.

El atractivo es práctico. Puedes mantener el modelo actualizado sin reentrenarlo, apuntarlo a contenido privado o propietario que nunca vio y reducir la tasa con que inventa cosas. Para los equipos de gobernanza, RAG también cambia el panorama de riesgo de formas fáciles de subestimar.

Cómo funciona RAG

Un pipeline típico de RAG tiene unas cuantas etapas. Los documentos se dividen en fragmentos y se convierten en embeddings, que son representaciones numéricas guardadas en un índice. En el momento de la consulta, la pregunta del usuario también se convierte en embedding, y el sistema recupera los fragmentos cuyos embeddings están más cerca de ella.

Esos fragmentos recuperados se ensamblan en una ventana de contexto junto con la pregunta original y cualquier instrucción del sistema. El modelo lee todo y produce una respuesta. La mayoría de los sistemas en producción agregan un paso de reordenamiento para reorganizar los pasajes recuperados por relevancia, y muchos citan los documentos fuente de vuelta al usuario.

La calidad de una respuesta de RAG depende tanto de la recuperación como del modelo. Si el índice devuelve los pasajes equivocados, hasta un modelo fuerte dará una respuesta confiadamente equivocada. Por eso los equipos tratan la recuperación y la generación como dos cosas separadas que hay que probar.

Por qué RAG importa para la gobernanza

RAG importa para la gobernanza de IA por cuatro razones.

Anclaje. Las respuestas quedan atadas a documentos fuente específicos en lugar de a la memoria paramétrica del modelo, lo que facilita verificar si una afirmación tiene sustento.

Reducción de alucinaciones. Dar al modelo contexto relevante baja la probabilidad de que invente hechos, aunque no elimina el riesgo. El modelo aún puede malinterpretar o contradecir los pasajes que se le dieron.

Procedencia de los datos. Como las respuestas se remontan a las fuentes recuperadas, puedes mostrar de dónde vino la información. Eso apoya la auditabilidad y ayuda a satisfacer las expectativas de transparencia.

Una nueva superficie de ataque. El almacén de recuperación se vuelve parte de la frontera de confianza. Si un atacante puede escribir en los documentos que se indexan, puede plantar instrucciones o hechos falsos que el modelo luego recupera y sobre los que actúa. Este es el problema de la inyección indirecta de prompts, y es propio de los sistemas que traen contenido externo.

El almacén de recuperación como superficie de riesgo

La base de conocimiento es ahora una preocupación de seguridad y cumplimiento, no solo una conveniencia de ingeniería.

El control de acceso importa a nivel de fragmento. Si el índice mezcla documentos con permisos distintos, un usuario podría recuperar pasajes que no debería ver. Muchos incidentes se remontan a una indexación demasiado amplia más que a una falla del modelo.

La sensibilidad de los datos viaja con los documentos. Si indexas registros de clientes, datos de salud o contratos confidenciales, esos datos pueden aflorar en las respuestas y en los registros. Las obligaciones de privacidad, como la limitación de finalidad y la minimización de datos del RGPD, aplican a lo que pones en el almacén.

El envenenamiento es una amenaza real. El contenido que se ingiere de la web abierta, de unidades compartidas o de archivos subidos por usuarios puede llevar instrucciones ocultas. Trata el contenido ingerido como entrada no confiable.

Cómo se evalúan los sistemas RAG

Evaluar RAG significa medir la recuperación y la generación por separado, y luego juntas.

La fidelidad mide si la respuesta generada está realmente sustentada por el contexto recuperado, en lugar de agregar afirmaciones sin sustento. Una respuesta infiel es una alucinación aunque la recuperación haya sido correcta.

La precisión contextual y la cobertura contextual miden la calidad de la recuperación. La precisión pregunta si los pasajes recuperados son relevantes y están ordenados con sentido. La cobertura pregunta si los pasajes que contenían la respuesta se recuperaron del todo.

La relevancia de la respuesta verifica si esta aborda la pregunta real. Los equipos suelen combinar estas métricas con revisión humana sobre una muestra, y algunos usan un modelo aparte como juez para calificar la fidelidad a escala.

Implicaciones para la gobernanza

RAG no elimina el trabajo de gobernanza, lo reubica. Documenta qué entra al índice y por qué, quién puede acceder a qué fragmentos y con qué frecuencia se actualiza el almacén. Conserva los registros de recuperación para poder reconstruir por qué se produjo una respuesta dada, lo que apoya la investigación de incidentes y la auditoría.

Bajo la Ley de IA de la UE y la ISO 42001, las mismas expectativas en torno a pruebas, monitoreo y mantenimiento de registros aplican a los sistemas RAG. El pipeline de recuperación es parte del sistema, así que sus fuentes de datos, sus reglas de acceso y sus resultados de evaluación pertenecen a tu documentación técnica.

Preguntas frecuentes

¿RAG detiene las alucinaciones?

No. RAG baja la tasa de respuestas inventadas al anclar las respuestas en texto recuperado, pero el modelo aún puede malinterpretar un pasaje, mezclarlo con sus propias suposiciones o responder con confianza cuando la recuperación no devuelve nada relevante. Medir la fidelidad es la forma de detectar estos casos. Trata RAG como una mitigación fuerte, no como una garantía.

¿Cuál es la diferencia entre RAG y el ajuste fino?

El ajuste fino cambia los pesos del modelo para que aprenda un estilo o un dominio. RAG deja el modelo sin cambios y le aporta información fresca en el momento de la consulta. RAG es más fácil de actualizar, ya que solo cambias los documentos, y te da procedencia. El ajuste fino es mejor cuando necesitas que el modelo adopte un comportamiento o formato de forma consistente. Muchos equipos usan ambos.

¿La base de datos vectorial es un riesgo de seguridad?

Puede serlo. El almacén de recuperación guarda tu contenido indexado, así que un control de acceso débil puede filtrar pasajes sensibles, y las fuentes con permiso de escritura pueden envenenarse con instrucciones ocultas. Aplica el mismo control de acceso, clasificación de datos y validación de entrada que aplicarías a cualquier sistema que guarde datos de producción.

¿Qué es la inyección indirecta de prompts en un sistema RAG?

Es cuando instrucciones maliciosas se ocultan dentro de documentos que luego se recuperan y se colocan en el contexto del modelo. El modelo puede tratar ese texto como un comando. Como el contenido llega a través de la recuperación en lugar del usuario, esquiva el filtrado de entrada. Sanear y aislar el contenido recuperado ayuda a reducir esto.

¿Qué debo registrar para un sistema RAG?

Como mínimo, la consulta, qué fragmentos se recuperaron, los documentos fuente y sus versiones, y la respuesta final. Estos registros te permiten reconstruir por qué se produjo una respuesta, investigar incidentes y aportar evidencia de auditoría. Ten cuidado de que los registros mismos no se vuelvan una copia desprotegida de datos sensibles.

¿Cómo evalúo la calidad de la recuperación?

Usa precisión y cobertura contextuales contra un conjunto etiquetado de preguntas con pasajes fuente correctos conocidos. La precisión te dice si los pasajes recuperados son relevantes, la cobertura te dice si los pasajes correctos se encontraron del todo. Combina estas métricas con verificaciones de fidelidad sobre las respuestas generadas, para separar las fallas de recuperación de las de generación.

Resumen

La generación aumentada por recuperación ancla las respuestas del modelo en documentos obtenidos en el momento de la consulta, lo que mantiene las respuestas actualizadas, reduce la invención y te da procedencia. El sacrificio es que el almacén de recuperación se vuelve parte de la frontera de confianza, cargando riesgos de control de acceso, sensibilidad de datos y envenenamiento. Gobierna RAG documentando tus fuentes, controlando el acceso a nivel de fragmento, registrando las recuperaciones y evaluando la fidelidad y la precisión contextual por separado, para que sepas si una respuesta equivocada vino de la recuperación o de la generación.

Generación aumentada por recuperación (RAG)

Generación aumentada por recuperación (RAG)

Cómo funciona RAG

Por qué RAG importa para la gobernanza

El almacén de recuperación como superficie de riesgo

Cómo se evalúan los sistemas RAG

Implicaciones para la gobernanza

Preguntas frecuentes

¿RAG detiene las alucinaciones?

¿Cuál es la diferencia entre RAG y el ajuste fino?

¿La base de datos vectorial es un riesgo de seguridad?

¿Qué es la inyección indirecta de prompts en un sistema RAG?

¿Qué debo registrar para un sistema RAG?

¿Cómo evalúo la calidad de la recuperación?

Resumen

Entradas relacionadas

Aseguramiento de IA

Plan de respuesta a incidentes de IA

Inventario de modelos de IA

Robustez de modelos de IA

Validación de salidas de IA

Red teaming de IA

Implementar con VerifyWise

VerifyWise

Implementar Generación aumentada por recuperación (RAG) en su organización