Politica de obtencion de datos de entrenamiento de IA

1. Proposito

Esta politica define como [Nombre de la organizacion] obtiene, evalua y documenta los datos utilizados para entrenar, ajustar, validar y probar modelos de IA. Confirma que todos los datos de entrenamiento tienen una procedencia clara, un licenciamiento adecuado, una calidad aceptable y han sido revisados en busca de sesgos — antes de ingresar a cualquier pipeline de IA.

2. Alcance

Esta politica se aplica a:

Todos los datos utilizados para entrenar, ajustar o adaptar modelos de IA (incluidos preentrenamiento, ajuste de instrucciones, RLHF y generacion aumentada por recuperacion).
Todos los conjuntos de datos de validacion y prueba utilizados para evaluar el rendimiento del modelo.
Todos los datos obtenidos internamente, adquiridos de proveedores, extraidos de internet o generados sinteticamente.
Tanto modelos desarrollados internamente como modelos de terceros ajustados por la organizacion.

3. Definiciones

Datos de entrenamiento: Datos utilizados durante el proceso de aprendizaje del modelo para establecer parametros y patrones.
Datos de validacion: Datos utilizados durante el desarrollo para ajustar hiperparametros y prevenir el sobreajuste. No deben solaparse con los datos de entrenamiento.
Datos de prueba: Datos utilizados despues del desarrollo para evaluar el rendimiento final del modelo. No deben solaparse con los datos de entrenamiento ni de validacion.
Procedencia de datos: El origen documentado, la historia y la cadena de custodia de un conjunto de datos.
Linaje de datos: El registro de como se recopilaron, transformaron y procesaron los datos antes de su uso.
Datos sinteticos: Datos generados artificialmente que preservan las propiedades estadisticas de los datos reales sin contener informacion personal o propietaria real.

4. Requisitos de obtencion de datos

Antes de que se utilice cualquier conjunto de datos para el entrenamiento de IA, debe pasar las siguientes verificaciones:

4.1 Documentacion de procedencia

La fuente de los datos debe identificarse y documentarse (sistema interno, proveedor, conjunto de datos publico, extraccion web, generacion sintetica).
La fecha de recopilacion o adquisicion debe registrarse.
La cadena de custodia desde la fuente hasta el pipeline de IA debe ser rastreable.
Si los datos han sido preprocesados o transformados, las transformaciones deben documentarse.

4.2 Revision legal y de licenciamiento

Todos los datos externos deben tener una licencia clara que permita su uso para el entrenamiento de IA.
Los conjuntos de datos de codigo abierto deben revisarse respecto a los terminos de la licencia (algunos prohiben el uso comercial o los modelos derivados).
Los datos adquiridos deben incluir permiso contractual explicito para fines de entrenamiento de IA.
Los datos obtenidos por web scraping deben revisarse en cuanto a violaciones de terminos de servicio, restricciones de derechos de autor y contenido de datos personales.
Se requiere revision legal antes de utilizar cualquier conjunto de datos en un dominio regulado (salud, servicios financieros, empleo).

4.3 Evaluacion de datos personales

Todos los conjuntos de datos deben escanearse en busca de datos personales antes de su uso.
Si estan presentes datos personales, la base legal para el tratamiento debe establecerse conforme a la Politica de uso de datos en IA.
Deben considerarse la anonimizacion, seudonimizacion o generacion de datos sinteticos para reducir el riesgo de privacidad.
Los datos de categoria especial (salud, biometricos, financieros) requieren revision legal adicional y EIPD.

5. Estandares de calidad de datos

El articulo 10 del Reglamento Europeo de IA exige que los datos de entrenamiento para sistemas de alto riesgo sean "pertinentes, representativos, libres de errores y completos". Todos los datos de entrenamiento deben cumplir los siguientes estandares:

Dimension de calidad	Requisito	Como verificar
Pertinencia	Los datos deben ser apropiados para el proposito previsto del sistema de IA.	Revision de datos de muestra por un experto del dominio.
Representatividad	Los datos deben representar la poblacion o el contexto que el modelo servira.	Analisis demografico, verificacion de distribucion geografica.
Exactitud	Los datos deben ser factualmente correctos y libres de errores sistematicos.	Validacion por muestreo, contrastacion con datos de referencia.
Completitud	Los datos no deben tener lagunas criticas que sesguen el modelo.	Analisis de valores faltantes, evaluacion de cobertura.
Vigencia temporal	Los datos deben reflejar las condiciones actuales si el modelo opera en un entorno cambiante.	Revision del rango de fechas, verificacion de obsolescencia.
Consistencia	Los datos de multiples fuentes deben armonizarse en formato, esquema y semantica.	Validacion de esquema, analisis de deduplicacion.

6. Revision de sesgos

Todos los datos de entrenamiento deben revisarse en busca de sesgos potenciales antes de su uso:

Los hallazgos de la revision de sesgos deben documentarse en el registro del conjunto de datos. Los sesgos significativos que no puedan mitigarse deben escalarse al Comite de gobernanza de IA antes de que se apruebe el uso del conjunto de datos.

Sesgo de representacion: ¿Estan todos los grupos demograficos, geografias y casos de uso relevantes representados proporcionalmente?
Sesgo historico: ¿Reflejan los datos discriminacion historica o desigualdades sistemicas que el modelo podria amplificar?
Sesgo de medicion: ¿Son las etiquetas o anotaciones consistentes y libres de error sistematico?
Sesgo de seleccion: ¿Se recopilaron los datos de una manera que excluye a ciertas poblaciones o contextos?

7. Documentacion de conjuntos de datos

Todo conjunto de datos utilizado para el entrenamiento de IA debe tener un registro de conjunto de datos (ficha de datos) que incluya:

Nombre y version del conjunto de datos.
Informacion de fuente y procedencia.
Tipo de licencia y restricciones de uso.
Resultado de la evaluacion de datos personales.
Metricas de calidad de datos (completitud, exactitud, representatividad).
Hallazgos de la revision de sesgos y mitigaciones aplicadas.
Pasos de preprocesamiento y transformacion.
Fecha de revision y nombre del revisor.
Casos de uso aprobados (para que esta autorizado este conjunto de datos).

8. Fuentes de datos prohibidas

Las siguientes fuentes de datos no deben utilizarse para el entrenamiento de IA sin la aprobacion explicita del Comite de gobernanza de IA:

Datos extraidos en violacion de los terminos de servicio o la legislacion aplicable.
Datos que contengan informacion personal sin base legal.
Datos de jurisdicciones con restricciones sobre el uso transfronterizo de IA.
Datos generados por o sobre menores sin las salvaguardas adecuadas.
Datos de competidores obtenidos por medios no autorizados.
Datos con procedencia incierta cuya fuente original no pueda determinarse.

9. Consideraciones sobre modelos de terceros

Al utilizar modelos de terceros preentrenados (modelos base, modelos ajustados, servicios basados en API):

Solicitar documentacion sobre las practicas de gobernanza de datos de entrenamiento del proveedor.
Evaluar si los datos de entrenamiento del proveedor incluyen contenido que pueda generar riesgo legal, etico o reputacional para la organizacion.
Requerir contractualmente que el proveedor notifique a la organizacion de cambios significativos en la composicion de los datos de entrenamiento.
Evaluar el cumplimiento del proveedor con los requisitos de transparencia de datos de entrenamiento del Reglamento Europeo de IA (Plantilla de resumen publico).

10. Roles y responsabilidades

Rol	Responsabilidades
Titular de datos	Aprueba los conjuntos de datos para uso en IA, asegura la documentacion de procedencia, mantiene la calidad de los datos.
Titular del modelo	Asegura que los datos de entrenamiento cumplan los estandares de calidad, documenta los datos en la ficha del modelo, gestiona la relacion datos-modelo.
Juridico	Revisa el licenciamiento, evalua la base legal para datos personales, evalua derechos de autor y terminos de servicio.
Delegado de proteccion de datos	Revisa las evaluaciones de datos personales, asesora sobre anonimizacion, asegura que se complete la EIPD cuando sea necesario.
Responsable de gobernanza de IA	Mantiene el inventario de conjuntos de datos, da seguimiento al cumplimiento, escala asuntos al Comite.

11. Alineacion regulatoria

Reglamento Europeo de IA: Articulo 10 (datos y gobernanza de datos para sistemas de alto riesgo), Considerando 67 (calidad de datos de entrenamiento).
RGPD: Articulos 5 (principios de calidad de datos), 6 (base legal), 9 (categorias especiales), 25 (privacidad desde el diseno).
ISO/IEC 42001: Anexo B (B.7 — datos para sistemas de IA).
NIST AI RMF: Funcion MAP (MP-3, riesgos y beneficios de IA de recursos de terceros).

12. Revision

Esta politica se revisa anualmente o antes si se desencadena por cambios en las regulaciones de proteccion de datos, nuevas fuentes de datos de entrenamiento o hallazgos de auditoria relacionados con la calidad de datos o sesgos.

Control documental

Campo	Valor
Titular de la politica	[Responsable de gobernanza de IA]
Aprobado por	[Comite de gobernanza de IA]
Fecha de vigencia	[Fecha]
Proxima fecha de revision	[Fecha + 12 meses]
Version	1.0
Clasificacion	Interna