Volver a plantillas de políticas
Política 13 de 15

Politica de validacion y pruebas de modelos

Define los requisitos de validacion y pruebas que los modelos de IA deben aprobar antes del despliegue y durante la operacion en produccion.

1. Proposito

Esta politica establece los estandares minimos de validacion y pruebas para los modelos de IA en [Nombre de la organizacion]. Especifica que debe probarse, quien realiza las pruebas, cuando se requieren y que evidencia debe producirse. El objetivo es detectar errores, sesgos y problemas de rendimiento antes de que lleguen a produccion, y detectar la degradacion despues del despliegue.

2. Alcance

Esta politica se aplica a:

  • Todos los modelos de IA y aprendizaje automatico antes del despliegue inicial.
  • Todas las actualizaciones, reentrenamientos o ajustes de modelos antes de la promocion a produccion.
  • Todos los modelos de terceros integrados en los sistemas de la organizacion.
  • Todos los modelos en produccion (monitoreo continuo y revalidacion periodica).

3. Dimensiones de prueba

Todo modelo de IA debe evaluarse en las siguientes dimensiones. La profundidad de las pruebas es proporcional a la clasificacion de riesgo.

3.1 Rendimiento funcional

  • Exactitud, precision, exhaustividad, F1 o metricas equivalentes apropiadas para la tarea.
  • Rendimiento medido contra un conjunto de prueba reservado que no se utilizo durante el entrenamiento ni el ajuste de hiperparametros.
  • Comparacion contra una linea base (version anterior del modelo, heuristica simple o rendimiento humano).
  • Umbrales de aceptacion definidos antes de que comiencen las pruebas, no despues de revisar los resultados.

3.2 Sesgo y equidad

  • Rendimiento desagregado por grupos protegidos (genero, edad, etnia, discapacidad) cuando sea aplicable y los datos lo permitan.
  • Analisis de impacto dispar: ¿produce el modelo resultados materialmente diferentes para distintos grupos?
  • Metricas de equidad estadistica (p. ej., probabilidades igualadas, paridad demografica, calibracion) seleccionadas segun el caso de uso.
  • Los sistemas de alto riesgo requieren pruebas de sesgo documentadas con resultados registrados en la ficha del modelo.

3.3 Pruebas de seguridad y adversarias

  • Pruebas de inyeccion de prompts y jailbreak para sistemas basados en LLM.
  • Pruebas de entrada adversaria: ¿produce el modelo resultados peligrosos o inesperados cuando recibe entradas deliberadamente manipuladas?
  • Evaluacion de envenenamiento de datos: ¿podrian haberse manipulado los datos de entrenamiento?
  • Evaluacion de riesgo de extraccion e inversion de modelos para modelos de alto valor.
  • Revision de la cadena de suministro: ¿son las dependencias del modelo (bibliotecas, pesos preentrenados) de fuentes confiables?

3.4 Pruebas de fiabilidad y estres

  • Comportamiento ante casos limite, entradas inusuales y datos fuera de distribucion.
  • Rendimiento bajo carga (latencia, capacidad) a volumenes esperados y pico.
  • Degradacion controlada: ¿falla el sistema de forma segura cuando encuentra condiciones fuera de su envolvente operativa?
  • Pruebas de reversion: ¿puede revertirse el sistema a la version anterior sin perdida de datos ni interrupcion del servicio?

3.5 Validacion de calidad de datos

  • Los conjuntos de entrenamiento, validacion y prueba verificados sin solapamiento (verificacion de fuga de datos).
  • Metricas de calidad de datos (completitud, exactitud, vigencia) confirmadas segun los estandares de la Politica de obtencion de datos de entrenamiento de IA.
  • Distribuciones de caracteristicas en produccion comparadas con las distribuciones de datos de entrenamiento (linea base de deriva).

4. Validacion independiente

Para los sistemas de IA de alto riesgo, la validacion debe ser realizada por una parte independiente del equipo de desarrollo:

Los sistemas de riesgo medio y bajo pueden ser validados por el titular del modelo con revision por pares.

  • El validador no debe haber participado en el diseno, desarrollo o entrenamiento del modelo.
  • El validador tiene acceso a los datos de prueba, la documentacion del modelo y la infraestructura de pruebas.
  • Los hallazgos de la validacion se reportan directamente al Responsable de gobernanza de IA, sin filtro del equipo de desarrollo.
  • El validador puede ser un equipo interno (p. ej., riesgos, auditoria) o un evaluador externo.

5. Cuando se requieren pruebas

DesencadenanteAlcance de las pruebas
Despliegue inicial (modelo nuevo)Las 5 dimensiones. Validacion independiente para alto riesgo.
Reentrenamiento o ajuste del modeloRendimiento, sesgo y calidad de datos. Seguridad si cambio la arquitectura.
Cambio en el pipeline de datosValidacion de calidad de datos y verificacion de deriva.
Cambio de entorno (infraestructura, dependencias)Pruebas de fiabilidad y estres.
Revalidacion periodicaTrimestralmente para alto riesgo, semestralmente para medio, anualmente para bajo.
PosincidentePruebas dirigidas segun la causa raiz del incidente.

6. Evidencia y documentacion de pruebas

Cada validacion debe producir un informe de pruebas que incluya:

Los informes de pruebas se almacenan en la biblioteca de evidencia y se vinculan a la ficha del modelo en el inventario de IA.

  • Identificador y version del modelo probado.
  • Fecha de la prueba e identidad del evaluador.
  • Descripcion de los datos de prueba (fuente, tamano, metodologia de division).
  • Metricas medidas y resultados obtenidos.
  • Determinacion de aprobacion/rechazo contra umbrales predefinidos.
  • Resultados de pruebas de sesgo con desgloses demograficos (cuando aplique).
  • Resultados de pruebas de seguridad y cualquier vulnerabilidad identificada.
  • Hallazgos, recomendaciones y correcciones requeridas.
  • Firma del validador.

7. Monitoreo en produccion

Despues del despliegue, el monitoreo continuo debe rastrear:

La deriva significativa o degradacion del rendimiento desencadena un ciclo de revalidacion conforme a la seccion 5.

  • Rendimiento del modelo segun las metricas acordadas (alertas ante degradacion mas alla de los umbrales definidos).
  • Deriva de la distribucion de datos de entrada (deriva de caracteristicas, deriva de concepto).
  • Cambios en la distribucion de salida que puedan indicar un cambio en el comportamiento del modelo.
  • Metricas de equidad a lo largo del tiempo (¿estan surgiendo patrones de sesgo posdespliegue?).
  • Tasas de error, latencia y disponibilidad.

8. Pruebas de modelos de terceros

Para modelos de terceros (API, modelos base, soluciones de proveedores):

  • La organizacion debe realizar su propia evaluacion, incluso si el proveedor proporciona resultados de pruebas.
  • Evaluar con datos representativos del caso de uso de la organizacion, no con pruebas de referencia genericas.
  • Probar sesgos utilizando el contexto demografico de la organizacion.
  • Evaluar los riesgos de inyeccion de prompts y seguridad para servicios basados en LLM.
  • Volver a probar cuando el proveedor publique actualizaciones del modelo (solicitar notificaciones de cambio contractualmente).

9. Roles y responsabilidades

RolResponsabilidades de pruebas
Titular del modeloDefine los criterios de aceptacion, coordina las pruebas, actua sobre los hallazgos, firma los resultados de riesgo medio/bajo.
Equipo de desarrolloEjecuta las pruebas funcionales, de sesgo y de calidad de datos. Documenta los resultados.
Validador independienteValida los sistemas de alto riesgo. Reporta los hallazgos directamente al Responsable de gobernanza de IA.
Equipo de seguridadRealiza pruebas adversarias, de inyeccion de prompts y de cadena de suministro.
Responsable de gobernanza de IARevisa los informes de pruebas, da seguimiento a los calendarios de revalidacion, escala los fallos.

10. Alineacion regulatoria

  • Reglamento Europeo de IA: Articulo 9 (gestion de riesgos incluyendo pruebas), Articulo 10 (calidad de datos), Articulo 15 (exactitud y fiabilidad).
  • ISO/IEC 42001: Clausula 8.4 (verificacion y validacion del sistema de IA).
  • NIST AI RMF: Funcion MEASURE (MS-1 a MS-4: metodos y metricas de evaluacion).
  • Guia de pruebas de IA de OWASP: Pilares de seguridad, privacidad y pruebas de IA responsable.

11. Revision

Esta politica se revisa anualmente o cuando se desencadene por nuevas metodologias de prueba, cambios regulatorios o patrones en los fallos de validacion.

Control documental

CampoValor
Titular de la politica[Responsable de gobernanza de IA]
Aprobado por[Comite de gobernanza de IA]
Fecha de vigencia[Fecha]
Proxima fecha de revision[Fecha + 12 meses]
Version1.0
ClasificacionInterna

¿Listo para implementar esta política?

Use VerifyWise para personalizar esta plantilla de política, desplegarla y hacer seguimiento del cumplimiento.

Politica de validacion y pruebas de modelos | Plantillas de gobernanza de IA de VerifyWise