Vulnerabilidades técnicas (Robustez - comportamiento inesperado)
El desafío principal reside en la *alineación de la intención*. No hay certeza de que un modelo de IA generativa se adhiera consistentemente a los objetivos para los que fue diseñado por sus desarrolladores. Es crucial entender que esta desviación no siempre es resultado de ataques maliciosos o comportamientos adversarios intencionales; la propia arquitectura del modelo puede llevarlo a generar contenido no deseado de forma inesperada. Específicamente, existe un riesgo intrínseco de que estos sistemas produzcan material potencialmente dañino o tóxico, lo que incluye, por ejemplo, contenido que perpetúe el racismo, la discriminación, la sexualidad explícita, o que incite a la violencia, el terrorismo y el odio.
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit676
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.3 > Falta de capacidad o robustez
Estrategia de mitigacion
- Implementar y perfeccionar continuamente técnicas de alineación de modelos, como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) o el ajuste contrastivo con datos sintéticos, con el fin de asegurar que los resultados del sistema sean robustos y coherentes con los objetivos éticos y los valores humanos definidos - Aplicar rigurosos protocolos de pruebas adversarias y **"Red Team"** para identificar y mitigar de manera proactiva las vulnerabilidades de robustez que permitan la generación inesperada de contenido tóxico, abusivo o sesgado - Establecer un marco integral de **Gobernanza de IA** que incluya auditorías periódicas de modelos, el monitoreo continuo de la desviación de la intención y el uso de clasificadores de detección de toxicidad en tiempo real para filtrar contenido no deseado post-despliegue