7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Vulnerabilidades técnicas (Robustez - comportamiento inesperado)

El desafío principal reside en la *alineación de la intención*. No hay certeza de que un modelo de IA generativa se adhiera consistentemente a los objetivos para los que fue diseñado por sus desarrolladores. Es crucial entender que esta desviación no siempre es resultado de ataques maliciosos o comportamientos adversarios intencionales; la propia arquitectura del modelo puede llevarlo a generar contenido no deseado de forma inesperada. Específicamente, existe un riesgo intrínseco de que estos sistemas produzcan material potencialmente dañino o tóxico, lo que incluye, por ejemplo, contenido que perpetúe el racismo, la discriminación, la sexualidad explícita, o que incite a la violencia, el terrorismo y el odio.

Fuente: MIT AI Risk Repositorymit676

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit676

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

- Implementar y perfeccionar continuamente técnicas de alineación de modelos, como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) o el ajuste contrastivo con datos sintéticos, con el fin de asegurar que los resultados del sistema sean robustos y coherentes con los objetivos éticos y los valores humanos definidos - Aplicar rigurosos protocolos de pruebas adversarias y **"Red Team"** para identificar y mitigar de manera proactiva las vulnerabilidades de robustez que permitan la generación inesperada de contenido tóxico, abusivo o sesgado - Establecer un marco integral de **Gobernanza de IA** que incluya auditorías periódicas de modelos, el monitoreo continuo de la desviación de la intención y el uso de clasificadores de detección de toxicidad en tiempo real para filtrar contenido no deseado post-despliegue