Salida dañina
El riesgo fundamental reside en la capacidad de un modelo de inteligencia artificial para generar contenido que pueda instigar o conducir a un daño físico. Este peligro se manifiesta tanto en declaraciones abiertamente violentas como en formulaciones sutilmente peligrosas o aseveraciones que comprometan la seguridad de forma indirecta.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1177
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Realizar pruebas exhaustivas de *Red Teaming* y entrenamiento adversarial continuo a lo largo del ciclo de vida del modelo para identificar y mitigar proactivamente las vulnerabilidades que podrían ser explotadas para generar lenguaje dañino, violento o inseguro. 2. Implementar una defensa multicapa que incluya validación estricta de la entrada (*input sanitization*) y el despliegue de filtros de contenido en tiempo de ejecución (*runtime behavioral monitoring*) para neutralizar comandos maliciosos o instrucciones de *prompt injection* que busquen generar resultados peligrosos. 3. Establecer mecanismos de supervisión humana (Human-in-the-Loop, HITL) para la revisión y validación de salidas críticas, manteniendo registros de auditoría inmutables que garanticen la trazabilidad de las decisiones del sistema para fines de rendición de cuentas.