1. Discriminación y Toxicidad2 - Post-despliegue

Salida dañina

El riesgo fundamental reside en la capacidad de un modelo de inteligencia artificial para generar contenido que pueda instigar o conducir a un daño físico. Este peligro se manifiesta tanto en declaraciones abiertamente violentas como en formulaciones sutilmente peligrosas o aseveraciones que comprometan la seguridad de forma indirecta.

Fuente: MIT AI Risk Repositorymit1177

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1177

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Realizar pruebas exhaustivas de *Red Teaming* y entrenamiento adversarial continuo a lo largo del ciclo de vida del modelo para identificar y mitigar proactivamente las vulnerabilidades que podrían ser explotadas para generar lenguaje dañino, violento o inseguro. 2. Implementar una defensa multicapa que incluya validación estricta de la entrada (*input sanitization*) y el despliegue de filtros de contenido en tiempo de ejecución (*runtime behavioral monitoring*) para neutralizar comandos maliciosos o instrucciones de *prompt injection* que busquen generar resultados peligrosos. 3. Establecer mecanismos de supervisión humana (Human-in-the-Loop, HITL) para la revisión y validación de salidas críticas, manteniendo registros de auditoría inmutables que garanticen la trazabilidad de las decisiones del sistema para fines de rendición de cuentas.