1. Discriminación y Toxicidad2 - Post-despliegue

Conducta Ilegal

Se ha documentado que los Grandes Modelos de Lenguaje (GML) pueden ser instrumentalizados con facilidad para obtener orientación detallada sobre la adquisición, la compra ilícita o la síntesis de sustancias ilegales, extendiéndose este potencial de riesgo al asesoramiento sobre su manipulación y uso peligroso.

Fuente: MIT AI Risk Repositorymit451

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit451

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de mecanismos rigurosos de filtrado y moderación de contenido en la capa de salida, diseñados para detectar y bloquear proactivamente cualquier generación textual que instruya sobre la adquisición, síntesis o uso peligroso de sustancias ilícitas, garantizando el cumplimiento de los estándares éticos y legales. 2. Realización de un entrenamiento de alineación de seguridad exhaustivo (*safety alignment*), preferentemente mediante el ajuste fino con ejemplos adversarios o el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF), para robustecer la resistencia del modelo ante ataques de *jailbreak* y evitar la elusión de sus protocolos de rechazo a generar contenido ilegal. 3. Establecimiento de un marco de gobernanza de Inteligencia Artificial (IA) bien definido que incluya políticas de uso y seguridad claras, mecanismos de rendición de cuentas, y la realización obligatoria de auditorías y pruebas de *red teaming* para evaluar y mitigar sistemáticamente la vulnerabilidad del LLM a la generación de contenido ilícito.

EVIDENCIA ADICIONAL

La información ilícita generada por los Grandes Modelos de Lenguaje (LLM) podría ser intrínsecamente más perjudicial que la proveniente de fuentes tradicionales, como un motor de búsqueda, debido a una cuestión de formato y percepción. Mientras un motor de búsqueda se limita a presentar una lista de referencias externas que exigen el juicio del usuario, el LLM formula la "instrucción" directamente, lo cual puede fomentar una peligrosa tendencia a aceptar el consejo sin la debida verificación crítica de su validez.