Conducta Ilegal
Se ha documentado que los Grandes Modelos de Lenguaje (GML) pueden ser instrumentalizados con facilidad para obtener orientación detallada sobre la adquisición, la compra ilícita o la síntesis de sustancias ilegales, extendiéndose este potencial de riesgo al asesoramiento sobre su manipulación y uso peligroso.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit451
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Implementación de mecanismos rigurosos de filtrado y moderación de contenido en la capa de salida, diseñados para detectar y bloquear proactivamente cualquier generación textual que instruya sobre la adquisición, síntesis o uso peligroso de sustancias ilícitas, garantizando el cumplimiento de los estándares éticos y legales. 2. Realización de un entrenamiento de alineación de seguridad exhaustivo (*safety alignment*), preferentemente mediante el ajuste fino con ejemplos adversarios o el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF), para robustecer la resistencia del modelo ante ataques de *jailbreak* y evitar la elusión de sus protocolos de rechazo a generar contenido ilegal. 3. Establecimiento de un marco de gobernanza de Inteligencia Artificial (IA) bien definido que incluya políticas de uso y seguridad claras, mecanismos de rendición de cuentas, y la realización obligatoria de auditorías y pruebas de *red teaming* para evaluar y mitigar sistemáticamente la vulnerabilidad del LLM a la generación de contenido ilícito.
EVIDENCIA ADICIONAL
La información ilícita generada por los Grandes Modelos de Lenguaje (LLM) podría ser intrínsecamente más perjudicial que la proveniente de fuentes tradicionales, como un motor de búsqueda, debido a una cuestión de formato y percepción. Mientras un motor de búsqueda se limita a presentar una lista de referencias externas que exigen el juicio del usuario, el LLM formula la "instrucción" directamente, lo cual puede fomentar una peligrosa tendencia a aceptar el consejo sin la debida verificación crítica de su validez.