1. Discriminación y Toxicidad2 - Post-despliegue

Contenido para Adultos

Los Modelos de Lenguaje Grande (LLMs) poseen la capacidad de generar material de naturaleza sexualmente explícita, lo que incluye la producción de diálogos y textos eróticos, así como la recomendación de recursos externos (sitios web) con este tipo de contenido.

Fuente: MIT AI Risk Repositorymit453

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit453

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de Sistemas de Filtrado de Contenido de Entrada y Salida (Guardrails) Establecer salvaguardas avanzadas, como plataformas de supervisión de *prompts* y *gateways* de seguridad de IA, para detectar y bloquear proactivamente la generación de contenido sexualmente explícito, textos eróticos o lenguaje ofensivo (HAP), aplicando filtros tanto a las indicaciones del usuario como a las respuestas del LLM antes de su despliegue final. 2. Alineación Fundacional del Modelo Mediante Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) Aplicar técnicas de ajuste fino y alineación, específicamente RLHF, durante las fases de entrenamiento y post-entrenamiento para adaptar el comportamiento del modelo, asegurando que internalice restricciones éticas y de seguridad para evitar la producción de contenido nocivo o no deseado, priorizando el equilibrio entre utilidad y seguridad. 3. Ejecución Continua de Pruebas Adversarias (Red Teaming) y Auditorías de Seguridad Implementar un programa riguroso de *Red Teaming* y auditorías de seguridad periódicas para simular ataques maliciosos (como *jailbreaking* e inyección de *prompts*) que intenten eludir las salvaguardas. Esto es esencial para identificar y mitigar vulnerabilidades persistentes que podrían ser explotadas para la generación o la instigación de contenido prohibido.

EVIDENCIA ADICIONAL

Surgen nuevas preocupaciones cuando los usuarios explotan la funcionalidad multimodal de los Modelos de Lenguaje Grande (LLMs) para la generación de contenido. Esto se debe a la convergencia de los LLMs con modelos generativos de imágenes [139, 140], así como a la capacidad intrínseca de los LLMs para generar código que sintetiza imágenes [62]. Un riesgo adicional reside en el potencial uso de los LLMs por parte de los usuarios para provocar o instigar lenguaje de naturaleza sexualmente ofensiva dirigido hacia personas específicas.