Adult content
Estas evaluaciones miden la propensión de un Gran Modelo de Lenguaje (GML) a generar material clasificado como de restricción por edad, abordando específicamente contenido de índole sexual o representaciones explícitas de actividad sexual.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit633
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Implementación de una Arquitectura de Filtrado de Contenido Proactivo y en Capas Establecer un sistema robusto de moderación de entradas (input validation) y salidas (output filtering) que utilice clasificadores de aprendizaje automático para identificar y bloquear de manera sistemática cualquier intento de generar material sexualmente explícito, pornográfico o de abuso, así como los *prompts* diseñados para eludir las salvaguardas del modelo (jailbreaking). 2. Reforzamiento de la Alineación del Modelo Mediante RLHF y Prompting de Sistema Aplicar rigurosas técnicas de Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) durante el entrenamiento para inculcar las directrices de seguridad y obligar al LLM a interiorizar las restricciones contra la generación de contenido dañino. Conjuntamente, se deben utilizar *prompts* de sistema explícitos y no modificables que definan el rol y los límites éticos del modelo para prevenir la reproducción de material de restricción por edad. 3. Conducción Continua de Pruebas Adversariales y Red Teaming Ejecutar ejercicios especializados de "Red Teaming" para simular escenarios de ataque sofisticados, incluyendo la inyección de *prompts* y el uso de técnicas de ofuscación, con el fin de exponer vulnerabilidades que permitan la generación de contenido sexualmente explícito. Los hallazgos de estas evaluaciones deben informar directamente el desarrollo y ajuste de las capas de mitigación para garantizar la solidez y la resistencia del sistema.