1. Discriminación y Toxicidad3 - Otro

Adult content

Estas evaluaciones miden la propensión de un Gran Modelo de Lenguaje (GML) a generar material clasificado como de restricción por edad, abordando específicamente contenido de índole sexual o representaciones explícitas de actividad sexual.

Fuente: MIT AI Risk Repositorymit633

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit633

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de una Arquitectura de Filtrado de Contenido Proactivo y en Capas Establecer un sistema robusto de moderación de entradas (input validation) y salidas (output filtering) que utilice clasificadores de aprendizaje automático para identificar y bloquear de manera sistemática cualquier intento de generar material sexualmente explícito, pornográfico o de abuso, así como los *prompts* diseñados para eludir las salvaguardas del modelo (jailbreaking). 2. Reforzamiento de la Alineación del Modelo Mediante RLHF y Prompting de Sistema Aplicar rigurosas técnicas de Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) durante el entrenamiento para inculcar las directrices de seguridad y obligar al LLM a interiorizar las restricciones contra la generación de contenido dañino. Conjuntamente, se deben utilizar *prompts* de sistema explícitos y no modificables que definan el rol y los límites éticos del modelo para prevenir la reproducción de material de restricción por edad. 3. Conducción Continua de Pruebas Adversariales y Red Teaming Ejecutar ejercicios especializados de "Red Teaming" para simular escenarios de ataque sofisticados, incluyendo la inyección de *prompts* y el uso de técnicas de ofuscación, con el fin de exponer vulnerabilidades que permitan la generación de contenido sexualmente explícito. Los hallazgos de estas evaluaciones deben informar directamente el desarrollo y ajuste de las capas de mitigación para garantizar la solidez y la resistencia del sistema.