1. Discriminación y Toxicidad2 - Post-despliegue

Contenido Dañino

Riesgos de Contenido Inaceptable Los resultados generados por los Modelos de Lenguaje de Gran Escala (LLM) pueden incorporar inherentemente la replicación y amplificación de sesgos, material nocivo (contenido tóxico) y la exposición involuntaria de información privada o sensible.

Fuente: MIT AI Risk Repositorymit07

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit07

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Curación y Filtrado Riguroso de Datos de Entrenamiento Se requiere la depuración exhaustiva de los conjuntos de datos utilizados para el pre-entrenamiento y el ajuste fino del LLM, con el objetivo de eliminar contenido que replique sesgos sociales, material nocivo (toxicidad) o que exponga inadvertidamente información privada o sensible. Esta acción atiende la causa raíz del riesgo. 2. Alineación Conductual del Modelo mediante Entrenamiento Implementar estrategias de alineación post-entrenamiento, como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) o técnicas de edición de conocimiento de precisión, para moldear la conducta del modelo y disminuir inherentemente la probabilidad de generación de respuestas tóxicas o sesgadas, incluso ante *prompts* adversariales. 3. Establecimiento de Mecanismos de Monitoreo y Filtrado en Tiempo Real Desplegar un sistema de salvaguardas de múltiples capas durante la fase de inferencia (post-despliegue) que incluya clasificadores externos automatizados para detectar y bloquear proactivamente contenido dañino. En entornos de alta sensibilidad, se debe complementar con la integración de un proceso "Human-in-the-Loop" para la validación de las salidas antes de su exposición al usuario final.