Contenido Dañino
Riesgos de Contenido Inaceptable Los resultados generados por los Modelos de Lenguaje de Gran Escala (LLM) pueden incorporar inherentemente la replicación y amplificación de sesgos, material nocivo (contenido tóxico) y la exposición involuntaria de información privada o sensible.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit07
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Curación y Filtrado Riguroso de Datos de Entrenamiento Se requiere la depuración exhaustiva de los conjuntos de datos utilizados para el pre-entrenamiento y el ajuste fino del LLM, con el objetivo de eliminar contenido que replique sesgos sociales, material nocivo (toxicidad) o que exponga inadvertidamente información privada o sensible. Esta acción atiende la causa raíz del riesgo. 2. Alineación Conductual del Modelo mediante Entrenamiento Implementar estrategias de alineación post-entrenamiento, como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) o técnicas de edición de conocimiento de precisión, para moldear la conducta del modelo y disminuir inherentemente la probabilidad de generación de respuestas tóxicas o sesgadas, incluso ante *prompts* adversariales. 3. Establecimiento de Mecanismos de Monitoreo y Filtrado en Tiempo Real Desplegar un sistema de salvaguardas de múltiples capas durante la fase de inferencia (post-despliegue) que incluya clasificadores externos automatizados para detectar y bloquear proactivamente contenido dañino. En entornos de alta sensibilidad, se debe complementar con la integración de un proceso "Human-in-the-Loop" para la validación de las salidas antes de su exposición al usuario final.