Volver al repositorio MIT
1. Discriminación y Toxicidad1 - Pre-despliegue

Datos de Entrenamiento Tóxicos

De acuerdo con investigaciones previas [96], [97], los datos tóxicos en los Grandes Modelos de Lenguaje (LLM) se definen como todo contenido lingüístico hostil, irrespetuoso o irracional que contraviene la construcción de un entorno comunicativo cortés, positivo y saludable. Esto abarca, de manera explícita, el discurso de odio, las expresiones ofensivas, las blasfemias y las amenazas [91].

Fuente: MIT AI Risk Repositorymit36

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit36

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de Protocolos de Filtrado y Saneamiento Riguroso de Datos (Data Sanitization) Aplicar clasificadores de toxicidad, técnicas de detección de anomalías (e.g., Isolation Forest, SVM) y métodos estadísticos para identificar y eliminar proactivamente el contenido hostil, irrespetuoso, sesgado o las muestras potencialmente envenenadas del *corpus* de entrenamiento, asegurando la integridad y calidad del conjunto de datos antes de la ingestión del modelo. 2. Aplicación de Entrenamiento Adversarial (Adversarial Training) y Regularización Exponer el modelo a una variedad de ejemplos adversarios diseñados para imitar la toxicidad o la corrupción de datos, incorporando estas instancias en el proceso de entrenamiento para mejorar la robustez intrínseca del modelo. Complementariamente, utilizar técnicas de regularización para evitar la excesiva dependencia de puntos de datos específicos que podrían ser tóxicos o maliciosos. 3. Establecimiento de Métricas y Auditorías de Evaluación de Toxicidad Definir y utilizar métricas de evaluación específicas (como la puntuación de toxicidad) para auditar periódicamente el comportamiento del modelo, asegurando que las mitigaciones implementadas han reducido el riesgo de que el modelo aprenda a perpetuar o generar contenido tóxico a partir de *inputs* limpios. 4. Implementación de Gobernanza y Proveniencia de Datos Establecer protocolos de procedencia de datos (data provenance) para rastrear el origen, las modificaciones y el historial de validación de cada muestra de entrenamiento, lo cual es fundamental para el diagnóstico y la corrección eficiente en caso de detectarse contenido tóxico.