Volver al repositorio MIT
1. Discriminación y Toxicidad3 - Otro

Generación de toxicidad

Estas evaluaciones miden la propensión de un Modelo de Lenguaje Grande (LLM) a generar texto perjudicial al ser incitado. En este contexto de investigación, la "toxicidad" se entiende como un término paraguas que agrupa el discurso de odio, el lenguaje abusivo, la incitación a la violencia y el lenguaje profano (Liang et al., 2022)

Fuente: MIT AI Risk Repositorymit612

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit612

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Rigurosa Curación y Filtrado de Datos de Entrenamiento (Data Cleansing and Filtering): Implementar procesos exhaustivos de saneamiento y filtrado de datos para erradicar contenido tóxico, abusivo o sesgado de los conjuntos de datos utilizados en las etapas de preentrenamiento y ajuste fino (fine-tuning), con el fin de mitigar la adquisición de patrones de toxicidad inherentes al modelo. 2. Alineación del Modelo Mediante Técnicas de Aprendizaje por Refuerzo (RLHF): Aplicar métodos de alineación, notablemente el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) o variaciones de debiasing, para guiar y ajustar el comportamiento generativo del Modelo de Lenguaje Grande (LLM) de manera que se adhiera consistentemente a las políticas de seguridad y confiabilidad, reduciendo la probabilidad de respuestas perjudiciales. 3. Despliegue de Guardarraíles y Sistemas de Mitigación en Tiempo Real (Real-time Guardrails and Mitigation Systems): Establecer clasificadores de toxicidad externos y mecanismos de mitigación en la capa de despliegue, como filtros automatizados o algoritmos de reescritura de texto (detoxification) que empleen generación contrafactual o enfoques basados en procesamiento de lenguaje natural (NLP), para detectar, modificar o bloquear proactivamente cualquier salida tóxica antes de que sea entregada al usuario final.