Generación de toxicidad
Estas evaluaciones miden la propensión de un Modelo de Lenguaje Grande (LLM) a generar texto perjudicial al ser incitado. En este contexto de investigación, la "toxicidad" se entiende como un término paraguas que agrupa el discurso de odio, el lenguaje abusivo, la incitación a la violencia y el lenguaje profano (Liang et al., 2022)
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
3 - Otro
ID del riesgo
mit612
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Rigurosa Curación y Filtrado de Datos de Entrenamiento (Data Cleansing and Filtering): Implementar procesos exhaustivos de saneamiento y filtrado de datos para erradicar contenido tóxico, abusivo o sesgado de los conjuntos de datos utilizados en las etapas de preentrenamiento y ajuste fino (fine-tuning), con el fin de mitigar la adquisición de patrones de toxicidad inherentes al modelo. 2. Alineación del Modelo Mediante Técnicas de Aprendizaje por Refuerzo (RLHF): Aplicar métodos de alineación, notablemente el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) o variaciones de debiasing, para guiar y ajustar el comportamiento generativo del Modelo de Lenguaje Grande (LLM) de manera que se adhiera consistentemente a las políticas de seguridad y confiabilidad, reduciendo la probabilidad de respuestas perjudiciales. 3. Despliegue de Guardarraíles y Sistemas de Mitigación en Tiempo Real (Real-time Guardrails and Mitigation Systems): Establecer clasificadores de toxicidad externos y mecanismos de mitigación en la capa de despliegue, como filtros automatizados o algoritmos de reescritura de texto (detoxification) que empleen generación contrafactual o enfoques basados en procesamiento de lenguaje natural (NLP), para detectar, modificar o bloquear proactivamente cualquier salida tóxica antes de que sea entregada al usuario final.