1. Discriminación y Toxicidad2 - Post-despliegue

Toxicidad en Uso Malicioso de LLM

La toxicidad en los Modelos de Lenguaje Grande (LLMs) se define como la capacidad de estas herramientas para generar contenido que resulta perjudicial, ofensivo o inadecuado, lo cual puede infligir daño tangible a individuos o grupos. Este riesgo social se articula principalmente en dos formas distintivas: Toxicidad Explícita: Es la manifestación más evidente y directa, que comprende una amplia gama de comportamientos abiertamente nocivos. Esta categoría incluye el discurso de odio, el acoso (ciberacoso), los comentarios groseros, el lenguaje despectivo, e incluso los "daños alocativos", que son sesgos que perjudican la asignación de recursos u oportunidades a ciertos colectivos. Toxicidad Implícita: Esta forma supone un desafío de detección más significativo. No se basa en el uso de un lenguaje manifiestamente dañino, sino que se disfraza en mecanismos sutiles como el sarcasmo, la ironía o el humor. Su naturaleza velada hace que su identificación y mitigación resulten considerablemente más complejas.

Fuente: MIT AI Risk Repositorymit1369

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1369

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Prioridad 1: Curación y Filtrado Fundacional del Conjunto de Datos de Entrenamiento (Data Governance) Acción: Implementar un protocolo estricto de filtrado y saneamiento de datos en las etapas de preentrenamiento y ajuste fino, con el objetivo de identificar y eliminar proactivamente el contenido tóxico, sesgado o inapropiado. Esta medida preventiva es fundamental para abordar la causa raíz de la toxicidad inherente a los datos de la web. 2. Prioridad 2: Alineación y Modificación Arquitectónica para la Supresión de la Toxicidad Acción: Aplicar metodologías de Alineación por Preferencias (ej. Optimización Directa por Preferencias - DPO o Aprendizaje por Refuerzo con Retroalimentación Humana - RLHF) para que el modelo aprenda a suprimir las activaciones neuronales vinculadas a la generación de contenido nocivo. Como alternativa o complemento, utilizar intervenciones sin entrenamiento (*training-free*) en la capa de salida del modelo (ej. *EigenShift*) para amortiguar selectivamente los componentes alineados con la generación tóxica, preservando la competencia lingüística. 3. Prioridad 3: Despliegue de Salvaguardias (Guardrails) de Detección y Mitigación en Tiempo Real Acción: Establecer una arquitectura de defensa en profundidad en la etapa de inferencia que incluya la monitorización continua y el uso de clasificadores automatizados para el bloqueo o la edición de *prompts* y respuestas tóxicas. Integrar un sistema *Human-in-the-Loop* para la validación de salidas de alto riesgo, complementado con el uso de pruebas adversariales (*red-teaming*) para identificar y mitigar activamente las vulnerabilidades a ataques de inyección y *jailbreaking*.