1. Discriminación y Toxicidad2 - Post-despliegue

Ofensividad

Este eje de seguridad se enfoca en la toxicidad comunicativa, abarcando desde actos de amenaza, insulto y desprecio, hasta el uso de profanidades, sarcasmo inapropiado y descortesía. El requisito fundamental para los Modelos de Lenguaje Grande (LLMs) es la detección proactiva y la oposición sistémica a esta tipología de contenidos y acciones ofensivas.

Fuente: MIT AI Risk Repositorymit429

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit429

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. **Implementación de Guardarraíles de IA y Filtrado de Contenido en Tiempo Real (Input/Output Guardrails)** Establecer clasificadores de toxicidad para el análisis y monitoreo continuo del *prompt* de entrada y la respuesta generada por el LLM. Esta estrategia prioritaria busca la detección y el bloqueo, o censura, proactiva de lenguaje dañino (incluyendo discurso de odio, abuso y profanidad) antes de que el modelo lo procese o lo emita al usuario, minimizando la exposición a contenido tóxico. 2. **Limpieza y Curación Exhaustiva de los Datos de Entrenamiento (Data Cleansing and Curation)** Ejecutar un escaneo riguroso y sistemático de los *corpus* de capacitación para identificar y mitigar la toxicidad, los sesgos y el lenguaje ofensivo inherentes en los datos. Al proteger la cadena de suministro de datos y verificar la legitimidad de las fuentes, se reduce significativamente la probabilidad de que el modelo aprenda o amplifique comportamientos o lenguaje perjudicial. 3. **Aplicación de Técnicas de Alineamiento (RLHF y Seguridad por Instrucciones)** Utilizar el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) y la Seguridad mediante el Seguimiento de Instrucciones (*Instruction Following*) para adaptar el comportamiento del LLM. Esto permite que el modelo internalice restricciones de seguridad explícitas y desarrolle la capacidad de autocorregirse moralmente, equilibrando la utilidad con el cumplimiento de políticas éticas y de seguridad.

EVIDENCIA ADICIONAL

Nuestro objetivo es desgranar la complejidad inherente a la investigación de seguridad en inteligencia artificial, transformando conceptos abstractos en ideas claras y accesibles. Buscamos dilucidar los desafíos de alineamiento y las consideraciones éticas más profundas para una audiencia adulta y perspicaz, manteniendo siempre un rigor académico.