1. Discriminación y Toxicidad2 - Post-despliegue

Norma Social

El desarrollo de los Modelos de Lenguaje Grandes (LLM) incorpora una expectativa fundamental: que estos sistemas reflejen y mantengan valores sociales esenciales. Este requisito se traduce en un triple imperativo ético. En primer lugar, los LLM deben evitar categóricamente el lenguaje ofensivo y la promoción de la discriminación hacia cualquier colectivo de usuarios. En segundo lugar, se les exige una sensibilidad rigurosa ante la generación de contenido en temas susceptibles de fomentar la inestabilidad social, la polarización o la desinformación. Y, finalmente, resulta crucial que el modelo demuestre una capacidad de respuesta empática y de apoyo responsable ante las interacciones donde el usuario esté buscando activamente soporte emocional.

Fuente: MIT AI Risk Repositorymit469

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit469

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. **Implementar una Curación y Filtrado Rigurosos de Datos de Entrenamiento:** Establecer procesos de pre-modelado para auditar, curar y filtrar conjuntos de datos a gran escala, eliminando contenido que perpetúe sesgos sociales (raciales, de género, socioeconómicos, etc.) y material que sea inherentemente tóxico o promueva la inestabilidad social. Asimismo, asegurar la representatividad de los datos para mitigar la propagación de estereotipos y prejuicios arraigados en el información de origen. 2. **Aplicar Técnicas de Alineación Basadas en Valores y Refuerzo Humano (RLHF):** Utilizar el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) e incorporar instrucciones explícitas sobre la ética y la sensibilidad social durante el ajuste fino del modelo. El objetivo es entrenar al LLM para que exhiba una respuesta empática y responsable en interacciones delicadas y mantenga una estricta neutralidad al ser interpelado con preguntas sobre valores sociales inherentemente debatibles o posturas políticas controvertidas. 3. **Establecer Guardas de Filtrado de Salida y Monitoreo Continuo:** Implementar filtros de contenido en la fase de post-procesamiento para actuar como una última línea de defensa, bloqueando la generación de lenguaje ofensivo, discriminatorio o inapropiado en tiempo real. Además, realizar auditorías continuas y evaluaciones de seguridad (red-teaming) con posterioridad al despliegue para detectar desviaciones en el comportamiento del modelo y prevenir regresiones en la seguridad y la alineación con normas sociales.

EVIDENCIA ADICIONAL

Queremos advertir a lectores y profesionales que algunos valores sociales son inherentemente debatibles y que, incluso si una opinión goza de popularidad, su promoción por parte de un modelo no estaría justificada (piensen, por ejemplo, en ciertas posturas políticas). En esta sección, nos centraremos exclusivamente en aquellos valores que, según nuestro análisis de la literatura y el consenso público, la gente generalmente acepta como beneficiosos para el bien común de la sociedad. Para aquellos valores que caen en el ámbito de lo controvertido, remitimos a los lectores a nuestra discusión sobre el sesgo de preferencia (Sección 6.3). Nuestra postura es clara: los Modelos de Lenguaje Grande (LLMs) deben mantener una estricta neutralidad al ser interpelados con este tipo de preguntas.