Violación de normas sociales
En segundo lugar, debido a que los Grandes Modelos de Lenguaje (LLM) se entrenan con datos de texto de internet, existe el riesgo de que los pesos internos del modelo codifiquen funciones que, al ser desplegadas en contextos específicos, violen las normas sociales de ese entorno. Siguiendo los principios de la integridad contextual, esto implica que los modelos podrían desviarse de las normas de intercambio de información apropiadas como consecuencia directa de su entrenamiento. Superar este desafío exige dos tipos de infraestructura: una para mantener un registro de las normas sociales aplicables en cada contexto y otra para asegurar que los modelos se adhieran a ellas. Tanto la tarea de rastrear cuáles son las normas sociales vigentes como la de identificar los desajustes de valor entre el comportamiento del modelo y dichas normas son áreas activas y complejas de investigación.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit384
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Implementar técnicas avanzadas de alineación y post-entrenamiento, como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), para ajustar los pesos del modelo y asegurar una adhesión rigurosa a los valores humanos y las normas sociales específicas del contexto de despliegue. 2. Desarrollar una infraestructura de monitoreo continuo y en tiempo real que incorpore taxonomías de normas sociales y culturales (ej. Cultural Compass) para detectar y señalar proactivamente las desviaciones del modelo respecto a las normas de intercambio de información y comportamiento apropiadas en un contexto específico. 3. Fortalecer la gobernanza de los datos de entrenamiento mediante la implementación de procesos de curación, filtrado y balanceo rigurosos para reducir la incidencia de contenido que codifique sesgos o violaciones a normas éticas y sociales, mitigando así el riesgo desde la fuente.