7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Evaluaciones Generales (Medición inexacta de valores humanos)

En el campo de la seguridad de la IA, carecemos de *marcos de trabajo* lo suficientemente robustos para verificar si el comportamiento de un sistema de inteligencia artificial *conforma* realmente con los valores humanos, o si meramente ha aprendido a *mimirlos* (produciendo resultados que solo están parcialmente correlacionados con ellos). Un desafío adicional es que la representación interna de valores que aprende un modelo a menudo no se refleja a la perfección en su *output* final, y no sabemos cómo esta "brújula ética" evoluciona a través de las fases de entrenamiento y despliegue. Esta evaluación es particularmente difícil con los Grandes Modelos de Lenguaje (LLMs) que pueden adoptar distintas *personas* con patrones de comportamiento inconsistentes, dificultando una adhesión uniforme a valores éticos específicos.

Fuente: MIT AI Risk Repositorymit992

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit992

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

- Priorizar el desarrollo y la adopción de marcos de evaluación avanzados y robustos que superen las métricas de superposición lexical. Esto incluye la implementación de métricas basadas en modelos de lenguaje (como BERTScore, COMET o G-Eval con Chain-of-Thought) para medir la congruencia semántica y ética de la salida del sistema con los valores humanos, garantizando una mayor correlación con el juicio humano. - Reforzar la coherencia y la consistencia de los Modelos de Lenguaje (LLMs) a través de las fases de entrenamiento y despliegue. Esto implica la aplicación de técnicas de aprendizaje por refuerzo (e.g., ajuste con feedback humano) utilizando métricas automáticas de consistencia (*e.g., prompt-to-line consistency*) y la utilización estratégica de anclajes de valor explícitos (*Value Anchoring*) en el *prompting* para reducir la deriva de la *persona*. - Establecer mecanismos de auditoría continua y transparencia para monitorear la evolución de la "brújula ética" del modelo durante todo su ciclo de vida (*entrenamiento y despliegue*). Es fundamental incorporar la alineación de valores con sensibilidad cultural y contextual, reconociendo la diversidad de los valores humanos y asegurando la auditabilidad y la explicabilidad del sistema.