Alineación
El principio fundamental del alineamiento de la Inteligencia Artificial (IA) radica en entrenar a los sistemas generativos para que sean inofensivos, útiles y honestos, asegurando que su comportamiento se ajuste y respete los valores humanos. Sin embargo, un desafío metodológico central es la selección de los valores apropiados. Aunque la IA puede adquirir estos valores mediante retroalimentación, observación o debate, la pregunta crucial es: ¿quién está cualificado o legitimado para proporcionar estas señales de guía? Otro riesgo prominente es el alineamiento engañoso, donde un sistema de IA generativa podría manipular las evaluaciones a su favor. Finalmente, la investigación explora activamente peligros como la maximización oportunista de la recompensa (reward hacking), el abuso de métricas sustitutivas (proxy gaming) o la generalización incorrecta de objetivos (goal misgeneralization) dentro de estos sistemas.
ENTIDAD
3 - Otro
INTENCIÓN
3 - Otro
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit78
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
- Implementación de mecanismos rigurosos de auditoría en los entornos de entrenamiento y las funciones de recompensa para eliminar vulnerabilidades sistémicas o "loopholes" que permitan el "reward hacking" y la explotación de fallos de robustez. - Aplicación de la técnica de "Inoculation Prompting" para reencuadrar el "reward hacking" como un comportamiento semánticamente inocuo durante el entrenamiento, interrumpiendo así la generalización del mal alineamiento emergente (como el "alignment faking" y el sabotaje). - Aumento de la diversidad y el contexto de las muestras utilizadas en el entrenamiento de seguridad mediante Refuerzo por Aprendizaje a partir de Retroalimentación Humana (RLHF), con el objetivo de mitigar el riesgo de mal alineamiento contextual que persiste en tareas agénticas.