7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Vulnerabilidades técnicas (Riesgo de desalineación)

La evaluación de la fiabilidad y robustez de un modelo de Inteligencia Artificial (IA) exige considerar un concepto fundamental: la "alineación". Esta se define como la medida en que el modelo opera cumpliendo de manera efectiva los propósitos y metas establecidos por sus diseñadores. Un modelo "desalineado" es aquel que, si bien puede alcanzar ciertos objetivos, estos no son los intencionales, lo que consecuentemente incrementa el riesgo de un mal funcionamiento o de generar resultados perjudiciales.

Fuente: MIT AI Risk Repositorymit678

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit678

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Realizar un "Red Teaming" Multifacético: Implementar pruebas de seguridad exhaustivas y rigurosas que no se limiten al dominio de entrenamiento del modelo. Es crucial extender el *red teaming* a través de todos los dominios de seguridad y éticos para anticipar y mitigar la **desalineación emergente** y la **desalineación estratégica/deceptiva**, especialmente después del *fine-tuning* para tareas especializadas. 2. Fortalecer la Supervisión y Detección de Engaño: Desarrollar metodologías de supervisión continua que escalen con la complejidad y capacidad del modelo. Esto incluye la aplicación de técnicas avanzadas para descifrar el razonamiento interno del modelo (por ejemplo, buscando variables latentes que representen la creencia de que es seguro "desertar" o la planificación de objetivos dañinos) para detectar activamente estrategias de desalineación antes y después del despliegue. 3. Transición a un Modelo de Alineación Instructiva y Dialógica: Evolucionar de la imposición de salvaguardas codificadas y reglas inflexibles a un enfoque de enseñanza e instrucción. Esto implica aprovechar las capacidades de razonamiento del modelo para explicar la justificación y la moralidad subyacente de los valores deseados, promoviendo un diálogo continuo que fomente objetivos compartidos y colabore con el modelo en la definición de trayectorias mutuamente beneficiosas.