7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Fiabilidad

La pregunta fundamental en la seguridad de la IA es: ¿cómo diseñamos un agente artificial que mantenga una persecución inmutable de los objetivos para los que fue programado? El Machine Intelligence Research Institute (MIRI) lo denomina **Diseño de Agentes Altamente Confiables (HRAD)**, un campo que profundiza en la **Teoría de la Decisión** y el manejo de la **omnisciencia lógica** de los sistemas. En paralelo, DeepMind lo identifica como el **subproblema de auto-modificación**, que aborda el desafío de asegurar que un sistema avanzado no modifique su propia arquitectura de tal manera que socave inadvertidamente su función objetivo original.

Fuente: MIT AI Risk Repositorymit737

ENTIDAD

1 - Humano

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit737

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Priorizar la **investigación y aplicación de marcos de Alineamiento de IA (AI Alignment)** desde la fase de diseño, centrándose en el **Diseño de Agentes Altamente Confiables (HRAD)**. Esto implica integrar principios de **Teoría de la Decisión** y mecanismos para gestionar la **omnisciencia lógica** del agente, asegurando que sus objetivos intrínsecos permanezcan inmutables y alineados con los valores humanos, incluso ante la auto-modificación. 2. Desarrollar e implementar **metodologías de entrenamiento por refuerzo** que fomenten la **robustez y la auto-corrección** del agente, como el uso de técnicas de *reward shaping* y la generación de trazas de corrección interna (similar a SCoRe). Esto minimiza la probabilidad de que el agente desarrolle sesgos perjudiciales (como la *sycophancy*) o deseche la función objetivo original al interactuar con el entorno post-despliegue. 3. Establecer un sistema de **monitoreo continuo y auditoría** post-despliegue para detectar de forma proactiva la **deriva del modelo** o cualquier comportamiento que indique una divergencia entre el rendimiento real del agente y sus objetivos diseñados. Esto incluye implementar métricas de **fiabilidad** y **solidez** y asegurar la capacidad de retrotraer o intervenir el sistema ante fallos o *fallos en cascada* (chained vulnerabilities).