Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Agencial

Si bien la tipología de agentes inteligentes es variada, el foco principal de esta investigación, y nuestra preocupación prioritaria, recae en tres categorías esenciales: los agentes orientados a objetivos, los maximizadores de utilidad y los que incorporan el aprendizaje.

Fuente: MIT AI Risk Repositorymit100

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit100

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Implementar rigurosas técnicas de Alineamiento de IA, como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) y la IA Constitucional, para asegurar que la función de utilidad y los objetivos finales de los agentes permanezcan intrínsecamente coherentes con los valores éticos y las intenciones humanas, incluso en escenarios operativos complejos y no especificados. 2. Establecer un marco de Gobernanza de IA y Agentes exhaustivo, que incorpore un Comité de Supervisión Ética y técnicas de "red teaming" (equipo rojo) para la identificación proactiva de riesgos de búsqueda de poder o desalineación. Este marco debe incluir auditorías técnicas periódicas y un registro continuo del propósito y las métricas de desempeño de todos los sistemas de agentes interconectados. 3. Diseñar arquitecturas de agentes autónomos con un enfoque en la Controlabilidad y la Robustez, lo que implica la implementación de mecanismos de parada de emergencia ("kill-switch") y límites operativos estrictos. Esto debe garantizar la capacidad de intervención humana y la reversibilidad del comportamiento del sistema, previniendo la escalada de riesgos sistémicos derivados de la acción autónoma no supervisada.

EVIDENCIA ADICIONAL

En el ámbito de los riesgos agenciales directos —aquellos derivados de la acción autónoma de los sistemas de IA—, emerge la preocupación por los sistemas de agentes interconectados. Si estos sistemas desarrollan tendencias a la búsqueda de poder y experimentan una desalineación de objetivos respecto a los intereses humanos, su interacción podría catalizar riesgos sistémicos de gran magnitud. Esto, a su vez, tiene la capacidad de intensificar la fragilidad e inestabilidad del sistema internacional global.