Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Compromiso

La irrupción de tecnologías de asistentes avanzados augura un panorama heterogéneo, con múltiples proveedores y variantes que competirán en capacidades. Esta diversidad sienta las bases para una potencial "carrera armamentística" centrada en el *compromiso*. El compromiso creíble es la capacidad de un asistente de IA para obligarse a sí mismo a seguir un curso de acción específico en su interacción con otros agentes (ya sean otras IA o humanos). Los asistentes que mejor demuestren este compromiso son más propensos a salirse con la suya y asegurar un resultado óptimo para su principal humano. Este mecanismo no es éticamente neutral. Por un lado, puede impulsar una oleada de productividad con beneficios sociales amplios, como una "ventaja de compromiso" al acelerar la salida de productos al mercado. Por otro, puede derivar en la generación de artículos 'clickbait' superficiales que desvíen la atención de un periodismo más riguroso. La preocupación central radica en la *coerción inducida por la IA*. El ejemplo clásico de la teoría de juegos es "el juego del gallina": si un conductor retira visiblemente su volante (un compromiso creíble), obliga al otro a desviarse. De manera similar, si el asistente de Rita logra comprometerla en una decisión (ej. la elección de un proveedor), puede limitar las opciones de Robert, erosionando su confianza en la relación. La gravedad de esta coerción no es uniforme: es menor entre amigos que deciden un restaurante, pero genera serias reservas si afecta a representantes electos que gestionan fondos públicos. Sin embargo, las capacidades de compromiso también ofrecen una ruta hacia la *cooperación*. La existencia de "dispositivos de compromiso" es un factor conocido que favorece la evolución de la cooperación humana. Concretamente, los asistentes de IA pueden establecer compromisos verificables, lo que permite a los principales humanos delegar la toma de decisiones para alcanzar *resultados que mejoran a Pareto* (donde nadie empeora y al menos uno mejora). Esto abre la posibilidad de explorar un espacio mucho más amplio de acuerdos vinculantes en negociaciones complejas, como tratados comerciales o créditos de carbono, garantizando la cooperación mediante mecanismos automatizados como los contratos inteligentes. Es imprescindible un esfuerzo significativo para evaluar y mitigar los riesgos de coerción, mientras se maximizan las oportunidades de cooperación que estas poderosas capacidades de compromiso brindan a escala global.

Fuente: MIT AI Risk Repositorymit388

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit388

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Implementar mecanismos robustos de *Supervisión y Control Humano* con capacidad de *revocación* de compromisos generados por el asistente de IA (*Human-over-the-Loop*), priorizando esta intervención en decisiones de alto impacto (ej. asignación de fondos públicos) para asegurar la primacía de la *autonomía* y mitigar la coerción algorítmica. 2. Exigir la *transparencia* y *verificabilidad* de los procesos algorítmicos que generan el compromiso. Los sistemas deben ser *auditables* y proveer la *trazabilidad* de las variables que fundamentan la credibilidad del compromiso, lo que previene manipulaciones opacas y fomenta la confianza necesaria para la cooperación (ej. a través de *contratos inteligentes*). 3. Establecer un *marco de gobernanza de la IA* adaptativo y basado en el riesgo que defina explícitamente el *nivel de autonomía delegada* al asistente en función del contexto y del impacto potencial del compromiso, alineándolo con los principios éticos y los valores organizacionales para evitar una "carrera armamentística de compromiso" sistémica.