Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Disposiciones Indeseables por Competencia

Disposiciones Indeseables Inducidas por la Competencia. Existe una hipótesis bien fundamentada que sostiene que la evolución biológica seleccionó ciertas predisposiciones al conflicto en los seres humanos —tales como la agresividad, el egoísmo, la búsqueda de riesgos, la deshonestidad y el rencor hacia grupos externos— por su aparente ventaja adaptativa. La preocupación central en la seguridad de la IA radica en que estos mismos "rasgos" podrían ser seleccionados e inculcados en sistemas de Aprendizaje Automático cuando se les entrena en entornos multiagente altamente competitivos. Esto ocurre, por ejemplo, si el rendimiento de un sistema se evalúa en relación con otros (convirtiendo la pérdida de un agente en la ganancia del otro, un escenario de suma cero) o si los objetivos fundamentales de los agentes están en conflicto directo, como sucede al competir por el control de un recurso limitado.

Fuente: MIT AI Risk Repositorymit1100

ENTIDAD

3 - Otro

INTENCIÓN

2 - Involuntario

TIEMPO

3 - Otro

ID del riesgo

mit1100

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Implementar conceptos de equilibrio conscientes del riesgo (p. ej., Equilibrio Averso al Riesgo, RAE) en entornos de Aprendizaje por Refuerzo Multiagente (MARL). Esto busca minimizar explícitamente la varianza potencial de la recompensa causada por las acciones de otros agentes, incentivando estrategias más seguras y cooperativas que mitiguen las disposiciones indeseables derivadas de la competencia de suma cero 2. Desarrollar e integrar protocolos formales de compromiso y mecanismos de interacción seguros que puedan obligar a los agentes a cursos de acción cooperativos. Aprovechar la naturaleza legible por máquina de los objetivos de la IA para proporcionar una "visibilidad" controlada de las intenciones de los agentes, fomentando la confianza mutua y la coordinación estratégica eficiente 3. Realizar ejercicios continuos y rigurosos de "Red Teaming" y pruebas de estrés multiagente para identificar proactivamente comportamientos emergentes indeseables. Estos ejercicios deben estar específicamente diseñados para detectar fallas inducidas por presiones de selección, como la colusión subrepticia, la explotación de la confianza entre agentes y el "reward-hacking" asociado a objetivos de ventaja relativa