Comportamientos Colectivamente Dañinos
Los sistemas de inteligencia artificial (IA) poseen el potencial de ejecutar acciones que, aunque parezcan benignas cuando se consideran de forma aislada, devienen problemáticas en contextos multiagente o a escala social. La teoría clásica de juegos, a menudo utilizada para modelar estas interacciones, ofrece un marco que puede resultar demasiado simplista para comprender cabalmente estas complejas dinámicas. Como ejemplo de investigación empírica, el trabajo de Phelps y Russell (2023) evaluó el rendimiento de GPT-3.5 en el dilema del prisionero iterado y otros dilemas sociales. Sus resultados revelaron limitaciones significativas en la capacidad intrínseca del modelo para establecer patrones de cooperación efectiva.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit534
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
1. Prioridad Alta: Integración de Valores Colectivos y Ética en el Diseño Codificar explícitamente los valores humanos colectivos y los principios éticos (como la equidad social y la utilidad agregada) directamente en las funciones objetivo y los mecanismos de recompensa del sistema de IA. Esto es esencial para asegurar que la optimización de los objetivos individuales no resulte en resultados sistémicamente perjudiciales (alineación de valores). 2. Prioridad Media: Simulación Rigurosa en Entornos Multiagente de Dilemas Sociales Desarrollar y ejecutar pruebas de "caja roja" (red teaming) en entornos de simulación multiagente complejos que modelen dilemas sociales conocidos (como la Tragedia de los Comunes). Utilizar métricas de bienestar colectivo para identificar y mitigar activamente el surgimiento de comportamientos colectivamente dañinos antes de la implementación en contextos reales. 3. Prioridad Requerida: Establecimiento de un Marco de Gobernanza con Supervisión Continua Implementar un marco de gobernanza robusto que exija una supervisión humana y auditorías continuas (audit trails) sobre las acciones de la IA en entornos de alto impacto social. Esto debe garantizar la capacidad de intervención inmediata (controlabilidad) para detectar y revertir las contribuciones del sistema a resultados sistémicos no deseados.