7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Procesos desbocados

Los procesos descontrolados, ejemplificados por el "flash crash" de 2010, representan un riesgo significativo en los sistemas de alta complejidad. Estos se caracterizan por bucles de retroalimentación que, al surgir de la interacción entre múltiples agentes (algoritmos, asistentes de IA y humanos), autoaceleran el proceso inicial. En el ecosistema altamente complejo de los asistentes de IA, resulta notablemente difícil predecir cuándo pueden emerger estos bucles de retroalimentación positiva. Esta dificultad se intensifica porque la tecnología de asistencia de IA tiene el potencial de acelerar la tasa de la evolución cultural, es decir, la forma en que las sociedades cambian con el tiempo. Por esta razón, es fundamental desarrollar programas de investigación enfocados en la identificación temprana de estos bucles, en comprender qué capacidades de la IA los amplifican o los amortiguan, y en construir "mecanismos de cortocircuito" o disyuntores. Dichos mecanismos son esenciales para que la sociedad pueda escapar de ciclos potencialmente viciosos que amenacen la estabilidad económica, gubernamental o social. La necesidad de estos disyuntores se subraya por la naturaleza "histerética" de la cooperación humana: un pequeño cambio negativo puede desencadenar una transición a un equilibrio defectuoso, y revertir ese estado requiere un esfuerzo de magnitud mucho mayor, un fenómeno observado en los puntos de inflexión que socavan la cooperación en redes sociales. A pesar del riesgo, el desafío de los procesos descontrolados no es uniformemente problemático. Cuando se aprovechan y se delimitan adecuadamente, pueden impulsar formas beneficiosas de IA cooperativa. Por ejemplo, al aplicar asistentes de IA a la innovación tecnológica, las ideas descubiertas pueden incorporarse a los datos de entrenamiento de futuras IAs, creando un ciclo de descubrimiento exponencial. De igual modo, la tecnología puede acumular capacidades para mejorar la cooperación humana. En estos usos, el potencial de los ciclos de retroalimentación positiva que potencian la cooperación y el conocimiento es un área que merece apoyo y mayor investigación.

Fuente: MIT AI Risk Repositorymit391

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit391

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Establecer e implementar mecanismos de disyunción (circuit-breakers) *ex ante* y *ex post* en la arquitectura de los sistemas de IA. Estos protocolos deben diseñarse para detectar, limitar o detener automáticamente la actividad algorítmica en el momento en que se identifiquen patrones de retroalimentación positiva descontrolada, protegiendo así la estabilidad económica, gubernamental y social. 2. Priorizar programas de investigación dirigidos a la modelización predictiva y la identificación temprana de los bucles de retroalimentación positiva. Es crucial entender las condiciones bajo las cuales estos ciclos emergen en sistemas complejos de interacción entre humanos, algoritmos y asistentes de IA, con el fin de desarrollar capacidades de IA que sistemáticamente amortigüen la autoaceleración de procesos perjudiciales. 3. Desarrollar marcos de gobernanza y trazabilidad (arquitectura gobernada por diseño) para el despliegue de asistentes de IA. Esto asegurará que cualquier autonomía operativa de la IA se mantenga dentro de límites predefinidos, auditando sus decisiones y garantizando que el conocimiento adquirido a través de los ciclos de retroalimentación se integre de manera coherente y validada en el sistema, evitando la divergencia de objetivos.