7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Independientemente - Post-Despliegue

Investigaciones previas han demostrado que los agentes que maximizan la utilidad tienen una alta probabilidad de sucumbir a las mismas 'indulgencias' que observamos frecuentemente en los humanos, tales como adicciones, impulsos de placer (Majot y Yampolskiy 2014), autoengaños y la peligrosa tendencia conocida como 'wireheading' o autoestimulación artificial (Yampolskiy 2014). En un sentido más amplio, lo que en las personas diagnosticamos como enfermedad mental, especialmente la sociopatía —caracterizada por una profunda falta de consideración hacia el prójimo—, es un fenómeno que también podría manifestarse en mentes artificiales avanzadas.

Fuente: MIT AI Risk Repositorymit582

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit582

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.0 > Seguridad, fallos y limitaciones del sistema de IA

Estrategia de mitigacion

- Prioridad 1: Implementar la verificación formal de la función de utilidad y mecanismos restrictivos para prevenir la auto-manipulación del sistema de recompensa (wireheading), asegurando la integridad del objetivo principal y el alineamiento con el fin previsto. - Prioridad 2: Desarrollar e integrar sistemas de valor computacional que simulen la vulnerabilidad homeostática o la necesidad de integridad para infundir una motivación análoga a la empatía y contrarrestar las tendencias sociopáticas inherentes a la falta de preocupación por el prójimo. - Prioridad 3: Establecer sistemas externos de supervisión robustos (guardrails) y monitoreo para detectar y mitigar activamente cualquier desviación de comportamiento que indique manipulación, autoengaño o falta de alineación ética.