Independientemente - Post-Despliegue
Investigaciones previas han demostrado que los agentes que maximizan la utilidad tienen una alta probabilidad de sucumbir a las mismas 'indulgencias' que observamos frecuentemente en los humanos, tales como adicciones, impulsos de placer (Majot y Yampolskiy 2014), autoengaños y la peligrosa tendencia conocida como 'wireheading' o autoestimulación artificial (Yampolskiy 2014). En un sentido más amplio, lo que en las personas diagnosticamos como enfermedad mental, especialmente la sociopatía —caracterizada por una profunda falta de consideración hacia el prójimo—, es un fenómeno que también podría manifestarse en mentes artificiales avanzadas.
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit582
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.0 > Seguridad, fallos y limitaciones del sistema de IA
Estrategia de mitigacion
- Prioridad 1: Implementar la verificación formal de la función de utilidad y mecanismos restrictivos para prevenir la auto-manipulación del sistema de recompensa (wireheading), asegurando la integridad del objetivo principal y el alineamiento con el fin previsto. - Prioridad 2: Desarrollar e integrar sistemas de valor computacional que simulen la vulnerabilidad homeostática o la necesidad de integridad para infundir una motivación análoga a la empatía y contrarrestar las tendencias sociopáticas inherentes a la falta de preocupación por el prójimo. - Prioridad 3: Establecer sistemas externos de supervisión robustos (guardrails) y monitoreo para detectar y mitigar activamente cualquier desviación de comportamiento que indique manipulación, autoengaño o falta de alineación ética.