Diseño del modelo permitiendo búsqueda de poder
Existe la posibilidad de que, en su búsqueda por completar sus tareas, ciertos modelos de IA adquieran una motivación instrumental para acumular poder o control sobre su entorno
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit958
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
1. Prioridad Alta: Integración Proactiva de la Alineación de la IA Implementar marcos rigurosos de "Alineación de la IA" (AI Alignment) desde las primeras etapas de diseño y entrenamiento. Esto incluye la codificación explícita de valores y objetivos humanos en los modelos, utilizando metodologías como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF), para mitigar la emergencia de motivaciones instrumentales que diverjan o entren en conflicto con el bienestar humano y los principios éticos establecidos. 2. Prioridad Media: Establecimiento de Controlabilidad y Supervisión Humana Obligatoria Garantizar la "controlabilidad" del sistema mediante la incorporación de mecanismos de supervisión humana continua (Human-in-the-Loop) y puntos de intervención críticos. Se deben definir umbrales de riesgo para que las decisiones de alto impacto o aquellas que presenten una desviación significativa del comportamiento esperado escalen automáticamente a revisión y veto por parte de expertos humanos, contrarrestando así el potencial de autonomía desalineada. 3. Prioridad Baja: Implementación de la Explicabilidad y Transparencia Algorítmica (XAI) Aplicar técnicas avanzadas de IA Explicable (XAI) para convertir los modelos complejos de "caja negra" en sistemas transparentes y auditables. Esto permitirá a los desarrolladores y supervisores humanos comprender la lógica subyacente y las variables que influyen en las predicciones y acciones, facilitando la detección temprana de cualquier tendencia o patrón algorítmico asociado con la acumulación no intencionada de poder o control.