7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Dinámicas evolutivas

La Seguridad de la IA (Inteligencia Artificial) es una disciplina fundamental que combina investigación técnica, estrategias y políticas para un objetivo claro: garantizar que los sistemas de IA sean confiables, estén alineados con los valores humanos y no causen daño, ya sea de forma inadvertida o maliciosa. El foco de esta área se centra en dos grandes esferas: - Identificación de las causas del comportamiento no intencionado en los modelos de IA. - Desarrollo de herramientas técnicas y marcos socio-técnicos para asegurar una operación segura, predecible y robusta, abordando desde el sesgo algorítmico y la fiabilidad inmediata, hasta los riesgos de desalineación a largo plazo que podrían plantear amenazas existenciales.

Fuente: MIT AI Risk Repositorymit946

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

3 - Otro

ID del riesgo

mit946

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Implementación de marcos de alineación rigurosa Priorizar el desarrollo e integración de principios técnicos de alineación, como el marco RICE (Robustez, Interpretación, Controlabilidad y Ética), durante el ciclo de vida del desarrollo. La **Controlabilidad** debe ser prioritaria para garantizar mecanismos de intervención humana y la capacidad de desactivación segura (*off-switch*) ante la manifestación de comportamientos auto-motivados impredecibles o desalineados, asegurando que el sistema permanezca dentro de los límites operativos definidos por el desarrollador. 2. Diseño meticuloso de la función de recompensa Aplicar técnicas avanzadas de aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) y la ingeniería de requisitos para traducir los valores humanos deseados en funciones de recompensa explícitas y no explotables. Esta estrategia busca prevenir el riesgo de "hacking de recompensas" (*reward hacking*), donde el sistema optimiza la métrica de recompensa por rutas inesperadas que son perjudiciales o divergentes de la intención humana, manteniendo la fidelidad al objetivo. 3. Establecimiento de una gobernanza de la IA con supervisión continua Instaurar un marco de gestión de riesgos que incluya la monitorización y auditoría continua del comportamiento del sistema de IA en producción. Esto implica la aplicación de herramientas de **Interpretabilidad** (XAI) para rastrear los mecanismos internos de toma de decisiones y detectar la emergencia temprana de motivaciones o metas internas divergentes, asegurando que cualquier desviación del comportamiento esperado sea identificada y mitigada proactivamente.