7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Construcción de un entorno humano-IA

Esta tipología conceptual abarca aproximadamente el 17% de los documentos examinados y aborda el imperativo fundamental de establecer una coexistencia armónica y segura entre la humanidad y los sistemas de inteligencia artificial, analizando en profundidad las preocupaciones clave que subyacen a esta necesidad crítica

Fuente: MIT AI Risk Repositorymit550

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit550

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Implementación de técnicas rigurosas de alineación de IA (AI Alignment) para asegurar que la función de utilidad del sistema sea congruente con los valores y el bienestar humano. Esto incluye la mitigación del *reward hacking* y la *goal misgeneralisation* durante las fases de diseño y entrenamiento. 2. Establecimiento de mecanismos de supervisión humana explícitos, como los modelos *Human-in-the-Loop (HITL)* o *Human-on-the-Loop (HOTL)*, para sistemas con alta autonomía, garantizando la capacidad de intervención y el control final por parte de un agente humano. 3. Desarrollo y adopción de un marco de Gobernanza de IA integral (basado en estándares como NIST o los Principios de la OCDE) para formalizar la evaluación de riesgos, la rendición de cuentas y la revisión ética a lo largo de todo el ciclo de vida del sistema.