Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Seguridad (Safety)

Los modelos de aprendizaje autónomo presentan un desafío crítico: sus acciones tienen el potencial de dañar a los seres humanos, ya sea de manera explícita (daño directo e intencional) o implícita (consecuencias no deseadas o sesgos sistémicos). Como respuesta a este riesgo, el campo de la seguridad de la IA ha desarrollado diversos enfoques algorítmicos, frecuentemente anclados en principios como las Leyes de Asimov. Estos algoritmos están diseñados para operar como jueces internos, evaluando y restringiendo las acciones del agente para asegurar que la protección y el bienestar humano sean siempre la máxima prioridad.

Fuente: MIT AI Risk Repositorymit573

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit573

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. **Implementación de Marcos de Alineación Axiológica Rigurosa** Desarrollar y aplicar metodologías avanzadas de Alineación de IA, como el Refuerzo por Aprendizaje a partir de Retroalimentación Humana (RLHF) y la especificación formal de valores, para asegurar que los objetivos intrínsecos del sistema artificial coincidan de manera continua con los valores éticos y las preferencias de la sociedad, mitigando el riesgo fundamental de metas divergentes y la búsqueda de poder (power-seeking). 2. **Integración de Mecanismos de Robustez y No Maleficencia** Incorporar marcos de seguridad sistémicos (por ejemplo, inspirados en las Leyes de Asimov o protocolos de no maleficencia) para obligar al agente a priorizar la seguridad humana. Esto incluye diseñar mecanismos de prevención contra fallos operacionales como el *reward hacking* y la exploración segura (*safe exploration*) en entornos críticos para garantizar la predictibilidad del sistema. 3. **Establecimiento de Arquitecturas de Supervisión y Control Humano** Diseñar y desplegar sistemas con una capa de control que permita la intervención humana significativa (*meaningful human control*) y el *ethical override* (anulación ética) obligatorio. Se requiere transparencia (explicabilidad) y auditoría continua para asegurar que la responsabilidad final y la capacidad de detener o modificar acciones peligrosas permanezcan en manos de supervisores humanos cualificados.