7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Decisiones inmorales similares a las humanas

Al concebir sistemas de inteligencia artificial con una capacidad de discernimiento ético que emule la del ser humano, se plantea la preocupación de que estos agentes repliquen inherentemente nuestras imperfecciones morales. Es decir, si el estándar de comportamiento ético para una IA es la media humana, su diseño necesariamente incluirá la potencialidad de ejecutar acciones inmorales, reflejando así la propia falibilidad de la moralidad humana.

Fuente: MIT AI Risk Repositorymit124

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit124

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

- Prioridad 1: Establecimiento de Estándares Éticos Óptimos (Superhumanos) Se debe evitar el simple mimetismo del promedio de la moralidad humana, el cual es inherentemente falible, y en su lugar, se debe aspirar a diseñar sistemas de IA que operen bajo un conjunto de estándares éticos formalizados y rigurosos. Esto implica la aplicación de Value Alignment Methods (métodos de alineación de valores) para garantizar que los objetivos del sistema estén intrínsecamente vinculados a principios morales óptimos, superando la inconsistencia de la toma de decisiones humana. - Prioridad 2: Implementación de Mecanismos de Contención (Guardrails) Inviolables y Separados Desarrollar y desplegar capas de seguridad de ejecución robustas e inmutables que actúen como filtros o interruptores de emergencia. Estos mecanismos deben operar de forma independiente del proceso de decisión principal de la IA, asegurando que cualquier decisión que sea catalogada como inmoral, no ética o dañina no se traduzca en una acción efectiva en el entorno operativo, incluso si el modelo la genera. - Prioridad 3: Adopción de Esquemas de Entrenamiento Ético Adversarial y Auditoría Continua Diseñar conjuntos de datos de entrenamiento que expongan a la IA a una amplia gama de dilemas morales complejos y a fallos éticos humanos documentados, para mejorar la resiliencia moral del sistema. Posteriormente, someter el sistema a ejercicios de auditoría adversarial constantes (post-despliegue) para identificar y mitigar proactivamente las vulnerabilidades morales, sesgos y cualquier réplica de las imperfecciones humanas antes de que se manifiesten en acciones.