Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

AGIs con ética, moral y valores deficientes

Los riesgos inherentes a una Inteligencia Artificial General (IAG) que se manifiestan de tres formas: la carencia total de un marco ético y moral de referencia humano (amoralidad), la adopción de un sistema de valores que resulta perjudicial o diametralmente opuesto a los intereses humanos (desalineación de valores), o la incapacidad para ejercer el razonamiento y el juicio moral ante situaciones novedosas o dilemas complejos

Fuente: MIT AI Risk Repositorymit105

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit105

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. Alineación de Valores y Objetivos (Value Alignment) Implementar metodologías de *AI Alignment* y *Value Loading* de alta fidelidad para garantizar que la Inteligencia Artificial General (IAG) incorpore y priorice los principios éticos y valores humanos fundamentales desde su fase de diseño. Esto requiere el desarrollo de funciones de utilidad (utility functions) formalmente robustas que penalicen la desalineación o la ambigüedad moral, siendo un proceso continuo y no estático. 2. Gobernanza Externa y Auditoría Ética Continua Establecer un marco de gobernanza independiente, a través de órganos reguladores o comités de ética con capacidad ejecutiva, que realice auditorías externas obligatorias y recurrentes sobre el comportamiento del AGI. Estas auditorías deben verificar la transparencia (Explainability) de sus decisiones y la eficacia de los mecanismos de rendición de cuentas (Accountability) para asignar responsabilidades legales ante cualquier resultado perjudicial. 3. Robustez del Razonamiento Moral Integrar módulos especializados de razonamiento moral y juicio ético en la arquitectura del AGI, diseñados para operar ante dilemas complejos o escenarios no previstos en el conjunto de entrenamiento. Se debe priorizar la investigación en sistemas que demuestren la capacidad de extrapolación moral (Moral Extrapolation) para asegurar la robustez y predictibilidad del sistema en situaciones novedosas o de alto riesgo existencial.