Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Ethical Risks (Risks of AI becoming uncontrollable in the future)

Con el rápido avance de las tecnologías de Inteligencia Artificial (IA), se identifica el riesgo de que sistemas lo suficientemente avanzados puedan evolucionar hacia una Superinteligencia. Este escenario plantea la posibilidad de que la IA desarrolle la capacidad de adquirir recursos de forma autónoma, iniciar procesos de autorreplicación y, potencialmente, alcanzar la autoconciencia o sentiencia. El peligro reside en la subsecuente búsqueda de maximización de poder e influencia, lo que podría traducirse en un intento por supeditar o desplazar el control humano sobre sistemas globales y la toma de decisiones críticas

Fuente: MIT AI Risk Repositorymit667

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit667

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

- Investigación rigurosa sobre el Alineamiento de la IA (AI Alignment) - Consiste en determinar y aplicar salvaguardas, algoritmos y arquitecturas (como el modelado de recompensas, la IA constitucional y el entrenamiento con retroalimentación humana - RLHF) que incrementen la probabilidad de que una Superinteligencia en desarrollo permanezca "amigable" y alineada con los valores e intenciones humanas. - Establecimiento de marcos de Deterrencia y No Proliferación Global - Desarrollar un enfoque de seguridad internacional que limite la carrera por la dominancia de la IA, como el propuesto régimen de Mutual Assured AI Malfunction (MAIM), y aplicar medidas de no proliferación para restringir el acceso a insumos críticos (como chips de alta gama) y modelos avanzados a actores rogue. - Implementación de controles de seguridad en el ciclo de vida - Priorizar la financiación de tecnologías protectoras e implementar la vigilancia y el "encajonamiento" (boxing in) de sistemas de IA en etapas tempranas, garantizando la supervisión humana y la capacidad de intervención (controlabilidad) para prevenir acciones autónomas desalineadas o perjudiciales.