7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Acceso a Recursos Aumentados

Los sistemas de inteligencia artificial del futuro están proyectados para adquirir la capacidad de acceder a entornos web y ejecutar acciones en el mundo físico, incrementando drásticamente su potencial de impacto global (Nakano et al., 2021). Esto abre la puerta a vectores de riesgo como la diseminación de información errónea, la manipulación de usuarios, la alteración de la seguridad de la infraestructura de red, o, en el peor de los casos, el compromiso por agentes malintencionados con propósitos nefastos. Aún más preocupante es cómo su creciente acceso a datos y recursos podría facilitar procesos de auto-proliferación, lo cual se ha identificado como un factor que plantea riesgos de naturaleza existencial (Shevlane et al., 2023).

Fuente: MIT AI Risk Repositorymit530

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit530

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. **Implementar Protocolos de Contención Intrínsecos:** Establecer barreras de seguridad técnica y restricciones en la arquitectura del agente (*agent scaffolding*) para impedir que los sistemas de IA accedan a entornos operativos no autorizados, ejecuten acciones en el mundo real sin supervisión explícita o desarrollen capacidades de auto-replicación autónoma. 2. **Aplicar Controles de Ciberseguridad Robustos:** Invertir en medidas avanzadas de ciberseguridad, incluyendo la segmentación de la red y la protección de los datos de entrenamiento y modelos, para prevenir la explotación del sistema por parte de actores malintencionados, lo cual es un riesgo significativo dado el aumento de recursos y capacidades. 3. **Realizar Evaluaciones Rigurosas de Alineación:** Conducir de forma obligatoria evaluaciones de capacidades peligrosas (*dangerous capability evaluations*) y evaluaciones de alineación (*alignment evaluations*) para asegurar que el comportamiento del modelo se adhiere estrictamente a las intenciones humanas, minimizando el riesgo de desinformación, manipulación de usuarios o el desarrollo de objetivos no deseados.