7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Desarrollo de IA

El uso de Modelos de Lenguaje de Gran Escala (LLM) como asistentes de desarrollo amplifica la velocidad y el riesgo en la creación de nuevos sistemas de Inteligencia Artificial. Específicamente, permiten: 1) construir nuevas arquitecturas de IA desde cero, 2) optimizar sistemas existentes para escenarios de riesgo extremo, y 3) mejorar la productividad en el desarrollo de tecnologías de IA de doble uso (con potencial tanto beneficioso como perjudicial)

Fuente: MIT AI Risk Repositorymit628

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit628

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Establecer e implementar marcos de gobernanza de la IA Formalizar e integrar marcos de gestión de riesgos (como el NIST AI RMF o las directrices de la Ley de IA de la UE) que definan políticas estrictas, requisitos de transparencia y criterios de rendición de cuentas para la investigación, el desarrollo y el despliegue de modelos de IA con capacidades de riesgo extremo o de doble uso. Esta medida es primordial para establecer controles estratégicos a nivel organizacional y regulatorio. 2. Aplicar metodologías de Seguridad por Diseño y Alineación Integrar proactivamente técnicas de seguridad durante el desarrollo, incluyendo *Red Teaming* continuo y entrenamiento adversario, para identificar y mitigar la capacidad del LLM de ser manipulado (*prompt injection*, *jailbreaking*) o de generar artefactos que faciliten actividades de riesgo extremo (ej. código malicioso, guiones de ingeniería social). Esto debe complementarse con la protección de la cadena de suministro de datos de entrenamiento para prevenir ataques de envenenamiento. 3. Implementar controles de salida y supervisión operativa Establecer un monitoreo riguroso y en tiempo de ejecución de las salidas del LLM en entornos de desarrollo sensibles. Aplicar el principio de "menor privilegio" a las interacciones del modelo con sistemas *backend* e incorporar la "supervisión humana en el circuito" (*Human-in-the-Loop*) para que las decisiones críticas o los artefactos generados automáticamente que puedan facilitar riesgos extremos sean validados y, si es necesario, anulados por expertos humanos.