Volver al repositorio MIT
4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Guerra y Daño Físico

La integración de la inteligencia artificial en el ámbito bélico suscita una profunda alarma y representa un riesgo considerable para la seguridad humana (Hendrycks et al., 2023). La guerra con drones autónomos se está adoptando de manera acelerada como táctica en el conflicto actual en Ucrania (Meaker, 2023), e incluso podría haber sido empleada ya contra objetivos humanos (Hambling, 2023). Asimismo, se ha documentado el uso de reconocimiento facial basado en IA para la identificación de objetivos en el caso de los palestinos en Gaza (International, 2023). Los Grandes Modelos de Lenguaje (LLMs) ya se han materializado de forma limitada en productos específicos para la planificación de la guerra (Tarantola, 2023). Es más, actualmente se están llevando a cabo investigaciones intensivas para desarrollar LLMs multimodales que puedan funcionar como el 'cerebro' de robots de propósito general (Ahn et al., 2022; 2024). Dada la naturaleza de 'propósito general' de estos avances tecnológicos, resulta altamente probable que su adaptación para crear sistemas de armamento autónomo más sofisticados sea tanto rentable como viable.

Fuente: MIT AI Risk Repositorymit1345

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1345

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.2 > Ciberataques, desarrollo o uso de armas y daño masivo

Estrategia de mitigacion

1. Prioridad Alta: Establecimiento de un Marco Regulatorio y de Auditoría de Doble Uso (DURC) - Implementar la clasificación de los Grandes Modelos de Lenguaje (LLMs) potentes bajo el marco de Investigación de Doble Uso de Preocupación (DURC) para garantizar una estricta supervisión regulatoria. Esto debe incluir la creación de puntos de referencia estandarizados para evaluar el abuso intencional y la realización de auditorías independientes, especialmente en las capas de gobernanza y modelo, antes de su despliegue en entornos sensibles o de defensa.2. Prioridad Media: Aplicación Rigurosa de "Red Teaming" y Análisis de Comportamiento del Modelo - Ejecutar pruebas de "red teaming" automatizadas y sistemáticas a gran escala para evaluar de forma continua las vulnerabilidades de seguridad, los riesgos de seguridad y la robustez adversarial del modelo. Se debe poner un énfasis particular en analizar las respuestas del modelo en escenarios éticamente y legalmente sensibles, como la planificación bélica o el desarrollo de armas autónomas, para identificar modos de fallo explotables.3. Prioridad Mínima: Desarrollo de Salvaguardias Técnicas Adaptadas al Contexto de Defensa - Diseñar e implementar defensas técnicas sólidas, incluyendo protocolos de entrenamiento seguro (secure training pipelines), filtrado avanzado de entradas y salidas, y entrenamiento adversario, asegurando su adaptación a los requisitos de alta confidencialidad, rendimiento en tiempo real y resiliencia operacional exigidos por los entornos de seguridad y defensa. Esto requiere una mitigación que aborde específicamente la potencial filtración de información clasificada y la resistencia a intentos de eludir las salvaguardias (jailbreak).