4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Ciberataques

Un riesgo crítico reside en la instrumentalización de la Inteligencia Artificial generativa para causar perjuicios significativos. Esto se manifiesta en su capacidad para facilitar la avería, la interrupción o la destrucción deliberada de sistemas informáticos de terceros (y sus componentes), ya sea mediante la inducción de fallos operacionales o a través de la potenciación de ciberataques sofisticados.

Fuente: MIT AI Risk Repositorymit1232

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1232

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.2 > Ciberataques, desarrollo o uso de armas y daño masivo

Estrategia de mitigacion

1. **Implementación de Salvaguardas Robustas y Filtros de Contenido Malicioso (Guardrails)** Establecer y hacer cumplir rigurosamente modelos de gobernanza y barreras de seguridad (guardrails) dentro de los sistemas de IA generativa. Esto debe incluir filtros de contenido de salida y mecanismos de rechazo de prompts adversarios diseñados para impedir la generación de código malicioso, la identificación automatizada de vulnerabilidades en sistemas de terceros, o la producción de documentación que instruya o facilite ciberataques, manteniendo la seguridad por diseño. 2. **Desarrollo y Ejecución Continua de Pruebas Adversarias (Red Teaming Especializado)** Realizar periódicamente pruebas de penetración éticas y programas de "Red Teaming" especializados en los modelos de IA generativa y su infraestructura de soporte. El propósito es identificar y mitigar proactivamente las debilidades que podrían ser explotadas por actores maliciosos para inducir al modelo a generar resultados que causen daño, interrupción o destrucción de sistemas informáticos de terceros, asegurando un ciclo de vida de desarrollo de seguridad continuo. 3. **Fortalecimiento de la Trazabilidad, Autenticación y Control de Acceso (Zero Trust)** Implementar una arquitectura de seguridad de Confianza Cero (Zero Trust) con protocolos estrictos de autenticación de múltiples factores y control de acceso basado en roles (RBAC) para limitar la interacción con la IA generativa a usuarios y entidades estrictamente autorizadas. Además, establecer sistemas de trazabilidad inmutables y detallados (logging) de todas las consultas e interacciones de alto riesgo, lo que permite la auditoría forense rápida y la atribución de responsabilidad en caso de uso indebido o ataque facilitado por la IA.