Volver al repositorio MIT
4. Actores Maliciosos y Mal Uso3 - Otro

Malicioso y Directo

Objetivo intrínsecamente perjudicial. Se refiere a una meta explícita o aprendida por un sistema de inteligencia artificial, cuya consecución resulta directamente en un daño o riesgo significativo.

Fuente: MIT AI Risk Repositorymit1294

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit1294

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.0 > Uso malicioso

Estrategia de mitigacion

1. Robustez y Hardening del Modelo (Prioridad Alta): Implementar mecanismos de seguridad a nivel de diseño, incluyendo validación y desinfección estricta de entradas (prompt management), junto con entrenamiento adversarial (red teaming) para fortalecer la resistencia del modelo ante inyecciones directas de comandos que busquen la consecución de objetivos intrínsecamente perjudiciales. 2. Monitorización Continua y Trazabilidad Forense: Establecer sistemas de supervisión en tiempo real de los resultados (outputs) de la IA y el comportamiento de los usuarios, manteniendo registros de auditoría inmutables (pistas de auditoría) que permitan la trazabilidad completa y la identificación post-incidente de cualquier actor malicioso o vector de ataque explotado. 3. Gobernanza Proactiva y Concientización: Desarrollar y aplicar un Marco de Gobernanza de IA que contemple políticas claras de uso aceptable y límites de responsabilidad. Complementariamente, invertir en programas de capacitación continua del personal sobre ética, riesgos de uso malicioso de la IA y técnicas de ingeniería social para reducir la vulnerabilidad humana.