Malicioso y Directo
Objetivo intrínsecamente perjudicial. Se refiere a una meta explícita o aprendida por un sistema de inteligencia artificial, cuya consecución resulta directamente en un daño o riesgo significativo.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit1294
Linea de dominio
4. Actores Maliciosos y Mal Uso
4.0 > Uso malicioso
Estrategia de mitigacion
1. Robustez y Hardening del Modelo (Prioridad Alta): Implementar mecanismos de seguridad a nivel de diseño, incluyendo validación y desinfección estricta de entradas (prompt management), junto con entrenamiento adversarial (red teaming) para fortalecer la resistencia del modelo ante inyecciones directas de comandos que busquen la consecución de objetivos intrínsecamente perjudiciales. 2. Monitorización Continua y Trazabilidad Forense: Establecer sistemas de supervisión en tiempo real de los resultados (outputs) de la IA y el comportamiento de los usuarios, manteniendo registros de auditoría inmutables (pistas de auditoría) que permitan la trazabilidad completa y la identificación post-incidente de cualquier actor malicioso o vector de ataque explotado. 3. Gobernanza Proactiva y Concientización: Desarrollar y aplicar un Marco de Gobernanza de IA que contemple políticas claras de uso aceptable y límites de responsabilidad. Complementariamente, invertir en programas de capacitación continua del personal sobre ética, riesgos de uso malicioso de la IA y técnicas de ingeniería social para reducir la vulnerabilidad humana.