Riesgos de Uso Malicioso
Dado que la IA de propósito general abarca un amplio espectro de áreas de conocimiento, puede ser desviada para fines maliciosos, lo que podría causar daños a gran escala. En esta sección se analizan algunos de los riesgos principales de este uso indebido, aunque es fundamental reconocer que existen otros, y nuevas amenazas podrían seguir emergiendo. Si bien la solidez de la evidencia que respalda los riesgos aquí discutidos es muy variada —e incluso hay indicios de que algunos podrían no constituir riesgos serios en la actualidad—, los incluimos para ofrecer una visión panorámica y exhaustiva de los riesgos de uso malicioso asociados a los sistemas de IA de propósito general.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit721
Linea de dominio
4. Actores Maliciosos y Mal Uso
4.0 > Uso malicioso
Estrategia de mitigacion
1. Desarrollo e Implementación de Salvaguardas Técnicas Robustas Desarrollar y entrenar modelos con políticas de negación explícitas y sistemas de filtrado de entrada y salida para detectar y bloquear proactivamente solicitudes con intenciones maliciosas, especialmente aquellas que representan riesgos catastróficos (e.g., armas CBRN o ciberataques mayores). Esto debe complementarse con entrenamiento adversarial para aumentar la robustez del modelo contra ataques de manipulación como el *jailbreaking*. 2. Evaluación Continua y Adversarial de Capacidades de Doble Uso Establecer un proceso sistemático y periódico de *red teaming* y pruebas de estrés adversarial para elicitar y medir las capacidades de doble uso no deseadas del sistema, tanto antes como después del despliegue. Los resultados de estas evaluaciones deben informar la implementación de medidas de mitigación específicas y el establecimiento de umbrales de capacidad que, al ser cruzados, requieran nuevas salvaguardas. 3. Reforzamiento de la Gobernanza y los Controles de Acceso Implementar y hacer cumplir rigurosamente los principios de Mínimo Privilegio y Cero Confianza (*Zero Trust*) en todas las etapas del ciclo de vida de la IA para proteger los modelos, datos de entrenamiento y la infraestructura de despliegue. Adicionalmente, establecer una Política de Uso Aceptable (PUA) clara y obligatoria que defina los usos prohibidos y sancione el desvío intencional del sistema para fines perjudiciales.