4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Resistencia al Mal Uso

El foco de esta área reside en la robustez de los sistemas de inteligencia artificial frente a la explotación maliciosa. Su objetivo primordial es establecer barreras que impidan que actores con intenciones dañinas utilicen la tecnología para generar perjuicios significativos o escalar amenazas ya existentes.

Fuente: MIT AI Risk Repositorymit460

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit460

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.0 > Uso malicioso

Estrategia de mitigacion

- Implementar rigurosos mecanismos de validación y sanitización de *inputs* (entradas de usuario) y *prompts* para neutralizar las inyecciones maliciosas. Esto incluye aislar las instrucciones críticas del sistema en canales inmutables y monitorear activamente patrones de manipulación. - Establecer controles de acceso estrictos basados en roles (RBAC) y la regla del mínimo privilegio. Adicionalmente, tratar todo *output* del modelo como dato no confiable y ejecutar cualquier código generado dentro de entornos *sandbox* aislados y con privilegios restringidos para limitar el alcance del daño. - Desarrollar un marco de gobernanza de la IA que integre la auditoría de seguridad periódica y la supervisión continua para detectar comportamientos anómalos o *shadow AI*. Esto debe complementarse con un plan de respuesta a incidentes sólido y actualizado para mitigar rápidamente cualquier explotación maliciosa.

EVIDENCIA ADICIONAL

La resistencia al uso indebido se considera una necesidad práctica ineludible, dado que los Modelos de Lenguaje Grandes (LLMs) presentan un potencial multifacético que puede ser instrumentalizado para infligir perjuicios intencionales a terceros.