7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Seguridad y Confiabilidad

Una evaluación exhaustiva de la seguridad de los Modelos de Lenguaje Grande (LLM) se erige como un pilar fundamental para el desarrollo y el despliegue ético y responsable de estas tecnologías. Esta necesidad es especialmente palpable en dominios de alta sensibilidad, como la atención médica, los sistemas jurídicos y las finanzas, donde la salvaguarda de la seguridad y la confianza pública reviste una importancia capital

Fuente: MIT AI Risk Repositorymit611

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit611

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.0 > Seguridad, fallos y limitaciones del sistema de IA

Estrategia de mitigacion

1. Implementar controles rigurosos de validación y sanitización en la interfaz del Modelo de Lenguaje Grande (LLM), asegurando el aislamiento estricto del *prompt* del sistema respecto de las entradas del usuario. Esto es fundamental para mitigar la inyección de *prompts* (prompt injection) y garantizar que las salidas del modelo sean verificadas y filtradas contra contenido dañino o comandos inseguros, especialmente antes de su ejecución en sistemas de alta sensibilidad. 2. Establecer un programa formal de evaluación adversaria (*Red Teaming*) y entrenamiento continuo del modelo para identificar y mitigar vulnerabilidades latentes. Esta práctica debe simular escenarios de ataque como *jailbreaking* y evasión adversarial, fortaleciendo la resiliencia del sistema frente a manipulaciones que busquen eludir las salvaguardas predefinidas. 3. Desarrollar un marco de gobernanza de datos y seguridad que enfatice la protección, minimización y trazabilidad de la información utilizada. Esto incluye la aplicación de cifrado de datos en tránsito y en reposo, el uso de técnicas de anonimización o privacidad diferencial durante el entrenamiento en datos sensibles y la implementación de sistemas de monitoreo y registro de uso para la detección temprana de accesos no autorizados o patrones de comportamiento anómalos.