7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Sensibilidad del modelo al formato del prompt

Los Modelos de Lenguaje Grande (LLM) son profundamente sensibles a las variaciones en la estructura de sus *prompts* o instrucciones, incluso en detalles sutiles como separadores, el uso de mayúsculas y minúsculas, o el espaciado. Estas ligeras alteraciones pueden generar cambios drásticos e inesperados en el comportamiento y el rendimiento del sistema, lo que socava la fiabilidad de cualquier evaluación o la validez de las comparaciones entre distintos modelos. Es crucial destacar que esta vulnerabilidad es una constante, independientemente de la escala del LLM o de si se utilizan técnicas de aprendizaje con pocos ejemplos (*few-shot*).

Fuente: MIT AI Risk Repositorymit1023

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1023

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. Aplicar la técnica *Mixture of Formats* (MOF) o estrategias de diversificación de estilo para ejemplos *few-shot* (aprendizaje con pocos ejemplos). Este enfoque, inspirado en la visión por computador, entrena al LLM para disociar el contenido semántico del estilo de formato, lo que reduce drásticamente la fragilidad del *prompt* (*prompt brittleness*) ante alteraciones superficiales. 2. Implementar un protocolo de *Prompt Shielding* mediante la adopción de *prompts* estrictamente estructurados. Esto requiere una separación formal y clara de las instrucciones del sistema respecto a la entrada de datos del usuario, limitando la superficie de ataque y el impacto de las variaciones de formato no controladas en la lógica central del modelo. 3. Integrar el *red-teaming* continuo y las pruebas adversariales específicas para la variación de *prompts*. El objetivo es cuantificar la sensibilidad del modelo mediante la medición del *performance spread* (diferencia entre el mejor y el peor rendimiento ante variaciones de formato), asegurando que las mitigaciones implementadas mantengan la estabilidad del sistema a lo largo del tiempo.