7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Falta de comprensión del aprendizaje en contexto

El 'aprendizaje en contexto' (in-context learning) es una técnica esencial en los grandes modelos de lenguaje que les permite adquirir una nueva habilidad o perfeccionar una existente mediante la provisión de ejemplos directos en la instrucción (prompt), todo ello sin alterar la arquitectura interna o los pesos del modelo. No obstante, a pesar de su probada eficacia, la mecánica fundamental detrás de su funcionamiento es todavía materia de estudio y resulta pobremente comprendida. Esta falta de claridad representa un desafío crítico para la seguridad, ya que numerosos vectores de riesgo y usos indebidos se relacionan directamente con la ingeniería de prompts, haciendo extremadamente difícil garantizar la robustez y la inocuidad del sistema mientras su mecanismo exacto no sea desvelado por la investigación.

Fuente: MIT AI Risk Repositorymit1022

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit1022

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.4 > Falta de transparencia o interpretabilidad

Estrategia de mitigacion

1. Prioridad Alta (Implementación de Control de Riesgos): Implementar un marco de control de riesgo formal, como el Control de Riesgo sin Distribución (DFRC), para cuantificar y restringir la medida en que las demostraciones de aprendizaje en contexto pueden degradar el rendimiento del modelo por debajo de un umbral de seguridad predefinido, típicamente establecido por el rendimiento *zero-shot*. 2. Prioridad Alta (Mitigación Arquitectónica): Integrar mecanismos de salida temprana dinámica (*dynamic early exit prediction*) dentro de la arquitectura del modelo. Esto permite que el sistema omita las capas de procesamiento posteriores que exhiban una alta atención a demostraciones potencialmente inseguras o adversariales, mitigando el fenómeno de "sobre-pensamiento" en ejemplos perjudiciales. 3. Prioridad Continua (Investigación Fundamental): Priorizar la investigación profunda y continua para desvelar los mecanismos internos y el punto de reconocimiento de tarea del *aprendizaje en contexto* (ICL). Una mayor comprensión es fundamental para el desarrollo de estrategias de ingeniería de *prompts* robustas y el diseño de controles de seguridad intrínsecos que aborden los riesgos de inyección y manipulación de datos.