5. Interacción Humano-Computadora2 - Post-despliegue

Rendimiento Inconsistente entre Dominios

La estimación de las verdaderas capacidades de un Modelo de Lenguaje Grande (LLM) es una tarea intrínsecamente compleja (c.f. Sección 3.3), particularmente para usuarios que no están familiarizados con la naturaleza inherentemente frágil y el carácter 'quebradizo' de las tecnologías de aprendizaje automático. Diversos factores pueden llevar a un usuario a malinterpretar el alcance real de un modelo. Estos incluyen: - **Sesgo de los Desarrolladores**: La exageración de las capacidades del modelo por parte de sus creadores (Lambert, 2023; Blair-Stanek et al., 2023) genera expectativas que no siempre se corresponden con el rendimiento empírico. - **Contaminación de Tareas**: La filtración inadvertida de datos de entrenamiento en los conjuntos de evaluación (Roberts et al., 2023b) puede inflar artificialmente las métricas de rendimiento. - **Evaluación Incompleta**: La subrepresentación de ciertas tareas o dominios en el proceso de evaluación (Wu et al., 2023a; McCoy et al., 2023) oculta las debilidades del modelo en escenarios reales. - **Sensibilidad a la Entrada (Prompt-Sensitivity)**: La inestabilidad del modelo ante variaciones mínimas en la instrucción o 'prompt' (Anthropic, 2023d) expone una falta de robustez.Esta falta de fiabilidad estructural no solo socava la confianza del usuario, sino que también introduce un riesgo de perjuicio potencial si las decisiones críticas se basan en información incorrecta o engañosa generada por el LLM.

Fuente: MIT AI Risk Repositorymit1350

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1350

Linea de dominio

5. Interacción Humano-Computadora

92 riesgos mapeados

5.1 > Dependencia excesiva y uso inseguro

Estrategia de mitigacion

1. Implementación de Metodologías de Consistencia y Agregación Aplicar técnicas de post-procesamiento como el *ensemble averaging* o el método de *Self-Consistency* (voto mayoritario) para agregar respuestas obtenidas de múltiples ejecuciones estocásticas (Intra-Instance Inconsistency) o de diferentes versiones del modelo. Esta estrategia busca mitigar la variabilidad intrínseca y maximizar la probabilidad de seleccionar una respuesta estable y correcta, elevando la fiabilidad general del sistema. 2. Optimización de la Robustez frente a Variaciones de Entrada Desplegar estrategias de *prompt engineering* avanzado y calibración (*calibration*) para reducir la sensibilidad del modelo a formulaciones mínimamente distintas o al orden de los elementos en la entrada (*Prompt-Sensitivity* e *Order Inconsistency*). Esto puede incluir la utilización de *In-Context Learning* (ICL) que demuestre la agnosia al orden o el desarrollo de *benchmarking* procedimental para evaluar y mitigar correlaciones espurias entre la sintaxis y el dominio de la respuesta. 3. Establecimiento de un Protocolo de Evaluación y Monitoreo Continuo Implementar un *framework* de evaluación sistemático (*LLM-as-a-Judge* o pruebas de regresión automáticas) antes y después del despliegue para validar la consistencia del modelo a lo largo del tiempo (*backtesting*). El monitoreo continuo de la calidad de las respuestas y la detección temprana de anomalías o degradación del rendimiento son cruciales para evitar que la falta de fiabilidad socave la confianza del usuario.