3. Desinformación2 - Post-despliegue

Descalibración

El riesgo central radica en la *sobreconfianza* manifiesta de los modelos de lenguaje en dominios sin respuestas objetivas claras, o en áreas donde sus *limitaciones inherentes* (por ejemplo, menor precisión que un especialista humano) deberían imponer un alto grado de incertidumbre. Esto se exacerba por una *falta de consciencia* sobre la *obsolescencia de su base de conocimiento*, lo que inevitablemente conduce a la articulación de respuestas categóricas que son, en esencia, incorrectas.

Fuente: MIT AI Risk Repositorymit447

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit447

Linea de dominio

3. Desinformación

74 riesgos mapeados

3.1 > Información falsa o engañosa

Estrategia de mitigacion

1. Priorizar la implementación de la Generación Aumentada por Recuperación (RAG) para anclar las respuestas del modelo en bases de conocimiento externas y verificables. Esta estrategia contrarresta directamente la obsolescencia de la base de datos del LLM, asegurando que las respuestas fácticas estén fundamentadas y sean menos propensas a la generación de información errónea por sobreconfianza. 2. Aplicar métodos de calibración *post-hoc* para alinear la confianza predicha del modelo con su precisión real. Esto incluye el uso de técnicas como el escalado de temperatura (*temperature scaling*) o el *Self-Ensemble* en contextos de preguntas de opción múltiple, y la definición de *guardrails* que utilicen umbrales de confianza empíricamente validados (e.g., 0.75-0.90) para escalonar las consultas de alto riesgo o inciertas. 3. Emplear técnicas avanzadas de ingeniería de *prompts*, específicamente el *Chain-of-Thought* (CoT), para obligar al modelo a explicitar su proceso de razonamiento paso a paso. Esta transparencia facilita la auditoría del proceso cognitivo y aumenta la probabilidad de una conclusión correcta, al tiempo que permite la identificación temprana de errores en la cadena de inferencia.