3. Desinformación2 - Post-despliegue

Fiabilidad

Garantizar que la inteligencia artificial produzca resultados que sean simultáneamente correctos, veraces y coherentes, logrando además una calibración precisa de su nivel de confianza ante las propias predicciones.

Fuente: MIT AI Risk Repositorymit443

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit443

Linea de dominio

3. Desinformación

74 riesgos mapeados

3.1 > Información falsa o engañosa

Estrategia de mitigacion

1. Implementación de la Generación Aumentada por Recuperación (RAG) Instaurar una arquitectura RAG para fundamentar rigurosamente las respuestas del Gran Modelo de Lenguaje (LLM) en fuentes de conocimiento externas, verificadas y de dominio específico (p. ej., bases de datos vectoriales). Este enfoque debe incluir una estrategia optimizada de segmentación de datos (*data chunking*), técnicas avanzadas de recuperación (como la búsqueda híbrida) y *reranking* para asegurar que el contexto proporcionado al modelo sea pertinente, completo y de la más alta fiabilidad factual. 2. Aplicación de Ingeniería de Prompt Avanzada y Coherencia Lógica Utilizar técnicas de Ingeniería de *Prompts* de alta calidad, priorizando el método de la *Chain-of-Thought* (Cadena de Pensamiento) para forzar al modelo a articular su razonamiento en pasos lógicos intermedios, lo que minimiza errores de inferencia y lógica. Adicionalmente, se deben incluir restricciones explícitas y patrones de repetición de instrucciones, tales como la orden de abstenerse de responder o emitir un mensaje de incertidumbre ("No lo sé") si la información no está presente en el contexto recuperado, limitando así la especulación. 3. Integración de Sistemas de Detección y *Guardrails* Post-Generación Establecer un proceso de validación en la fase de post-despliegue mediante la implementación de *Guardrails* (barreras de seguridad) o sistemas de detección de alucinaciones. Estos sistemas deben ejecutar comprobaciones de fundamentación contextual (*contextual grounding checks*) sobre la respuesta generada por el LLM para asegurar su coherencia y fidelidad con las fuentes de conocimiento. Para aplicaciones de alto riesgo, es imperativo incorporar un circuito de retroalimentación o supervisión humana (*Human-in-the-Loop*) para la revisión y corrección de las salidas críticas.

EVIDENCIA ADICIONAL

La fiabilidad emerge como una preocupación central, dado que la 'alucinación' es un fenómeno ya bien documentado en los Grandes Modelos de Lenguaje (LLMs) que socava significativamente la credibilidad de sus resultados. Prácticamente todas las aplicaciones basadas en LLMs se verían afectadas por respuestas incorrectas o inventadas. Además, en función de la criticidad o el riesgo inherente a la aplicación, las consecuencias pueden abarcar un amplio espectro de daños, que van desde el mero absurdo inofensivo hasta potenciales desastres de índole financiera o legal.