7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Conflictos de conocimiento en RAG LLMs

Los modelos de Inteligencia Artificial (IA) manifiestan una particular sensibilidad a la evidencia externa coherente que se les presenta durante procesos como la Aumentación por Recuperación (RAG), incluso si esta información contradice su extenso conocimiento previo de entrenamiento. Esto significa que la introducción de una cantidad relativamente pequeña de datos falsos, si son presentados de forma persuasiva, puede anular la base de conocimiento del modelo y provocar que genere salidas o respuestas incorrectas.

Fuente: MIT AI Risk Repositorymit1021

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1021

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. Implementar mecanismos de refinamiento de la atención e intervención neuronal para la alineación contextual. Consiste en aplicar marcos como IRCAN o DSSP-RAG para identificar y reponderar (o refinar los) canales neuronales que procesan la evidencia contextual, priorizando la información externa coherente sobre el conocimiento paramétrico preexistente del modelo ante escenarios de conflicto, sin requerir reentrenamiento del modelo. 2. Desarrollar un sistema de detección y resolución de conflictos basado en taxonomía y grafos de conocimiento. Establecer un proceso que clasifique el tipo de conflicto de conocimiento (p. ej., desinformación, información desactualizada o opiniones contradictorias) y aplique un comportamiento esperado específico (como priorizar fuentes recientes o descartar desinformación) o utilice Grafos de Conocimiento (KGs) para realizar una verificación factual de alto nivel de las fuentes recuperadas. 3. Fortalecer el proceso de ingestión y post-recuperación del sistema RAG. Optimizar la tubería de Generación Aumentada por Recuperación (RAG) mediante técnicas rigurosas de preprocesamiento (p. ej., filtrado de contenido antiguo o irrelevante y control de versiones) y post-recuperación (p. ej., re-ranking y búsqueda híbrida), asegurando que solo el conjunto de documentos más relevante, coherente y actualizado sea presentado al modelo para la generación de la respuesta.