2. Privacidad y Seguridad2 - Post-despliegue

Errores Factuales Inyectados por Herramientas Externas

Las herramientas externas enriquecen habitualmente las instrucciones de entrada (prompts) de un modelo de IA con información adicional, a menudo proveniente de recursos públicos como APIs web o motores de búsqueda. No obstante, la fiabilidad de estas herramientas no es absoluta. En consecuencia, el contenido que devuelven puede incorporar errores fácticos, lo cual amplifica significativamente la tendencia del modelo a 'alucinar' o generar información incorrecta.

Fuente: MIT AI Risk Repositorymit29

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit29

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementación de un Riguroso Marco de Validación Continua de la Salida Se debe establecer un proceso de verificación exhaustivo, preferiblemente automatizado mediante *guardrails* de IA, que contraste la información generada a partir de herramientas externas con un conocimiento de referencia fidedigno antes de su divulgación. Esto incluye la aplicación de umbrales de confianza y la integración de supervisión humana en las salidas críticas para asegurar la precisión fáctica y mitigar la amplificación de las alucinaciones. 2. Despliegue de Arquitecturas de Generación Aumentada por Recuperación (RAG) Adoptar el modelo RAG para anclar la respuesta del sistema de IA en un corpus documental interno y curado. Al obligar al modelo a recuperar y referenciar información de fuentes fiables antes de generar la respuesta, se reduce la probabilidad de que el modelo incorpore y propague errores fácticos provenientes de herramientas o APIs externas no verificadas. 3. Establecimiento de Controles de Calidad e Integridad en las Fuentes de Datos Externas Realizar auditorías periódicas y sistemáticas de las herramientas externas (como APIs web y motores de búsqueda) utilizadas para enriquecer las instrucciones del modelo. El objetivo es verificar la legitimidad, exactitud y coherencia de la información que inyectan estas fuentes, aplicando filtros o exclusiones a aquellas que demuestren una baja fiabilidad.