7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Salida Falsa

Los sistemas de Inteligencia Artificial, específicamente los Grandes Modelos de Lenguaje (LLMs), tienen la capacidad de generar resultados inexactos, ya sea por una desviación involuntaria o mediante una manipulación deliberada. La producción de información que carece de verificabilidad o que diverge significativamente de fuentes establecidas se ha formalizado en la literatura científica como "alucinación" (Bang et al., 2023; Zhao et al., 2023). No obstante, una preocupación más profunda y con serias implicaciones éticas y sociales radica en la evidencia que indica que los LLMs podrían ofrecer respuestas erróneas de manera selectiva a usuarios que demuestran un menor nivel de instrucción (Perez et al., 2023). Este sesgo introduce un riesgo sistémico que podría exacerbar las desigualdades de acceso al conocimiento y la información fidedigna, pasando de ser una simple falla técnica a un problema de equidad fundamental.

Fuente: MIT AI Risk Repositorymit532

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit532

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Implementación de la Generación Aumentada por Recuperación (RAG) Para mitigar la tendencia a la alucinación, se debe integrar un sistema RAG que ancle la respuesta del modelo a fuentes de conocimiento externas y verificables. Esto asegura que la generación de la salida esté fundamentada en evidencia fidedigna, reduciendo drásticamente la inexactitud factual al forzar el modelo a referenciar datos contrastados en lugar de fabricarlos. 2. Estrategias de Mitigación de Sesgos y Equidad Es crucial aplicar técnicas robustas de mitigación de sesgos, como el aumento de datos y la evaluación continua de la equidad en las salidas (bias-aware evaluation), monitoreando el rendimiento a través de subgrupos demográficos. El objetivo es contrarrestar el riesgo de ofrecer respuestas erróneas de manera selectiva a poblaciones vulnerables o menos educadas, abordando así una preocupación fundamental de equidad sistémica. 3. Establecimiento de un Protocolo de Verificación y Supervisión Humana Se debe instaurar un mecanismo de control de calidad con intervención humana ("human-in-the-loop") y umbrales de confianza para todas las salidas consideradas críticas. Esto permite la detección y rectificación *ex ante* de alucinaciones o contenidos sesgados, proporcionando una capa de responsabilidad y validación antes de que la información inexacta o injusta sea difundida al usuario final.