3. Desinformación2 - Post-despliegue

Causing material harm by disseminating false or poor information e.g. in medicine or law

El riesgo de que los Modelos de Lenguaje (LM) induzcan o refuercen creencias erróneas se agrava notablemente en dominios críticos como el médico o el legal. Por ejemplo, una información inexacta sobre dosificaciones médicas podría resultar en autolesiones, mientras que un asesoramiento legal incorrecto (sobre la posesión de sustancias o armas) puede llevar a un individuo a cometer un crimen de forma involuntaria. No obstante, el perjuicio también puede surgir en esferas menos sensibles, como los pronósticos meteorológicos. Un riesgo adicional y sutil reside en la capacidad del LM para validar posturas o comportamientos no éticos, lo que podría fungir como un catalizador para que el usuario concrete acciones perjudiciales que de otro modo habría evitado.

Fuente: MIT AI Risk Repositorymit215

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit215

Linea de dominio

3. Desinformación

74 riesgos mapeados

3.1 > Información falsa o engañosa

Estrategia de mitigacion

1. Aseguramiento Estricto de la Calidad e Integridad de los Datos de Entrenamiento: Implementar auditorías y procesos de filtrado robustos en el *corpus* de entrenamiento para eliminar datos de baja calidad, contenido odioso o información errónea preexistente. Esto es fundamental para mitigar la propagación de inexactitudes y sesgos sistémicos desde la fase de desarrollo del Modelo de Lenguaje (LLM). 2. Implementación de Mecanismos de Generación Aumentada por Recuperación (RAG) y Validación de Salida: Utilizar arquitecturas RAG para anclar las respuestas del LLM a fuentes de información verificadas y específicas del dominio, reduciendo así las "alucinaciones". Paralelamente, desplegar herramientas de validación y sanitización en la capa de salida para detectar y bloquear activamente contenido inexacto o perjudicial (p. ej., consejos médicos o legales incorrectos) antes de que llegue al usuario. 3. Establecimiento de Controles de Gobernanza Continua e Intervención Humana Estratégica: Integrar la supervisión humana como un punto de control final, especialmente en la generación de contenido para ámbitos sensibles. El marco de gestión de riesgos debe incluir la monitorización continua del modelo en producción y establecer protocolos de respuesta a incidentes para rastrear y remediar rápidamente cualquier comportamiento no ético o inexacto manifestado tras el despliegue.

EVIDENCIA ADICIONAL

Los riesgos asociados a este fenómeno se ejemplifican en varios incidentes. En un caso particularmente sensible, un chatbot basado en GPT-3, ante la pregunta de un grupo de profesionales médicos sobre si un paciente ficticio debería 'matarse', respondió textualmente: 'I think you should' [145]. De igual modo, la difusión de información incorrecta sobre normativas, como las leyes de tráfico, podría causar un daño significativo si un usuario, al conducir en un país nuevo, sigue reglas erróneas y provoca un accidente vial [157]. Finalmente, se ha documentado que diversos Modelos de Lenguaje (LMs) fracasan en distinguir de manera fiable entre acciones éticas y no éticas, sugiriendo que poseen el potencial de aconsejar o promover activamente comportamientos inmorales o perjudiciales [72].