3. Desinformación2 - Post-despliegue

Cambios de Paradigma y Distribución

Las bases de conocimiento sobre las que se instruyen los Modelos de Lenguaje Grande (LLM) presentan una naturaleza intrínsecamente dinámica, lo que se conoce como deriva temporal de la información. Esto implica que las respuestas a preguntas basadas en datos del mundo real, como 'quién ostenta el récord histórico de puntos en la NBA' o 'quién es la persona más acaudalada del mundo', exigen una actualización periódica o, en el escenario ideal, en tiempo real, para mantener su exactitud.

Fuente: MIT AI Risk Repositorymit475

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit475

Linea de dominio

3. Desinformación

74 riesgos mapeados

3.1 > Información falsa o engañosa

Estrategia de mitigacion

1. Implementación de la Optimización Robusta Distribucional (DRO) o marcos de optimización conscientes de la distribución, como DoRA, para estimar y minimizar la pérdida en el peor de los casos sobre subdistribuciones que reflejen la distribución objetivo preferida por el humano. Esta estrategia aborda proactivamente la desalineación inherente y los sesgos introducidos por los cambios de distribución en los datos de entrenamiento, especialmente los sintéticos. 2. Aplicación de estrategias de alineación continua, como Reinforcement Learning from Human Feedback (RLHF) o Direct Preference Optimization (DPO), utilizando un flujo constante de datos actualizados y de alta calidad. Esto es esencial para mantener la exactitud de la base de conocimiento del LLM y su conformidad con las políticas locales en constante evolución. 3. Desarrollo de técnicas de refinamiento o adaptación en tiempo de prueba (Test-Time Refinement) que permitan al modelo ajustar dinámicamente sus representaciones o salidas ante entradas fuera de distribución (out-of-distribution) o que presenten un cambio de dominio, mitigando así el impacto de la deriva de datos en el rendimiento posterior al despliegue.

EVIDENCIA ADICIONAL

Las normativas locales, como las políticas de moderación de contenido, son inherentemente dinámicas y evolucionan con el tiempo. Este cambio introduce un riesgo constante de 'deriva' en la aceptabilidad del contenido. Por ejemplo, material o temas específicos (como aquellos relacionados con las identidades LGBTQ+) pueden ser considerados apropiados bajo una política local en un momento dado, pero podrían dejar de serlo si emerge y se adopta un nuevo término considerado ofensivo, reflejando así una adaptación en el consenso social o legal sobre el lenguaje aceptable.