7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Limitaciones del Feedback Humano

Limitaciones de la Retroalimentación Humana. El entrenamiento de Modelos de Lenguaje Grandes (LLMs) se basa en la retroalimentación proporcionada por anotadores de datos humanos, un proceso que inherentemente introduce vectores de inconsistencia. Un punto crítico es el sesgo implícito, el cual puede surgir de los variados trasfondos culturales de los anotadores (Peng et al., 2022; OpenAI, 2023a). De manera más preocupante, existe el riesgo de que estos individuos introduzcan sesgos deliberadamente, generando datos de preferencia sesgados o directamente no verídicos (Casper et al., 2023b). Estos desafíos metodológicos se acentúan dramáticamente cuando la tarea a evaluar posee una complejidad tal que su juicio resulta difícil incluso para la cognición humana, por ejemplo, al determinar el valor óptimo de un estado avanzado dentro de un juego (Irving et al., 2018).

Fuente: MIT AI Risk Repositorymit524

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit524

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.0 > Seguridad, fallos y limitaciones del sistema de IA

Estrategia de mitigacion

1. Implementación de sistemas de **detección y mitigación de sesgos en el *dataset* de preferencias** Utilizar herramientas analíticas, como las *influence functions*, para cuantificar el impacto de cada instancia de *feedback* humano en el modelo de recompensa. Esto permite identificar y filtrar sesgos sutiles introducidos por los anotadores (e.g., sesgo por longitud de respuesta o adulación) y refinar las directrices de etiquetado en tiempo real, garantizando una mayor coherencia y alineación con la intención de diseño. 2. Establecimiento de **protocolos de calidad y estandarización rigurosos** para la anotación Desarrollar **directrices de anotación** exhaustivas y libres de ambigüedad que aborden explícitamente vulnerabilidades comunes (sesgo inconsciente, definiciones vagas) y especifiquen el manejo de *edge cases*. Es imperativo incorporar capas de control de calidad (*QA*), lograr un alto acuerdo inter-anotador, y asignar **expertos de dominio** para la evaluación de tareas de alta complejidad donde el juicio humano es inherentemente difícil (e.g., estados avanzados de juegos). 3. Integración de **mecanismos de validación y autocorrección asistida por IA** Aplicar *frameworks* híbridos o de *self-review* (e.g., LLM-HFBF o Self-BMIL) donde el propio Modelo de Lenguaje Grande (*LLM*) o un modelo auxiliar sea utilizado como árbitro para señalar o corregir inconsistencias y sesgos detectados en la retroalimentación humana. Este enfoque introduce una capa de verificación que equilibra la intuición humana con la consistencia algorítmica, especialmente en la evaluación de tareas que exceden la cognición humana promedio.