7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Disposiciones Indeseables por Datos Humanos

Sesgos Indeseables Derivados de Datos Humanos. Es un principio bien establecido en la seguridad de la IA que los modelos entrenados con datos de origen humano —ya sea a través de preentrenamiento con vastos corpus de texto o de un ajuste fino basado en el feedback humano— inevitablemente adquieren y manifiestan disposiciones sesgadas. Si bien se ha dedicado un esfuerzo considerable a la medición de sesgos relacionados con características protegidas como el sexo y la etnia, y a cómo estos pueden magnificarse en entornos de múltiples agentes, la investigación se está expandiendo. Recientemente, ha aumentado el foco en la cuantificación de sesgos cognitivos propiamente humanos. La relevancia de esto es crítica: mientras que algunos de estos patrones de pensamiento humano podrían mitigar los riesgos de conflicto en un sistema de IA, otros tienen el potencial de exacerbarlos. Ilustrativamente, la inclinación a percibir erróneamente las interacciones como un "juego de suma cero" —el denominado "error del pastel fijo"— o a favorecer juicios de justicia egocéntricos son tendencias humanas conocidas por sabotear las negociaciones. Además, disposiciones humanas como el ánimo de venganza representan un factor adicional que podría agravar sustancialmente los escenarios de conflicto.

Fuente: MIT AI Risk Repositorymit1101

ENTIDAD

3 - Otro

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1101

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Establecer una **gobernanza de datos rigurosa** para asegurar la **diversidad y representatividad** de los conjuntos de datos de entrenamiento y ajuste fino, implementando técnicas de reponderación (*reweighting*) o sobre/submuestreo para mitigar sesgos históricos y demográficos que exacerban disposiciones indeseables. 2. Implementar **técnicas algorítmicas de conciencia de equidad** (como el *debiasing* adversarial o el aprendizaje de representación justa) en el desarrollo del modelo, y **diseñar mecanismos de coordinación robustos** y estrategias de **resolución de conflictos** específicas para entornos multi-agente, como la gestión de excepciones o el arbitraje de prioridades. 3. Realizar **auditorías de sesgo continuas y sistemáticas** a lo largo del ciclo de vida del sistema de IA, especialmente en la fase de post-despliegue. Integrar un sistema de **"Humano en el Bucle" (HITL)** para la supervisión y evaluación de decisiones críticas, garantizando la **rendición de cuentas individual** en interacciones multi-agente de alto riesgo.