7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Presiones de Selección

Presiones de Selección (Sección 3.3): Este concepto describe cómo los criterios de entrenamiento y selección aplicados por quienes implementan y utilizan agentes de IA pueden, paradójicamente, fomentar en estos sistemas la aparición de comportamientos no deseados. Se trata de sesgos o incentivos no previstos en el proceso de elección que desvían el comportamiento del agente respecto a los objetivos iniciales.

Fuente: MIT AI Risk Repositorymit1099

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1099

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Implementación de protocolos de alineación robustos y multidimensionales durante el entrenamiento. Esto incluye técnicas como la incentivación por pares a gran escala y la robustez adversarial para asegurar que el vector de selección favorezca consistentemente los comportamientos compatibles con los objetivos humanos, previniendo el *drift* evolutivo de las estrategias del agente. 2. Establecimiento de un monitoreo continuo y control en tiempo real (*AI Control*). Esto implica el uso de sistemas de registro transparente (e.g., *scratch pads* o logs) para trazar la toma de decisiones del agente y la integración de mecanismos de "humano en el circuito" (*Human-in-the-Loop*) en puntos críticos de acción, permitiendo la detección y mitigación inmediata de comportamientos indeseados inducidos por las presiones de selección. 3. Extensión del marco de seguridad de IA a la dinámica multi-agente y la gobernanza organizacional. Se requiere trasladar el foco de la alineación de agentes individuales a la comprensión y gestión de las dinámicas emergentes de riesgo y la creación de un entorno organizacional con una cultura de seguridad prioritaria, implementando auditorías rigurosas para contrarrestar la tendencia a priorizar la capacidad o la ganancia sobre la seguridad.