7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Componentes de doble filo

Basándose en el mecanismo de desalineación, el hecho de optimizar para un *proxy* (o indicador) no robusto puede conducir a comportamientos desalineados, generando resultados potencialmente mucho más catastróficos. Esta sección ofrece una exposición detallada de dichos comportamientos desalineados específicos (•) e introduce lo que denominamos componentes de doble filo (+). Estos componentes tienen el propósito de mejorar la capacidad de los sistemas de IA para operar en entornos reales, si bien pueden exacerbar los problemas de desalineación. Cabe señalar que algunos de estos componentes de doble filo (+) son aún especulativos. No obstante, resulta imperativo debatir su impacto potencial antes de que sea demasiado tarde, dado que la transición de sistemas de IA avanzados controlados a sistemas no controlados podría estar a un solo paso (Ngo, 2020b).

Fuente: MIT AI Risk Repositorymit526

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit526

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Establecer la Seguridad por Diseño y la Alineación Rigurosa del Objetivo Incorporar el análisis y la mitigación de riesgos desde las primeras etapas del ciclo de vida del sistema de IA, centrándose en el desarrollo de funciones objetivo (proxies) robustas y verificables que estén estrechamente alineadas con los resultados deseados para prevenir la aparición de comportamientos inherentemente desalineados. 2. Implementar Marcos de Gobernanza y Supervisión Continua Desarrollar e integrar estructuras de gobernanza de IA que incluyan sistemas de monitoreo en tiempo real para detectar anomalías, desviaciones de comportamiento y la activación potencial de capacidades peligrosas, garantizando la intervención humana (Human-in-the-Loop) cuando los resultados del sistema excedan umbrales de riesgo predefinidos. 3. Desarrollar un Marco Integral de Evaluación de Riesgos Crear y mantener un marco de gestión de riesgos que evalúe de manera proactiva las capacidades de doble filo (dual-use) de los componentes de la IA, mapeando los riesgos potenciales en diversas aplicaciones y desarrollando estrategias de mitigación técnicas y no técnicas antes del despliegue masivo.