7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Persuasión y manipulación

El modelo exhibe una notable eficacia en la modulación de las creencias de los usuarios, ya sea a través de diálogos directos o en formatos más amplios como las publicaciones en redes sociales. Esta capacidad se extiende incluso a la promoción de nociones erróneas o falsas. Su habilidad para impulsar narrativas específicas de forma persuasiva es significativa, lo que plantea el riesgo de inducir a los individuos a ejecutar acciones que, en circunstancias normales, evitarían, incluyendo aquellas categorizadas como no éticas.

Fuente: MIT AI Risk Repositorymit407

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit407

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. **Prioridad máxima: Establecimiento de Marcos Éticos y Regulatorios Obligatorios.** Implementar directrices éticas y marcos normativos que exijan la transparencia total sobre la naturaleza de la interacción (principio de divulgación) y prohíban explícitamente las capacidades de manipulación de comportamiento, desinformación o *adulteración* de la voluntad del usuario. 2. **Prioridad media: Desarrollo y Aplicación de Métricas de Control de Intención.** Integrar mecanismos de control formal, como métricas de *goal hijacking*, para analizar de forma continua la discrepancia entre la intención declarada del usuario y los resultados de la interacción con la IA, facilitando la auditoría y diferenciando rigurosamente la asistencia del desvío intencional del objetivo. 3. **Prioridad operativa: Implementación de Supervisión Humana y Protocolos de Verificación Rigurosos.** Mantener una supervisión humana crítica sobre los resultados de alto riesgo de la IA para validar su precisión y la ausencia de contenido malicioso o engañoso, complementado con la validación de datos de entrenamiento de alta calidad y pruebas rigurosas continuas para mitigar la generación de alucinaciones y sesgos.

EVIDENCIA ADICIONAL

La mayor parte de las capacidades mencionadas se catalogan como *ofensivas*. Su relevancia reside en que son fundamentalmente útiles para *ejercer influencia* o para *comprometer la seguridad*. Ejemplos paradigmáticos de estas capacidades incluyen la persuasión y manipulación avanzada, las operaciones de ciberofensiva, y la adquisición de sistemas armamentísticos.