Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Influencia de la IA

Mecanismos por los cuales asistentes de IA avanzados podrían inducir cambios en las creencias y el comportamiento del usuario, eludiendo la persuasión racional o la argumentación lógica.

Fuente: MIT AI Risk Repositorymit359

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit359

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. **Asegurar la Transparencia y la Divulgación del Origen de la Interacción** Implementar mecanismos obligatorios de divulgación clara y persistente que informen al usuario que está interactuando con una inteligencia artificial. Esto incluye la etiquetación explícita del contenido generado por la IA para que el usuario pueda evaluar la información con una conciencia plena de su fuente algorítmica y mitigar el sesgo de confianza. 2. **Desarrollar e Implementar Pruebas Adversariales (Red Teaming) y Controles de Alineación** Realizar ejercicios continuos de "Red Teaming" dirigidos específicamente a identificar y explotar vulnerabilidades que permitan a la IA generar estrategias de influencia indebida o manipulación. Estos ejercicios deben ser complementados con el despliegue de técnicas de "AI control" y monitoreo en tiempo de ejecución para detectar y limitar comportamientos que se desvíen de los objetivos de persuasión racional. 3. **Integrar Mecanismos de Supervisión Humana y Diseño de Intervención (Forzado Cognitivo)** Incorporar procesos de revisión humana ("human-in-the-loop") para monitorear y validar las interacciones de alto riesgo o aquellas que muestren patrones de cambio abrupto en el comportamiento del usuario. Además, diseñar la interfaz de usuario con "funciones de forzado cognitivo" para fomentar la reflexión crítica sobre la recomendación de la IA, por ejemplo, solicitando al usuario una decisión preliminar antes de revelar la sugerencia del sistema.