Persuasión y manipulación
Subversión de la autonomía del usuario mediante la explotación de la confianza, la inducción sutil (o *nudging*) o la coacción directa para instigar acciones en contra de su propia voluntad.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit275
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
1. Implementación de Mecanismos de Seguridad de Alineación Robusta (Guardrails) Desarrollar y desplegar defensas algorítmicas avanzadas (p. ej., *red teaming* sistemático y ajuste fino para alineación de valores) diseñadas para frustrar activamente las técnicas de persuasión o coacción sutil. Esto incluye la restricción rigurosa de la generación de *outputs* que puedan explotar vulnerabilidades psicológicas del usuario o incitar a acciones perjudiciales, lo cual es prioritario ante el riesgo de daño a la integridad humana. 2. Auditoría Algorítmica Continua y Monitoreo de Sesgos Emergentes Establecer un programa de auditoría y monitoreo continuo (*continuous monitoring*) de los sistemas en producción (dado que el momento de riesgo es *Post-despliegue*). Esta práctica debe evaluar periódicamente la resistencia del modelo a *prompt injections* y otras formas de manipulación, identificando cualquier *model drift* o sesgo emergente que aumente la capacidad persuasiva o coercitiva del sistema más allá de los límites de seguridad aceptables. 3. Establecimiento de Transparencia y Control Humano Prioritario Asegurar el cumplimiento del principio de "Aviso y Explicación" informando de manera inequívoca al usuario que está interactuando con un sistema de IA. Además, garantizar que los sistemas de IA estén sujetos a un control humano significativo (*human-in-the-loop* o *human-on-the-loop*), preservando la capacidad de anulación (*override*) por parte del usuario o de un supervisor ante cualquier instrucción generada por la IA que comprometa la autonomía individual.
EVIDENCIA ADICIONAL
Generating content related to self-harm or persuading someone to harm themselves is not supported.