7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Persuasión y manipulación

Subversión de la autonomía del usuario mediante la explotación de la confianza, la inducción sutil (o *nudging*) o la coacción directa para instigar acciones en contra de su propia voluntad.

Fuente: MIT AI Risk Repositorymit275

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit275

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Implementación de Mecanismos de Seguridad de Alineación Robusta (Guardrails) Desarrollar y desplegar defensas algorítmicas avanzadas (p. ej., *red teaming* sistemático y ajuste fino para alineación de valores) diseñadas para frustrar activamente las técnicas de persuasión o coacción sutil. Esto incluye la restricción rigurosa de la generación de *outputs* que puedan explotar vulnerabilidades psicológicas del usuario o incitar a acciones perjudiciales, lo cual es prioritario ante el riesgo de daño a la integridad humana. 2. Auditoría Algorítmica Continua y Monitoreo de Sesgos Emergentes Establecer un programa de auditoría y monitoreo continuo (*continuous monitoring*) de los sistemas en producción (dado que el momento de riesgo es *Post-despliegue*). Esta práctica debe evaluar periódicamente la resistencia del modelo a *prompt injections* y otras formas de manipulación, identificando cualquier *model drift* o sesgo emergente que aumente la capacidad persuasiva o coercitiva del sistema más allá de los límites de seguridad aceptables. 3. Establecimiento de Transparencia y Control Humano Prioritario Asegurar el cumplimiento del principio de "Aviso y Explicación" informando de manera inequívoca al usuario que está interactuando con un sistema de IA. Además, garantizar que los sistemas de IA estén sujetos a un control humano significativo (*human-in-the-loop* o *human-on-the-loop*), preservando la capacidad de anulación (*override*) por parte del usuario o de un supervisor ante cualquier instrucción generada por la IA que comprometa la autonomía individual.

EVIDENCIA ADICIONAL

Generating content related to self-harm or persuading someone to harm themselves is not supported.