5. Interacción Humano-Computadora2 - Post-despliegue

Crear vías para explotar confianza del usuario, empujoncitos o manipulación

El riesgo central radica en la capacidad de los sistemas de IA para **extraer información sensible y de difícil acceso**—como pensamientos íntimos, opiniones no reveladas y estados emocionales profundos—durante interacciones conversacionales aparentemente inocuas. La **sistematización de estos datos confidenciales** abre la puerta a la creación de aplicaciones secundarias con potencial lesivo, que van desde el desarrollo de **herramientas de vigilancia conductual** hasta la ingeniería de **productos digitales diseñados para generar adicción**. En última instancia, esta captura de datos representa una **vulneración directa de los derechos de privacidad** y puede generar perjuicios significativos en la autonomía y bienestar del usuario.

Fuente: MIT AI Risk Repositorymit250

ENTIDAD

3 - Otro

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit250

Linea de dominio

5. Interacción Humano-Computadora

92 riesgos mapeados

5.1 > Dependencia excesiva y uso inseguro

Estrategia de mitigacion

1. Implementación de mecanismos rigurosos de **transparencia y consentimiento informado** sobre la recopilación, almacenamiento y uso de datos sensibles (pensamientos íntimos, opiniones, estados emocionales) durante la interacción. Es crucial garantizar el **derecho explícito del usuario a optar por la exclusión (opt-out)** de la recolección y sistematización de esta información confidencial para aplicaciones secundarias como vigilancia o ingeniería de adicciones, adoptando un enfoque de privacidad desde el diseño. 2. Despliegue de **intervenciones adaptativas en la interfaz y el diálogo** para calibrar la confianza del usuario y reducir la dependencia excesiva. Esto incluye la **inserción estratégica de pausas o demoras (deceleración)** en momentos de alta vulnerabilidad para fomentar la deliberación y el pensamiento crítico, así como la provisión de **explicaciones contextuales o contrafácticas** que delimiten claramente las capacidades y limitaciones del agente, promoviendo un estado de **vigilancia algorítmica** en lugar de sobreconfianza. 3. Definición e implementación de un **alcance conversacional estricto** mediante el uso de ingeniería de *prompt* avanzada y **filtros de moderación robustos**. El sistema debe ser programado para **negarse proactivamente a responder, reconducir el tema o señalar su incapacidad** para abordar consultas que conduzcan a la revelación innecesaria de información íntima fuera de su dominio de propósito seguro, minimizando así las oportunidades de explotación de la confianza a través de la extracción de datos sensibles.

EVIDENCIA ADICIONAL

Este riesgo se intensifica en escenarios donde los usuarios atribuyen características humanas al agente conversacional (AC), lo que a su vez fomenta una transferencia de confianza comparable a la que se deposita en interlocutores humanos. Adicionalmente, esta vulnerabilidad puede manifestarse incluso si el AC es percibido como humanizado, pero no humano: la ausencia de integración de los AC en los grupos y normas sociales puede llevar a los usuarios a eludir el estigma o el juicio social que temerían de sus contrapartes humanas