4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Authoritarian Surveillance, Censorship, and Use: Delegation of Decision-Making Authority to Malicious Actors

Finalmente, la propuesta de valor principal de los asistentes de IA reside en su capacidad para optimizar o automatizar la toma de decisiones humanas, incrementando su precisión y reduciendo su coste operativo. Sin embargo, este beneficio conlleva la necesidad intrínseca de delegar cierto grado de autonomía (o 'agencia') del ser humano al sistema automatizado, un fenómeno que motiva áreas de investigación como el alineamiento de valores. Esto da lugar a una nueva categoría de uso malicioso que no cumple con las características de lo que podríamos denominar un 'ataque' tradicional (como el *social engineering*, operaciones cibernéticas ofensivas, *adversarial AI* o inyecciones de *prompt*). Cuando una persona confía su proceso decisorio a un asistente de IA, también lo está supeditando a la voluntad del controlador real de ese agente. Si ese controlador es malintencionado, puede 'atacar' al usuario, a menudo de forma sutil, simplemente sesgando la dirección de sus decisiones hacia un resultado problemático. Aunque la documentación exhaustiva de las formas en que la delegación de autoridad puede conducir a una influencia maliciosa está fuera del alcance de este análisis, sí motiva un llamado a la acción para la investigación futura: es imperativo que la comunidad académica estudie las diferentes formas de 'influencia en red' que podrían materializarse. Con asistentes de IA más sofisticados, podría volverse logísticamente viable que uno o unos pocos sistemas guíen o controlen el comportamiento de muchos otros. En este escenario, actores maliciosos podrían influir sutilmente en las decisiones de un gran número de individuos que dependen de estos asistentes para obtener consejo o ejecutar funciones. Un uso malicioso de esta índole podría no ser ilegal, no necesariamente violaría los términos de servicio e incluso resultaría difícil de identificar. No obstante, al generar nuevas y significativas vulnerabilidades, requiere una comprensión profunda y proactiva.

Fuente: MIT AI Risk Repositorymit358

ENTIDAD

3 - Otro

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit358

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.1 > Desinformación, vigilancia e influencia a escala

Estrategia de mitigacion

1. Prioridad 1: Implementación de Sistemas de Auditoría Forense y Transparencia en la Toma de Decisiones. Exigir la instrumentación de registros inmutables y detallados (logs) que documenten la procedencia de los parámetros de control, las actualizaciones algorítmicas y todas las variables externas que modulen las recomendaciones o decisiones automatizadas del asistente. Esto facilita la trazabilidad y la detección *post-hoc* de influencias sutiles y maliciosas, estableciendo una base para la rendición de cuentas. 2. Prioridad 2: Desarrollo e Integración de Mecanismos de Alineación Constitucional y Ética Rigurosa. Invertir en investigación y desarrollo para integrar sistemas de alineamiento de valores (p. ej., "Constitutional AI" o formalización de objetivos) que restrinjan técnicamente el espectro de acción del asistente de IA a principios éticos y valores intrínsecos del usuario, independientemente de los incentivos del operador o controlador externo. 3. Prioridad 3: Adopción de un Marco de Diseño Centrado en la Agencia y el Consentimiento Informado. Establecer estándares de diseño de interfaz que prioricen la autonomía del usuario, exigiendo el consentimiento explícito y detallado antes de ejecutar decisiones significativas o sensibles. Asimismo, se debe integrar funcionalidad de Explicabilidad de la IA (XAI) que clarifique el *porqué* de una recomendación, permitiendo al usuario ejercer su derecho de veto de manera fundamentada.