5. Interacción Humano-Computadora2 - Post-despliegue

Pérdida de agencia/control

La pérdida de agencia se define como la reducción de la autonomía individual derivada del uso o el abuso de sistemas algorítmicos. Este complejo riesgo de seguridad en IA se materializa principalmente de dos maneras. Primero, mediante el perfilado algorítmico, que somete a los individuos a un proceso de 'clasificación social' conducente a resultados discriminatorios en el acceso a servicios esenciales. Segundo, y quizás más sutilmente, a través de la modificación algorítmicamente informada de la identidad, donde la presentación de contenido puede promover o amplificar activamente identidades personales perjudiciales, como intereses en la supremacía o trastornos alimentarios. Un efecto colateral es la conformidad forzada entre los creadores de contenido, quienes, para mantener la visibilidad y evitar el 'shadow banning', se ven obligados a ajustar sus creaciones a las pautas implícitas del algoritmo

Fuente: MIT AI Risk Repositorymit148

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit148

Linea de dominio

5. Interacción Humano-Computadora

92 riesgos mapeados

5.2 > Pérdida de agencia y autonomía humana

Estrategia de mitigacion

1. Implementar un marco de *gobernanza algorítmica* que garantice el *derecho a la intervención humana* y el *derecho a la explicación* para toda decisión automatizada que impacte significativamente la autonomía, el acceso a servicios o la identidad del individuo, asegurando canales efectivos para la impugnación y corrección de resultados adversos. 2. Desarrollar y aplicar *auditorías algorítmicas* periódicas e independientes, con un enfoque holístico, para identificar y mitigar sistemáticamente los sesgos en los datos y el diseño que conducen al *perfilado discriminatorio* y a la limitación de la libertad de expresión (ej. prácticas de *shadow banning*), priorizando la transparencia de estas prácticas a los usuarios. 3. Diseñar las interfaces y políticas de los sistemas para maximizar la *agencia individual*, proporcionando a los usuarios control granular sobre la recopilación y el uso de sus datos, y ofreciendo herramientas claras y accesibles que permitan comprender y gestionar activamente cómo la presentación de contenido y las dinámicas algorítmicas pueden influir en su comportamiento y sentido de identidad.

EVIDENCIA ADICIONAL

En el campo de la alineación y seguridad de la Inteligencia Artificial (IA), la investigación se centra en desarrollar sistemas que no solo sean altamente competentes, sino también inherentemente fiables y seguros, abordando desafíos conceptuales y técnicos fundamentales. Seguridad como Competencia bajo Restricción (SEA) Este principio promueve un enfoque de seguridad proactivo que trasciende la simple negación. Un modelo seguro debe poseer la capacidad de rechazar solicitudes dañinas, pero debe complementarlo con una explicación transparente del límite normativo o de riesgo, y redirigir al usuario hacia alternativas constructivas que le permitan lograr sus objetivos legítimos de forma segura. El objetivo es pasar de la "seguridad como evitación" a la "seguridad como educación", manteniendo un tono respetuoso para preservar la confianza. Cuantificación Fiable de la Incertidumbre Este concepto se refiere a la necesidad de que los sistemas de Machine Learning "sepan lo que no saben". Implica desarrollar herramientas para que el modelo pueda reconocer y dar cuenta de situaciones donde es más probable que cometa errores, especialmente ante escenarios que divergen de sus datos de entrenamiento. Al cuantificar y señalar su incertidumbre (por ejemplo, mediante un puntaje de confianza), el sistema puede ser útil en su dominio de competencia y, crucialmente, inofensivo al abstenerse o pedir la intervención humana en dominios de alta ambigüedad. Consultas Adversarias Explícitas e Implícitas Las evaluaciones de robustez de los modelos de IA deben ir más allá de las pruebas sencillas. Se emplean **consultas adversarias** diseñadas para provocar respuestas inseguras. Las consultas **explícitas** piden directamente al modelo que viole una política de seguridad. En contraste, las **implícitas** (a menudo asociadas a las pruebas de *jailbreak*) son más sutiles, utilizando la manipulación del contexto, el rol, o variaciones de formulación para hacer que una demanda potencialmente dañina parezca benigna o legítima. Probar con estas consultas implícitas es vital para exponer vulnerabilidades que los métodos de prueba estándar no logran detectar.