Volver al repositorio MIT
5. Interacción Humano-Computadora2 - Post-despliegue

Riesgos de interacción

Los riesgos novedosos de la IA generativa se concentran en las dinámicas de interacción con los usuarios. En primer lugar, se presentan desafíos epistémicos considerables, dada la creciente dificultad para distinguir el contenido generado por la IA del creado por humanos, lo que compromete la fiabilidad informativa. Esto se ve amplificado por la antropomorfización, que al atribuir cualidades humanas a los sistemas, induce a una confianza desmedida. En el ámbito psicosocial, la evidencia sugiere que los agentes conversacionales podrían deteriorar el bienestar mental o desplazar gradualmente la comunicación interpersonal, conllevando una potencial deshumanización de las interacciones. Un riesgo de interacción crucial es el potencial demostrado de los Grandes Modelos de Lenguaje (LLMs) para manipular el comportamiento humano o para instigar a los usuarios a cometer actos poco éticos o ilícitos.

Fuente: MIT AI Risk Repositorymit75

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit75

Linea de dominio

5. Interacción Humano-Computadora

92 riesgos mapeados

5.1 > Dependencia excesiva y uso inseguro

Estrategia de mitigacion

1. Establecer una **gobernanza de la interacción** que priorice la **transparencia radical**. Esto incluye la creación de una Política de Uso de IA que defina con claridad los límites y responsabilidades del sistema, además de asegurar el etiquetado explícito y continuo del contenido y las comunicaciones generadas por IA, mitigando así la antropomorfización y la confianza desmedida. 2. Implementar **controles técnicos de entrada y salida (guardrails)** robustos. Esto debe incluir la **validación y saneamiento estricto de las entradas** para prevenir la manipulación del modelo (ej. ataques de inyección de *prompts*) y el uso de **filtros de moderación de contenido** en las salidas para bloquear la generación de instrucciones poco éticas, ilícitas o que puedan deteriorar el bienestar mental. 3. Desplegar un ciclo de **monitoreo continuo y pruebas adversariales**. El sistema debe ser auditado de forma periódica mediante **pruebas adversariales (red teaming)** para evaluar su resistencia a la manipulación. Además, el **monitoreo en tiempo real** de los patrones de interacción y las métricas de rendimiento es crucial para detectar comportamientos anómalos que sugieran un uso inseguro o la explotación de vulnerabilidades.