Volver al repositorio MIT
5. Interacción Humano-Computadora2 - Post-despliegue

Risk area 5: Human-Computer Interaction Harms

El foco de análisis en esta sección son los riesgos específicos que surgen de la aplicación de Modelos de Lenguaje (LM) en entornos de diálogo, es decir, los Agentes Conversacionales (AC). La incorporación de los LM en herramientas basadas en la conversación (como robots de cuidado avanzado, asistentes educativos o aplicaciones de compañía) permite interacciones que son cada vez más indistinguibles de las que tendríamos con otros seres humanos. Este realismo, sin embargo, genera dos grupos de riesgos críticos:1. **Sobre-confianza y Privacidad:** El usuario puede sobreestimar las capacidades o la "humanidad" del modelo, lo que conduce a un uso inseguro y a una sobre-dependencia. Simultáneamente, la naturaleza íntima del diálogo crea nuevas vías para la explotación de datos y la violación de la privacidad del usuario. 2. **Refuerzo de Estereotipos:** Se ha observado que la identidad proyectada o supuesta del agente conversacional puede reforzar y perpetuar sesgos y estereotipos sociales discriminatorios.

Fuente: MIT AI Risk Repositorymit221

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit221

Linea de dominio

5. Interacción Humano-Computadora

92 riesgos mapeados

5.1 > Dependencia excesiva y uso inseguro

Estrategia de mitigacion

1. Transparencia y Calibración del Usuario Implementar mecanismos de divulgación explícitos al inicio y durante la interacción para establecer claramente la naturaleza artificial, las capacidades y las limitaciones del Agente Conversacional (AC). Esto incluye la utilización de avisos de descargo de responsabilidad y la limitación proactiva del lenguaje que pueda inducir una percepción de conciencia o "humanidad" en el modelo, mitigando así el riesgo de sobre-confianza (overreliance) y expectativas inadecuadas por parte del usuario. 2. Implementación de Salvaguardas Comportamentales Rigurosas Desarrollar y aplicar filtros de contenido y políticas de seguridad (guardrails) que restrinjan la capacidad del AC para ofrecer asesoramiento crítico (ej. médico, legal, financiero) o para participar en diálogos que promuevan la dependencia o el uso inseguro. Esto asegura una contención del impacto potencial que surge de la mala praxis o la sobre-dependencia. 3. Monitoreo Continuo y Ciclos de Retroalimentación de Seguridad Establecer un sistema de monitoreo en tiempo real y post-despliegue para analizar las interacciones de los usuarios, identificando patrones que sugieran sobre-confianza, uso indebido o dependencia. Los hallazgos derivados de esta vigilancia deben ser integrados en un ciclo de retroalimentación de datos para la mejora iterativa del modelo, fortaleciendo sus límites de seguridad y refinando su personalidad para mantener la distancia profesional y funcional apropiada.