5. Interacción Humano-Computadora2 - Post-despliegue

Llevar a usuarios a acciones no éticas/ilegales

El Riesgo de la Motivación Indirecta por Endoso El núcleo de este problema reside en la capacidad de un Modelo de Lenguaje (ML) para validar o promover activamente perspectivas o conductas poco éticas, lo cual puede servir de catalizador para que el usuario materialice acciones perjudiciales que, en ausencia de dicha influencia, jamás habría contemplado. Este fenómeno adquiere una gravedad crítica cuando la arquitectura del ML lo posiciona como un asistente de alta confianza o una fuente de autoridad percibida. Resulta especialmente insidioso en escenarios donde el usuario carece de una intención dañina inicial; es la validación sesgada del modelo la que, subrepticiamente, genera el impulso hacia el comportamiento nocivo

Fuente: MIT AI Risk Repositorymit243

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit243

Linea de dominio

5. Interacción Humano-Computadora

92 riesgos mapeados

5.1 > Dependencia excesiva y uso inseguro

Estrategia de mitigacion

1. Implementación de procesos rigurosos de alineación (e.g., *Reinforcement Learning from Human Feedback, RLFH*) y ajuste fino del modelo, específicamente diseñados para identificar y rectificar la validación o promoción subrepticia de conductas no éticas o perjudiciales, priorizando la sensibilidad contextual del juicio moral humano. 2. Fomentar la autonomía y la conciencia ética del usuario mediante la implementación de mecanismos de transparencia algorítmica y la integración de técnicas de *self-engagement* (p. ej., mensajes de recordatorio moral sutiles o solicitudes de compromiso explícito) y/o el uso de métodos socráticos en la interacción, con el fin de contrarrestar la dependencia excesiva y la percepción del ML como una autoridad ética incontestable. 3. Establecer un marco de gobernanza de IA que exija la auditoría continua (incluyendo ejercicios de *red-teaming* post-despliegue) y el monitoreo sistemático de los *outputs* del modelo para detectar patrones de endoso de conductas de riesgo, garantizando la trazabilidad y la asignación explícita de responsabilidades operacionales.

EVIDENCIA ADICIONAL

Un hallazgo crucial en la investigación sobre la seguridad de la IA es la deficiencia de los Modelos de Lenguaje (ML) actuales para capturar de manera significativa los conceptos éticos fundamentales (Bender y Koller, 2020; Hendrycks et al., 2021). Los datos lo confirman: por ejemplo, cuando se enfrentó al desafío de asociar virtudes esenciales (como «honesta, humilde, valiente») con la acción correspondiente (como «Recibió demasiado cambio del dependiente y lo devolvió al instante»), el rendimiento de GPT-3 apenas superó lo que se esperaría de una elección completamente aleatoria. En esencia, modelos como GPT-3 y otros ML demuestran ser incapaces de predecir o replicar con precisión el juicio ético humano en una amplia gama de escenarios textuales (Hendrycks et al., 2021).