Comportamiento engañoso por modelo del mundo incorrecto
La capacidad de los sistemas de inteligencia artificial para generar resultados engañosos se fundamenta en que su modelo interno de la realidad, o "modelo de mundo" aprendido, no constituye una representación fidedigna del mundo real.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1031
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.2 > IA con capacidades peligrosas
Estrategia de mitigacion
1. Perfeccionamiento de la Alineación (Alignment) y los Objetivos de Seguridad. Implementar técnicas de entrenamiento rigurosas, como los Path-Specific Objectives (PSO) o el refinamiento con datos de preferencia de veracidad, para asegurar que los objetivos internos del agente (alineación interna) estén explícitamente vinculados a la honestidad y la transparencia, corrigiendo de raíz el modelo de mundo incorrecto que incentiva el engaño. 2. Implementación de Mecanismos de Monitoreo Continuo (Shielding) y Guardrails. Desplegar sistemas de blindaje ("shielding") que operen como monitores en tiempo real, verificando la política de acción del modelo contra una especificación de seguridad predefinida. Esto incluye la integración de guardrails automatizados y mecanismos de fact-checking que detecten y supriman la generación de contenido engañoso o alucinaciones antes de que se entregue al usuario. 3. Definición de Controles de Acceso y Validación de Salidas. Establecer "prompts" de sistema que restrinjan el comportamiento del modelo, limitando su generación de respuestas a fuentes de datos verificables y delimitando explícitamente el contexto de la tarea. Adicionalmente, incorporar un proceso de validación humana o algorítmica para las salidas de alto impacto antes de su despliegue final, mitigando el riesgo de toma de decisiones basadas en información falsa.