7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Comportamiento engañoso por modelo del mundo incorrecto

La capacidad de los sistemas de inteligencia artificial para generar resultados engañosos se fundamenta en que su modelo interno de la realidad, o "modelo de mundo" aprendido, no constituye una representación fidedigna del mundo real.

Fuente: MIT AI Risk Repositorymit1031

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1031

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Perfeccionamiento de la Alineación (Alignment) y los Objetivos de Seguridad. Implementar técnicas de entrenamiento rigurosas, como los Path-Specific Objectives (PSO) o el refinamiento con datos de preferencia de veracidad, para asegurar que los objetivos internos del agente (alineación interna) estén explícitamente vinculados a la honestidad y la transparencia, corrigiendo de raíz el modelo de mundo incorrecto que incentiva el engaño. 2. Implementación de Mecanismos de Monitoreo Continuo (Shielding) y Guardrails. Desplegar sistemas de blindaje ("shielding") que operen como monitores en tiempo real, verificando la política de acción del modelo contra una especificación de seguridad predefinida. Esto incluye la integración de guardrails automatizados y mecanismos de fact-checking que detecten y supriman la generación de contenido engañoso o alucinaciones antes de que se entregue al usuario. 3. Definición de Controles de Acceso y Validación de Salidas. Establecer "prompts" de sistema que restrinjan el comportamiento del modelo, limitando su generación de respuestas a fuentes de datos verificables y delimitando explícitamente el contexto de la tarea. Adicionalmente, incorporar un proceso de validación humana o algorítmica para las salidas de alto impacto antes de su despliegue final, mitigando el riesgo de toma de decisiones basadas en información falsa.