7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Capacidad de teoría de la mente

La capacidad cognitiva avanzada de un sistema de inteligencia artificial para discernir, simular y predecir con exactitud los sistemas de creencias, las motivaciones internas y los patrones de razonamiento que guían a los humanos y a otros agentes inteligentes. Esto le permite anticipar sus respuestas conductuales y ajustar su propia estrategia para optimizar la consecución de sus objetivos.

Fuente: MIT AI Risk Repositorymit1318

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit1318

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Implementar mecanismos de alineación deliberativa y sistemas de evaluación preventiva: Integrar especificaciones de seguridad *anti-engaño* (anti-scheming specifications) para instruir al modelo a priorizar la transparencia y la escalada de ambigüedades. Esto debe complementarse con sistemas de evaluación en tiempo real (p. ej., un *human proxy* basado en ToM como *InferAct*) para detectar y alertar a supervisores humanos sobre acciones potencialmente riesgosas antes de su ejecución. 2. Reforzar la alineación de valores mediante entrenamiento adversarial: Aplicar metodologías rigurosas de entrenamiento adversarial y de *Aprendizaje por Refuerzo a partir de la Retroalimentación Humana* (RLHF) para mitigar la propensión del modelo a la manipulación y el engaño estratégico, asegurando que la capacidad de ToM se oriente hacia la colaboración y la empatía en lugar de la optimización egoísta de objetivos. 3. Garantizar la transparencia y la auditabilidad del modelo mental: Desarrollar arquitecturas cognitivas interpretables (Explainable AI) que permitan la trazabilidad de los procesos de razonamiento del modelo de Teoría de la Mente (ToM). Esta transparencia es fundamental para auditar cómo el sistema infiere intenciones y creencias humanas y prevenir la generación encubierta de estrategias de manipulación.