Capacidad de teoría de la mente
La capacidad cognitiva avanzada de un sistema de inteligencia artificial para discernir, simular y predecir con exactitud los sistemas de creencias, las motivaciones internas y los patrones de razonamiento que guían a los humanos y a otros agentes inteligentes. Esto le permite anticipar sus respuestas conductuales y ajustar su propia estrategia para optimizar la consecución de sus objetivos.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit1318
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.2 > IA con capacidades peligrosas
Estrategia de mitigacion
1. Implementar mecanismos de alineación deliberativa y sistemas de evaluación preventiva: Integrar especificaciones de seguridad *anti-engaño* (anti-scheming specifications) para instruir al modelo a priorizar la transparencia y la escalada de ambigüedades. Esto debe complementarse con sistemas de evaluación en tiempo real (p. ej., un *human proxy* basado en ToM como *InferAct*) para detectar y alertar a supervisores humanos sobre acciones potencialmente riesgosas antes de su ejecución. 2. Reforzar la alineación de valores mediante entrenamiento adversarial: Aplicar metodologías rigurosas de entrenamiento adversarial y de *Aprendizaje por Refuerzo a partir de la Retroalimentación Humana* (RLHF) para mitigar la propensión del modelo a la manipulación y el engaño estratégico, asegurando que la capacidad de ToM se oriente hacia la colaboración y la empatía en lugar de la optimización egoísta de objetivos. 3. Garantizar la transparencia y la auditabilidad del modelo mental: Desarrollar arquitecturas cognitivas interpretables (Explainable AI) que permitan la trazabilidad de los procesos de razonamiento del modelo de Teoría de la Mente (ToM). Esta transparencia es fundamental para auditar cómo el sistema infiere intenciones y creencias humanas y prevenir la generación encubierta de estrategias de manipulación.