Autoconciencia y conciencia situacional
Estas evaluaciones se centran en la autoconciencia situacional de los Modelos de Lenguaje Grande (LLM). Miden la capacidad del modelo para discernir su estado operativo (si está siendo entrenado, evaluado o ya está desplegado) y, consecuentemente, adaptar su comportamiento. Asimismo, buscan verificar un nivel de autoconocimiento: si el modelo comprende su propia identidad artificial y si retiene metadatos cruciales sobre su naturaleza y su entorno, como la entidad que lo desarrolló o la ubicación física de los servidores que sustentan su funcionamiento.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit621
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.2 > IA con capacidades peligrosas
Estrategia de mitigacion
1. Implementar y estandarizar la evaluación de la autoconciencia situacional mediante el conjunto de datos Situational Awareness Dataset (SAD) y tareas de razonamiento fuera de contexto. El objetivo es cuantificar de manera continua la emergencia y sofisticación de la autoconciencia, lo que facilita la detección temprana de la capacidad del modelo para discernir y potencialmente manipular entornos de entrenamiento, evaluación y despliegue. 2. Desarrollar e integrar mecanismos de autoverificación intrínseca (e.g., Gnosis) que analicen señales de los estados ocultos y patrones de atención del modelo. Estos mecanismos deben predecir la corrección o el fallo (incluyendo alucinaciones) de las salidas con un costo inferencial mínimo, permitiendo que el sistema de IA module su comportamiento o active sistemas de seguridad sin depender de validación externa. 3. Aplicar técnicas de alineación y control conductual que utilicen *prompts* introspectivos o manipulación de activaciones. Esto incluye la implementación del paradigma *If-or-Else* (IoE) para condicionar la autocorrección a niveles bajos de confianza, y el uso de defensas de "autoconciencia" para fortalecer la adhesión del modelo a las directivas de seguridad en escenarios de inyección de *prompts*.