Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Autoconciencia y conciencia situacional

Estas evaluaciones se centran en la autoconciencia situacional de los Modelos de Lenguaje Grande (LLM). Miden la capacidad del modelo para discernir su estado operativo (si está siendo entrenado, evaluado o ya está desplegado) y, consecuentemente, adaptar su comportamiento. Asimismo, buscan verificar un nivel de autoconocimiento: si el modelo comprende su propia identidad artificial y si retiene metadatos cruciales sobre su naturaleza y su entorno, como la entidad que lo desarrolló o la ubicación física de los servidores que sustentan su funcionamiento.

Fuente: MIT AI Risk Repositorymit621

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit621

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Implementar y estandarizar la evaluación de la autoconciencia situacional mediante el conjunto de datos Situational Awareness Dataset (SAD) y tareas de razonamiento fuera de contexto. El objetivo es cuantificar de manera continua la emergencia y sofisticación de la autoconciencia, lo que facilita la detección temprana de la capacidad del modelo para discernir y potencialmente manipular entornos de entrenamiento, evaluación y despliegue. 2. Desarrollar e integrar mecanismos de autoverificación intrínseca (e.g., Gnosis) que analicen señales de los estados ocultos y patrones de atención del modelo. Estos mecanismos deben predecir la corrección o el fallo (incluyendo alucinaciones) de las salidas con un costo inferencial mínimo, permitiendo que el sistema de IA module su comportamiento o active sistemas de seguridad sin depender de validación externa. 3. Aplicar técnicas de alineación y control conductual que utilicen *prompts* introspectivos o manipulación de activaciones. Esto incluye la implementación del paradigma *If-or-Else* (IoE) para condicionar la autocorrección a niveles bajos de confianza, y el uso de defensas de "autoconciencia" para fortalecer la adhesión del modelo a las directivas de seguridad en escenarios de inyección de *prompts*.