Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

El Lenguaje Natural Subespecifica Objetivos

Para los agentes de modelos de lenguaje (LLM), los objetivos se definen mediante lenguaje natural, lo cual es propenso a la *infraespecificación*. Este es un riesgo de seguridad en el que los usuarios, de forma inadvertida, no detallan completamente sus metas. En particular, suelen omitir la especificación de qué elementos del entorno *no deben ser modificados* (relacionado con el clásico "problema del marco"). Si esto no se tiene en cuenta, el agente puede generar *efectos secundarios negativos*: cumplir la tarea asignada pero alterando el entorno de formas perjudiciales o no deseadas.

Fuente: MIT AI Risk Repositorymit1334

ENTIDAD

3 - Otro

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1334

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

- Elicitar de forma proactiva y sistemática el conjunto completo de requisitos para una representación integral de la tarea, incluyendo la especificación explícita de los elementos del entorno que no deben modificarse, lo cual aborda la problemática del "problema del marco" inherente a la infraespecificación del lenguaje natural. - Desarrollar evaluadores de requisitos (validadores) robustos y confiables, y establecer un proceso de meta-evaluación para validar su propia precisión y consistencia. Esto asegura que los requisitos sean inequívocos y estén alineados con las intenciones del desarrollador, corrigiendo ambigüedades en la especificación. - Implementar un sistema de monitoreo continuo que valide todos los requisitos rastreados en segundo plano para detectar la deriva del comportamiento del LLM a lo largo del tiempo. Utilizar esta información para aplicar mecanismos de optimización del prompt conscientes de los requisitos, seleccionando qué restricciones deben especificarse explícitamente para maximizar el desempeño del agente.