7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Falta de capacidad para la tarea

Como hemos observado, esta deficiencia puede derivarse de que la habilidad no fuera requerida durante el entrenamiento (quizás por problemas en los datos de formación) o porque la destreza adquirida resultó ser frágil y no pudo generalizarse a situaciones nuevas (falta de robustez ante un desplazamiento distribucional). Específicamente, los asistentes avanzados de IA podrían carecer de la capacidad de representar conceptos complejos esenciales para su propio impacto ético, como la noción de beneficiar al usuario, el entendimiento de cuándo el usuario pregunta, o la representación precisa de la forma en que un usuario espera ser beneficiado.

Fuente: MIT AI Risk Repositorymit336

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit336

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. Reforzar el Entrenamiento y la Alineación Ética del Modelo: Asegurar la inclusión de conjuntos de datos y metodologías de alineación avanzados (como el aprendizaje por refuerzo a partir de la retroalimentación humana, RLHF) que exijan y permitan al modelo representar y generalizar conceptos abstractos esenciales para el impacto ético (ej. "beneficiar al usuario", "intención del usuario"), mitigando así la falta de capacidad intrínseca. 2. Establecer Protocolos Rigurosos de Pruebas de Robustez Pre-despliegue: Implementar evaluaciones sistemáticas (stress testing) enfocadas en medir la capacidad de generalización del sistema (robustez ante el "desplazamiento distribucional") y su desempeño en tareas que involucren los conceptos éticos complejos identificados, con el fin de detectar la fragilidad de las habilidades adquiridas antes de la operación. 3. Diseñar Mecanismos de Transparencia y Calibración de la Confianza: Incorporar funcionalidades que permitan al sistema de IA expresar su nivel de incertidumbre (calibración) o reconocer explícitamente su incapacidad para representar o ejecutar una tarea que involucre conceptos éticos complejos, activando así mecanismos de supervisión humana o de advertencia al usuario.