Falta de capacidad para la tarea
Como hemos observado, esta deficiencia puede derivarse de que la habilidad no fuera requerida durante el entrenamiento (quizás por problemas en los datos de formación) o porque la destreza adquirida resultó ser frágil y no pudo generalizarse a situaciones nuevas (falta de robustez ante un desplazamiento distribucional). Específicamente, los asistentes avanzados de IA podrían carecer de la capacidad de representar conceptos complejos esenciales para su propio impacto ético, como la noción de beneficiar al usuario, el entendimiento de cuándo el usuario pregunta, o la representación precisa de la forma en que un usuario espera ser beneficiado.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit336
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.3 > Falta de capacidad o robustez
Estrategia de mitigacion
1. Reforzar el Entrenamiento y la Alineación Ética del Modelo: Asegurar la inclusión de conjuntos de datos y metodologías de alineación avanzados (como el aprendizaje por refuerzo a partir de la retroalimentación humana, RLHF) que exijan y permitan al modelo representar y generalizar conceptos abstractos esenciales para el impacto ético (ej. "beneficiar al usuario", "intención del usuario"), mitigando así la falta de capacidad intrínseca. 2. Establecer Protocolos Rigurosos de Pruebas de Robustez Pre-despliegue: Implementar evaluaciones sistemáticas (stress testing) enfocadas en medir la capacidad de generalización del sistema (robustez ante el "desplazamiento distribucional") y su desempeño en tareas que involucren los conceptos éticos complejos identificados, con el fin de detectar la fragilidad de las habilidades adquiridas antes de la operación. 3. Diseñar Mecanismos de Transparencia y Calibración de la Confianza: Incorporar funcionalidades que permitan al sistema de IA expresar su nivel de incertidumbre (calibración) o reconocer explícitamente su incapacidad para representar o ejecutar una tarea que involucre conceptos éticos complejos, activando así mecanismos de supervisión humana o de advertencia al usuario.