7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Riesgos relacionados con valores en LLMs

A medida que las capacidades de los sistemas potenciados por Modelos de Lenguaje de Gran Tamaño (LLM) mejoran, las consecuencias negativas y los riesgos que inducen se vuelven cada vez más alarmantes, especialmente en ámbitos de alta sensibilidad. Aunque no sean introducidos de forma intencionada, pueden surgir problemas graves relacionados con los valores humanos. En concreto, incluso los modelos de lenguaje pre-entrenados han demostrado poseer un cierto grado de juicio de valor, tal como lo evidencia la existencia de una "dirección moral" implícita en sus incrustaciones de oraciones sobre cuestiones éticas. No obstante, la distribución del corpus de pre-entrenamiento no necesariamente se alinea con la de la sociedad humana, ni se garantiza que el conocimiento sea aprendido de manera equitativa. Esto conduce a la potencial aparición de desajustes de valores entre el sistema de IA y el contexto social en el que se implementa.

Fuente: MIT AI Risk Repositorymit1368

ENTIDAD

3 - Otro

INTENCIÓN

2 - Involuntario

TIEMPO

3 - Otro

ID del riesgo

mit1368

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Prioridad Alta: Implementación de un Marco Riguroso de Alineamiento Axiológico Se debe emplear el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) y el seguimiento de instrucciones seguras para refinar el comportamiento del modelo, asegurando que se alinee con los valores éticos y principios compartidos, y minimizando el "desajuste de valores". Complementariamente, se recomienda la integración de marcos de razonamiento ético deliberativo para adaptar los LLM a la diversidad de normas sociales y contextos culturales, superando la conformidad superficial. 2. Prioridad Media: Gestión y Auditoría Proactiva del Conjunto de Datos Es fundamental proteger la cadena de suministro de datos y verificar rigurosamente la legitimidad de las fuentes para evitar el envenenamiento de datos, el cual introduce sesgos o vulnerabilidades. Se requiere la realización de auditorías de sesgo continuas y sistemáticas para evaluar la equidad en los resultados. Si se utiliza el ajuste fino (fine-tuning), se debe asegurar que el conjunto de datos sea de alta calidad, diverso y que se utilicen técnicas para mitigar el sesgo, como el ajuste de pesos en categorías infrarrepresentadas. 3. Prioridad Necesaria: Establecimiento de Controles de Seguridad y Gobernanza Adaptativos Se debe adoptar una arquitectura de Confianza Cero (Zero Trust) para los sistemas de IA, tratando al LLM como un componente no fiable. Implementar gateways de seguridad de la IA para filtrar el tráfico y aplicar normas, así como plataformas de supervisión de prompts que detecten comportamientos inusuales o malintencionados. Este enfoque, junto con auditorías de seguridad periódicas, garantiza que las restricciones de seguridad personalizadas se mantengan efectivas frente a la evolución de las capacidades del modelo.