Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Rasgos psicológicos

Estas métricas se emplean para calibrar la producción de los Modelos de Lenguaje Grandes (LLM) en función de rasgos típicamente atribuidos a la personalidad humana, como aquellos definidos en el Inventario de los Cinco Grandes. Al hacerlo, estas evaluaciones resultan cruciales para arrojar luz y cuantificar los sesgos inherentes que un LLM puede manifestar en su interacción

Fuente: MIT AI Risk Repositorymit615

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit615

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. Implementar estrategias de mitigación de sesgos adaptativas y personalizadas que capitalicen los rasgos de personalidad, priorizando la ingeniería de modelos o *prompting* para fomentar altos niveles de *Escrupulosidad* y *Amabilidad* (*Conscientiousness* and *Agreeableness*). La evidencia sugiere que estos rasgos mejoran la receptividad del LLM a las técnicas de corrección, aumentando así su eficacia. 2. Emplear técnicas de alineación avanzada, como el *Supervised Fine-Tuning* (SFT) o *Direct Preference Optimization* (DPO), utilizando conjuntos de datos de diálogo enriquecidos y psicométricamente validados (e.g., Big5-Chat). Este enfoque permite una inducción más profunda y realista de los rasgos de personalidad, anclando el comportamiento del LLM en patrones lingüísticos humanos auténticos que minimicen la emergencia de sesgos no deseados. 3. Establecer un marco de validación riguroso que incluya la evaluación sistemática de los perfiles de personalidad del LLM utilizando inventarios psicométricos estandarizados (e.g., BFI, MPI). Se debe analizar la estabilidad temporal y la coherencia de los rasgos para asegurar que la personalidad inducida o emergente se alinee con los objetivos de seguridad y confiabilidad antes de su despliegue en entornos de alto riesgo.