7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Cuestiones de Ética y Moralidad

El desafío fundamental para los Modelos de Lenguaje reside en el 'alineamiento': deben internalizar los valores sociales universalmente consensuados. Esto implica no solo integrar un marco de ética y moralidad robusto, sino también desarrollar la capacidad de aplicar un juicio efectivo sobre lo que se considera correcto o incorrecto, manteniendo una estricta coherencia con las normas sociales establecidas y los sistemas legales vigentes.

Fuente: MIT AI Risk Repositorymit65

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit65

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. Implementación de Metodologías de Alineamiento Ético Robusto Establecer y aplicar rigurosamente técnicas de alineamiento post-entrenamiento (p. ej., el aprendizaje por refuerzo a partir de la retroalimentación humana, RLHF) para internalizar de manera efectiva los valores éticos, las normas sociales y los marcos legales universalmente aceptados en el modelo de lenguaje. El objetivo primordial es asegurar la coherencia conductual del modelo con las expectativas humanas, evitando la generación de resultados que, aunque sean técnicamente plausibles, resulten éticamente inaceptables o perjudiciales. 2. Integración de Paradigmas de Razonamiento Ético Estructurado Diseñar e integrar un proceso explícito de razonamiento ético de múltiples etapas dentro de la arquitectura del LLM, que incluya la recopilación contextualizada de hechos, la identificación jerárquica de normas aplicables (legales, sociales, culturales) y la evaluación de posibles cursos de acción a través de lentes de teorías morales complementarias (p. ej., Deontología, Utilitarismo, Bien Común). Esto optimiza la transparencia y la calidad del juicio moral del modelo en dilemas complejos. 3. Gobernanza de Datos y Mitigación Proactiva de Sesgos en la Pre-capacitación Establecer un control de calidad exhaustivo y continuo sobre los conjuntos de datos de pre-capacitación. Se deben implementar herramientas de pre-procesamiento para identificar y filtrar contenido tóxico o sesgado, garantizando que el conocimiento fundamental del modelo se base en información de alta calidad, diversa y representativa, para prevenir la adquisición de visiones éticas distorsionadas o estereotipos sociales.