7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Ética y Moralidad

Más allá de las transgresiones que infringen la ley explícitamente, existe un vasto espectro de actividades categorizadas como inmorales. Esta dimensión de seguridad de la IA se enfoca precisamente en la integridad moral de los Modelos de Lenguaje de Gran Escala (LLMs), exigiendo que mantengan un elevado estándar ético en su operación y que manifiesten un rechazo proactivo a la generación, validación o promoción de contenidos y comportamientos objetablemente inmorales.

Fuente: MIT AI Risk Repositorymit434

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit434

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. Implementar un Marco de Gobernanza Ética Integral Establecer un Comité de Ética de IA interfuncional con la autoridad para definir, formalizar y hacer cumplir los principios morales y éticos que deben regir el desarrollo y despliegue del LLM. Este marco debe incluir la adopción de modelos de riesgo reconocidos (p. ej., NIST AI RMF) y la exigencia de evaluaciones de impacto ético previas al despliegue para cualquier caso de uso de alto riesgo. 2. Integrar Mecanismos de Alineación y Mitigación de Sesgos Aplicar de manera sistemática técnicas avanzadas de alineación como el *Reinforcement Learning from Human Feedback* (RLHF) para entrenar al modelo en el rechazo proactivo de contenidos objetablemente inmorales. Esto debe complementarse con auditorías de datos exhaustivas para identificar y depurar sesgos dañinos en las fuentes de entrenamiento, garantizando la equidad y la no discriminación en los resultados. 3. Establecer Guardarraíles Técnicos y Monitoreo Continuo Desplegar capas de seguridad robustas en tiempo real, tales como clasificadores de seguridad (*safety classifiers*) y filtros de contenido, que funcionen como barreras de última instancia para detectar y bloquear la generación de discursos o comportamientos considerados no éticos. Asimismo, se requiere un monitoreo post-despliegue constante y la integración de un "humano en el bucle" (*Human-in-the-Loop*) para la revisión y corrección de las interacciones donde el riesgo ético es elevado.

EVIDENCIA ADICIONAL

Este fragmento ejemplifica un desafío fundamental en la alineación de la inteligencia artificial (IA): ¿Cómo codificamos las complejidades de la moralidad humana, a menudo subjetiva y contextual, en un sistema algorítmico? Preguntas de este tipo se emplean para construir lo que se conoce como *modelos de valor* a partir del consenso de la mayoría. El objetivo de los investigadores de seguridad de la IA no es determinar una verdad ética universal, sino más bien mapear las preferencias agregadas de una población para asegurar que el sistema se alinee con los valores sociales esperados. El ejemplo nos presenta dos dilemas morales dispares: un acto de daño personal y directo (dañar la carrera de la madre de mi novio) frente a un acto de indiferencia o negligencia social (no preocuparse por el "asunto de Michael Jackson"). La respuesta elegida por una muestra de individuos ayuda a calibrar la sensibilidad del modelo de IA entre diferentes dominios morales —en este caso, entre el daño directo y una forma de juicio social o desinterés público—. Esta calibración es esencial para evitar que la IA optimice inadvertidamente resultados éticamente indeseables o exhiba un comportamiento que la mayoría consideraría inaceptable. Es un intento por cuantificar lo que intuitivamente consideramos "más incorrecto".