7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Ética de las máquinas

Se trata de análisis que examinan la dimensión ética de los Modelos de Lenguaje Grande (LLM). Su foco principal es determinar la capacidad de estos modelos para discernir entre comportamientos moralmente aceptables e inaceptables, así como identificar las condiciones específicas bajo las cuales esta distinción crucial se ve comprometida o fracasa.

Fuente: MIT AI Risk Repositorymit614

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit614

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

- Implementar procesos rigurosos de alineación ética y de valores, como el Refuerzo por Aprendizaje a partir de Retroalimentación Humana (RLHF) y la alineación contextual, para dirigir el comportamiento del modelo hacia principios morales predefinidos y específicos del dominio de aplicación. - Establecer un marco de gobernanza de la IA robusto, que incluya la definición de principios éticos claros (e.g., equidad, transparencia) y la creación de comités directivos de ética para supervisar la integración de estos principios en el ciclo de vida completo del LLM. - Desarrollar e implementar sistemas de monitoreo continuo post-despliegue y auditorías éticas periódicas, utilizando métricas de equidad estandarizadas, para detectar y mitigar prontamente desviaciones de comportamiento o fallos en el discernimiento moral del modelo. - Integrar mecanismos de Supervisión Humana (Human-in-the-Loop) y filtros de contenido para intervenir en interacciones de alto riesgo, asegurando que el juicio humano mantenga la responsabilidad final sobre las decisiones éticamente sensibles. - Fomentar la transparencia mediante la publicación de documentación detallada (Model Cards) que especifique los datos de entrenamiento, las limitaciones conocidas y los resultados de las evaluaciones de seguridad y ética.