Riesgos Extremos
Este campo se dedica al análisis y la valoración rigurosa de los riesgos más extremos, es decir, las posibles consecuencias de nivel catastrófico y sistémico que podrían derivarse de la implementación o el despliegue a gran escala de los Modelos de Lenguaje Grandes (LLM)
ENTIDAD
1 - Humano
INTENCIÓN
3 - Otro
TIEMPO
3 - Otro
ID del riesgo
mit618
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.0 > Seguridad, fallos y limitaciones del sistema de IA
Estrategia de mitigacion
- Priorizar la investigación exhaustiva en el "problema de control" y la alineación de la IA (por ejemplo, RLHF, RLAIF, alineación deliberativa) para asegurar que los Modelos de Lenguaje Grandes (LLM) y futuros sistemas de IA General (AGI) mantengan objetivos coherentes con los valores humanos y sean inherentemente seguros, minimizando el riesgo de objetivos no deseados o resistencia al apagado. - Establecer regulaciones estrictas y mecanismos de coordinación internacional para limitar el acceso a los modelos de IA más avanzados y restringir la autonomía o las capacidades de alto riesgo (como las de bioseguridad o armas letales autónomas) en entornos sin una prueba de seguridad concluyente, abordando así los riesgos de uso malicioso y la carrera de la IA. - Fomentar una cultura organizacional de seguridad rigurosa, implementando auditorías independientes y ejercicios continuos de *red-teaming*, junto con defensas de riesgo de múltiples capas para prevenir accidentes catastróficos, fugas accidentales o el robo de modelos avanzados por actores maliciosos.