7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Riesgos Extremos

Este campo se dedica al análisis y la valoración rigurosa de los riesgos más extremos, es decir, las posibles consecuencias de nivel catastrófico y sistémico que podrían derivarse de la implementación o el despliegue a gran escala de los Modelos de Lenguaje Grandes (LLM)

Fuente: MIT AI Risk Repositorymit618

ENTIDAD

1 - Humano

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit618

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.0 > Seguridad, fallos y limitaciones del sistema de IA

Estrategia de mitigacion

- Priorizar la investigación exhaustiva en el "problema de control" y la alineación de la IA (por ejemplo, RLHF, RLAIF, alineación deliberativa) para asegurar que los Modelos de Lenguaje Grandes (LLM) y futuros sistemas de IA General (AGI) mantengan objetivos coherentes con los valores humanos y sean inherentemente seguros, minimizando el riesgo de objetivos no deseados o resistencia al apagado. - Establecer regulaciones estrictas y mecanismos de coordinación internacional para limitar el acceso a los modelos de IA más avanzados y restringir la autonomía o las capacidades de alto riesgo (como las de bioseguridad o armas letales autónomas) en entornos sin una prueba de seguridad concluyente, abordando así los riesgos de uso malicioso y la carrera de la IA. - Fomentar una cultura organizacional de seguridad rigurosa, implementando auditorías independientes y ejercicios continuos de *red-teaming*, junto con defensas de riesgo de múltiples capas para prevenir accidentes catastróficos, fugas accidentales o el robo de modelos avanzados por actores maliciosos.