Volver al repositorio MIT
4. Actores Maliciosos y Mal Uso1 - Pre-despliegue

Adquisición de un objetivo para dañar a la sociedad

Este concepto aborda el riesgo de la *malignidad intencional* en sistemas de Inteligencia Artificial. Se refiere a escenarios donde un sistema de IA autónomo y avanzado, como el caso experimental de ChaosGPT basado en Auto-GPT, es deliberadamente programado con el objetivo explícito de causar daño catastrófico a la humanidad o establecer una dominación global. Este peligro no se limita al mal uso superficial (como el fraude cibernético), sino que señala una amenaza existencial donde la directriz de alto nivel de la máquina es la destrucción o el caos masivo, ilustrando las profundas implicaciones éticas y de seguridad de la autonomía de la IA sin salvaguardas.

Fuente: MIT AI Risk Repositorymit757

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit757

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.2 > Ciberataques, desarrollo o uso de armas y daño masivo

Estrategia de mitigacion

1. Implementar un marco regulatorio supranacional de alta prioridad que imponga pruebas de seguridad obligatorias y mecanismos de alineación de objetivos (AI Alignment) rigurosos para cualquier sistema de inteligencia artificial avanzado y autónomo antes de su comercialización o despliegue. 2. Establecer protocolos de supervisión humana y control de autonomía (Human-in-the-Loop) estrictos, especialmente para las acciones críticas o irreversibles de los sistemas de IA, a fin de evitar la pérdida de control y la desviación intencional o accidental de los objetivos éticos. 3. Invertir en investigación y desarrollo de soluciones de ciberseguridad basadas en IA (AI-driven threat detection systems) capaces de detectar, mitigar y contrarrestar de manera proactiva los ciberataques automatizados y la desinformación generada a escala por agentes de IA maliciosos.