Volver al repositorio MIT
4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Usos Maliciosos

Perjuicios derivados de la utilización deliberada de modelos de lenguaje por parte de actores externos con la intención explícita de generar consecuencias negativas

Fuente: MIT AI Risk Repositorymit244

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit244

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.0 > Uso malicioso

Estrategia de mitigacion

1. Implementar una rigurosa validación y sanitización de entradas (prompts) y salidas (outputs), tanto en preprocesamiento como en postprocesamiento, para neutralizar comandos maliciosos y prevenir la propagación de contenido dañino o código ejecutable a sistemas posteriores. 2. Establecer un programa continuo de 'Red Teaming' y pruebas de penetración adversarias para descubrir y mitigar proactivamente vulnerabilidades específicas del modelo, como el 'jailbreaking', utilizando estos hallazgos para reforzar los mecanismos de alineación de seguridad (e.g., RLHF). 3. Aplicar el principio de mínimo privilegio y control de acceso basado en roles (RBAC) para limitar la interacción del modelo con datos sensibles y sistemas de *backend*, y utilizar entornos aislados (*sandboxing*) para la ejecución de código o la integración de herramientas externas.

EVIDENCIA ADICIONAL

Los Modelos de Lenguaje (ML) tienen el potencial de amplificar significativamente la capacidad de un individuo para causar daño intencional al automatizar la generación de código o texto altamente dirigido. Un ejemplo crucial es la reducción de los costos operativos en las campañas de desinformación. Es vital distinguir aquí: la desinformación es información falsa producida con la intención explícita de engañar, mientras que la "misinformación" es falsa pero carece de ese propósito malicioso subyacente. Adicionalmente, los ML pueden facilitar una manipulación mucho más segmentada y dirigida a individuos o colectivos específicos.