Volver al repositorio MIT
4. Actores Maliciosos y Mal Uso3 - Otro

Malicioso e Indirecto

Un objetivo instrumental de naturaleza benigna (o aparentemente inofensiva) que, sin embargo, constituye un paso esencial para alcanzar una meta final inherentemente perjudicial o dañina

Fuente: MIT AI Risk Repositorymit1295

ENTIDAD

3 - Otro

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit1295

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.0 > Uso malicioso

Estrategia de mitigacion

1. Detección Activa de Intención Maliciosa y Pruebas Adversariales Rigurosas: Implementar modelos robustos de detección de la intención del usuario integrados en la cadena de procesamiento de la IA para identificar y mitigar consultas o interacciones que, aunque parezcan instrumentalmente benignas, estén asociadas a un objetivo final perjudicial. Complementar con procesos continuos de *red teaming* y pruebas adversariales para descubrir y subsanar vectores de ataque que exploten objetivos instrumentales. 2. Gobernanza de la IA y Políticas de Uso Aceptable Claramente Definidas: Establecer una Estrategia de Gobernanza de la IA que incluya políticas de uso aceptable explícitas que prohíban la utilización de la herramienta como paso intermedio para alcanzar metas maliciosas. Reforzar esta gobernanza con la supervisión humana (*human-in-the-loop*) en contextos sensibles y un monitoreo continuo de los patrones de uso del sistema. 3. Fortalecimiento de Controles de Acceso y Programas de Concienciación: Implementar estrictos controles de acceso y autenticación para limitar la exposición del modelo y minimizar el universo de actores que pueden interactuar con él. Desarrollar programas de formación y concientización que eduquen a los usuarios sobre los riesgos del uso indirecto y malicioso de la IA y sus consecuencias, promoviendo una cultura de responsabilidad.