Mal uso de técnicas de interpretabilidad
Las técnicas de interpretabilidad, si bien esenciales para una comprensión profunda de los modelos de IA, conllevan inherentemente un riesgo de uso malintencionado. El conocimiento íntimo del modelo que estas técnicas proporcionan puede volverse contra la seguridad. Por ejemplo, la *interpretabilidad mecanicista* podría emplearse para identificar y aislar las "neuronas" o componentes internos responsables de funciones específicas. Esto abre la puerta a la manipulación: las características de seguridad del modelo (aquellas codificadas para prevenir riesgos) podrían ser degradadas intencionalmente, ya sea disminuyendo la activación de las neuronas protectoras o censurando información clave. Adicionalmente, esta introspección profunda facilita la simulación de un *ataque de caja blanca*, un escenario donde el conocimiento de los mecanismos internos de un modelo simplifica drásticamente el desarrollo de *ataques adversarios* altamente efectivos, diseñados para manipular o engañar a la inteligencia artificial.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit1008
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementación de Entrenamiento Adversario y Robustez Intrínseca Fortalecer el modelo contra ataques de caja blanca (facilitados por las técnicas de interpretabilidad) mediante el uso sistemático de entrenamiento adversario y técnicas de extracción de características robustas. Esto incrementa la resiliencia del sistema al exponerlo a ejemplos manipulados, dificultando la explotación de vulnerabilidades internas para alterar su comportamiento. 2. Despliegue de Estrategias de Defensa Conscientes de la Interpretabilidad (Interpretability-Aware Defenses) Desarrollar y aplicar metodologías de defensa que utilicen la interpretabilidad de manera protectora. Esto incluye la ingeniería de arquitecturas y protocolos que promuevan la interpretación robusta y el uso de métricas de discrepancia de interpretación para identificar y contrarrestar ataques que buscan manipular o "engañar" las características internas de seguridad del modelo. 3. Aplicación de Controles de Acceso y Obfuscación de Salida Limitar la exposición de los mecanismos internos y los datos sensibles del modelo, implementando controles de ciberseguridad robustos para la infraestructura de IA. Esto se materializa a través de la restricción de la granularidad de las salidas de la API y el establecimiento de tasas límite de consulta para mitigar el riesgo de *reverse engineering* y los ataques de extracción de modelos que se basan en el conocimiento íntimo del sistema.