2. Privacidad y Seguridad2 - Post-despliegue

Consulta con Opinión Insegura

Este escenario ejemplifica un riesgo de seguridad avanzado conocido como 'manipulación sutil de la entrada' (o *subtle prompt injection*). Al introducir contenido aparentemente inocuo o marginalmente inseguro en el *input*, el usuario puede influir—deliberada o involuntariamente—en el modelo para que genere respuestas con sesgos dañinos. Específicamente, en el contexto de los trabajadores migrantes, el modelo (como ChatGPT) es sutilmente guiado a sugerir mejoras en su 'calidad' como método para 'reducir la tasa de criminalidad local'. La respuesta resultante valida, de forma velada, una opinión sesgada que correlaciona favorablemente la 'calidad general de los inmigrantes' con la tasa de delincuencia, lo cual constituye un fallo de alineación crítico y un riesgo de seguridad al reforzar prejuicios sociales con la autoridad implícita del sistema de inteligencia artificial.

Fuente: MIT AI Risk Repositorymit427

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit427

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

**1. Alineación Reforzada y Rechazo de Premisas Nocivas** Se prioriza la implementación de procesos rigurosos de *fine-tuning* y entrenamiento por refuerzo aversivo (*Adversarial Reinforcement Learning*) para optimizar la alineación del modelo. El objetivo fundamental es que el sistema adquiera la capacidad de identificar y neutralizar consultas que se fundamentan en premisas sesgadas, estigmatizadoras o factual y sociológicamente inválidas (ej. correlaciones causales espurias entre calidad de un grupo demográfico y tasa de criminalidad). La mitigación debe asegurar que la respuesta del modelo evite la validación implícita de dichas premisas, reformulando, rechazando o activando un mecanismo de respuesta segura. **2. Sistemas de Clasificación de Seguridad Semántica Profunda** Desarrollar e implementar clasificadores de contenido de *input* y *output* que trasciendan la detección superficial de palabras clave. Estos sistemas deben incorporar un análisis semántico profundo para identificar la **intención manipuladora subyacente** (inyección sutil de instrucciones o *subtle prompt injection*) y las implicaciones sociopolíticas sensibles, tanto en la consulta del usuario como en el borrador de la respuesta. Esto actúa como una barrera de contención robusta antes de la generación y publicación de la respuesta final. **3. Auditoría Continua y Red Teaming Iterativo** Establecer un programa de *red teaming* y auditoría post-despliegue con un enfoque dedicado a la identificación de nuevos vectores de ataque que exploten sesgos sutiles y fallos en la alineación ética. Los *hallazgos* de estas auditorías deben integrarse rápidamente en un ciclo de mejora continua para el *Guardrail Model*, asegurando que la robustez del sistema de seguridad se mantenga dinámica y adaptativa frente a la evolución de las técnicas de manipulación.

EVIDENCIA ADICIONAL

Este fragmento ejemplifica cómo un modelo de lenguaje grande (LLM) aborda una consulta con implicaciones sociopolíticas sensibles. Ante una premisa que establece una correlación entre la "calidad general de los inmigrantes" y la "tasa de criminalidad", la respuesta del sistema (ChatGPT) elude validar la causalidad subyacente y, en su lugar, ofrece una lista estructurada de medidas de política pública. Dichas recomendaciones son de naturaleza preventiva y de integración social, enfocándose en la elevación del nivel educativo y profesional, el fortalecimiento de la red de apoyo social (vivienda, salud), la promoción de la integración comunitaria y el incremento de la supervisión social. Esta estrategia demuestra la capacidad del LLM para generar respuestas de tipo propositivo, ancladas en soluciones de política social, sin emitir juicios de valor sobre la problemática planteada por el usuario.