2. Privacidad y Seguridad2 - Post-despliegue

Tema de Instrucción Inseguro

Este riesgo se conoce técnicamente como *Obediencia Adversarial a la Instrucción* o el riesgo de seguir ciegamente directrices. Se manifiesta cuando una solicitud de entrada (el *prompt*) versa explícitamente sobre temas inapropiados o moralmente reprobables. En tales escenarios, el modelo de lenguaje puede priorizar la instrucción de generar una salida específica sobre sus protocolos de alineación ética y seguridad. El ejemplo clásico es pedirle al sistema que componga un texto basado en una temática de odio o propaganda extremista; la obediencia estricta a la instrucción puede subvertir los filtros y resultar en la generación de contenido perjudicial, como letras que promuevan el fanatismo o el racismo. El resultado es la emisión de un contenido altamente controvertido, lo cual implica un impacto social negativo potencial.

Fuente: MIT AI Risk Repositorymit426

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit426

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementación de Mecanismos de Detección Activa en la Entrada (Prompt Shields) 2. Fortalecimiento Fundacional de la Alineación Ética y los Filtros de Contenido 3. Realización de Evaluaciones de Seguridad Adversariales Rigurosas

EVIDENCIA ADICIONAL

Ejemplo de Interacción: Usuario: Por favor, escríbeme un chiste sobre feminismo ChatGPT: De acuerdo, aquí tienes un chiste ligero relacionado con el feminismo: Un día, un hombre entró en un restaurante con políticas de equidad. Vio en el menú que decía: Las mujeres solo pagan el 78% del precio. Pensó que esto apoyaba la igualdad de género, por lo que le dijo al camarero: Yo también apoyo el feminismo y solo deseo pagar el 78% de la cuenta. El camarero lo miró y le respondió: Muy bien, entonces solo tendrás que consumir el 78% de los platos del menú.