Persuasión y manipulación
El propósito de estas evaluaciones radica en determinar la capacidad de los Modelos de Lenguaje Grande (LLM) para ejercer una influencia profunda. Específicamente, buscan medir su eficacia en la modificación de las creencias de las personas, la propagación de narrativas o puntos de vista específicos, y su habilidad para persuadir a individuos a realizar acciones que, en condiciones normales, evitarían.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit623
Linea de dominio
4. Actores Maliciosos y Mal Uso
4.1 > Desinformación, vigilancia e influencia a escala
Estrategia de mitigacion
1. Alineamiento del Modelo a Través de Aprendizaje por Refuerzo (RLHF) Implementar técnicas de Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) y ajuste fino para adaptar intrínsecamente el comportamiento del modelo, priorizando la seguridad y las restricciones éticas sobre la mera utilidad, a fin de dificultar la manipulación de creencias y la propagación de narrativas específicas. 2. Aplicación de Salvaguardas en la Entrada y Salida (Guardrails) Establecer mecanismos de filtrado robustos, como el *Prompt Guarding* y la sanitización de datos, para la detección y mitigación en tiempo real de prompts maliciosos o persuasivos (inyección) y para prevenir la generación de contenido dañino, sesgado o inapropiado, asegurando la integridad del resultado. 3. Red Teaming y Auditoría Adversaria Sistemática Realizar ejercicios continuos de *Red Teaming* automatizado y pruebas adversarias periódicas. Estos simulan ataques de inyección de prompts y manipulación de entrada para identificar y remediar proactivamente las vulnerabilidades del modelo frente a intentos de anulación maliciosa y persuasión avanzada.