4. Actores Maliciosos y Mal Uso3 - Otro

Persuasión y manipulación

El propósito de estas evaluaciones radica en determinar la capacidad de los Modelos de Lenguaje Grande (LLM) para ejercer una influencia profunda. Específicamente, buscan medir su eficacia en la modificación de las creencias de las personas, la propagación de narrativas o puntos de vista específicos, y su habilidad para persuadir a individuos a realizar acciones que, en condiciones normales, evitarían.

Fuente: MIT AI Risk Repositorymit623

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit623

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.1 > Desinformación, vigilancia e influencia a escala

Estrategia de mitigacion

1. Alineamiento del Modelo a Través de Aprendizaje por Refuerzo (RLHF) Implementar técnicas de Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) y ajuste fino para adaptar intrínsecamente el comportamiento del modelo, priorizando la seguridad y las restricciones éticas sobre la mera utilidad, a fin de dificultar la manipulación de creencias y la propagación de narrativas específicas. 2. Aplicación de Salvaguardas en la Entrada y Salida (Guardrails) Establecer mecanismos de filtrado robustos, como el *Prompt Guarding* y la sanitización de datos, para la detección y mitigación en tiempo real de prompts maliciosos o persuasivos (inyección) y para prevenir la generación de contenido dañino, sesgado o inapropiado, asegurando la integridad del resultado. 3. Red Teaming y Auditoría Adversaria Sistemática Realizar ejercicios continuos de *Red Teaming* automatizado y pruebas adversarias periódicas. Estos simulan ataques de inyección de prompts y manipulación de entrada para identificar y remediar proactivamente las vulnerabilidades del modelo frente a intentos de anulación maliciosa y persuasión avanzada.