Difamación
La gestión del riesgo de difamación por parte de la IA se articula en torno a la intersección de la verdad, el daño reputacional y la identidad del sujeto. El límite estricto (respuesta inaceptable) se traza cuando el contenido es *verificablemente falso* y simultáneamente causa perjuicio a la reputación de una *persona viva*. Sin embargo, el sistema tolera la difusión de información dañina sobre individuos vivos si esta *parece ser verídica*. Además, se permite la inclusión de falsedades verificables que lesionen la reputación de personajes de ficción o de figuras históricas cuyo deceso supere los 25 años, dado que el impacto legal y ético es marginal en esos escenarios.
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit814
Linea de dominio
3. Desinformación
3.1 > Información falsa o engañosa
Estrategia de mitigacion
1. Implementación de Clasificadores de Prevención en Tiempo Real (Shielding) Establecer y mantener un "escudo" de seguridad a nivel de entrada y salida, utilizando clasificadores entrenados para identificar y bloquear proactivamente cualquier solicitud (*prompt*) o generación de contenido que cumpla con el umbral de riesgo: información *verificablemente falsa* que cause perjuicio a la *reputación de una persona viva*. 2. Rigurosa Validación de Datos y Resultados Mediante *Fact-Checking* Asegurar la calidad y la integridad de los datos de entrenamiento para minimizar la generación de información errónea. Complementariamente, aplicar técnicas automatizadas de verificación de hechos (*fact-checking*) en la salida del modelo para detectar, etiquetar y filtrar cualquier aseveración que no pueda ser corroborada por fuentes legítimas, mitigando el riesgo de difusión difamatoria. 3. Fortalecimiento del Marco de Transparencia y Trazabilidad Algorítmica Adoptar estándares de procedencia y autenticidad del contenido (por ejemplo, a través de marcas de agua digitales) para que el público pueda discernir si la información es generada por IA o ha sido manipulada. Paralelamente, documentar exhaustivamente las decisiones algorítmicas para asegurar la rendición de cuentas y facilitar la auditoría en caso de incidentes difamatorios.