Volver al repositorio MIT
3. Desinformación2 - Post-despliegue

Difamación

La gestión del riesgo de difamación por parte de la IA se articula en torno a la intersección de la verdad, el daño reputacional y la identidad del sujeto. El límite estricto (respuesta inaceptable) se traza cuando el contenido es *verificablemente falso* y simultáneamente causa perjuicio a la reputación de una *persona viva*. Sin embargo, el sistema tolera la difusión de información dañina sobre individuos vivos si esta *parece ser verídica*. Además, se permite la inclusión de falsedades verificables que lesionen la reputación de personajes de ficción o de figuras históricas cuyo deceso supere los 25 años, dado que el impacto legal y ético es marginal en esos escenarios.

Fuente: MIT AI Risk Repositorymit814

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit814

Linea de dominio

3. Desinformación

74 riesgos mapeados

3.1 > Información falsa o engañosa

Estrategia de mitigacion

1. Implementación de Clasificadores de Prevención en Tiempo Real (Shielding) Establecer y mantener un "escudo" de seguridad a nivel de entrada y salida, utilizando clasificadores entrenados para identificar y bloquear proactivamente cualquier solicitud (*prompt*) o generación de contenido que cumpla con el umbral de riesgo: información *verificablemente falsa* que cause perjuicio a la *reputación de una persona viva*. 2. Rigurosa Validación de Datos y Resultados Mediante *Fact-Checking* Asegurar la calidad y la integridad de los datos de entrenamiento para minimizar la generación de información errónea. Complementariamente, aplicar técnicas automatizadas de verificación de hechos (*fact-checking*) en la salida del modelo para detectar, etiquetar y filtrar cualquier aseveración que no pueda ser corroborada por fuentes legítimas, mitigando el riesgo de difusión difamatoria. 3. Fortalecimiento del Marco de Transparencia y Trazabilidad Algorítmica Adoptar estándares de procedencia y autenticidad del contenido (por ejemplo, a través de marcas de agua digitales) para que el público pueda discernir si la información es generada por IA o ha sido manipulada. Paralelamente, documentar exhaustivamente las decisiones algorítmicas para asegurar la rendición de cuentas y facilitar la auditoría en caso de incidentes difamatorios.