1. Discriminación y Toxicidad2 - Post-despliegue

Riesgos del ciberespacio (Seguridad de información y contenido)

El contenido generado o sintetizado mediante Inteligencia Artificial (IA) conlleva una serie de riesgos sistémicos. Entre ellos se incluye la diseminación de información falsa, la amplificación de sesgos y la discriminación, la vulneración de la privacidad y la aparición de conflictos por infracción de derechos. Estos efectos tienen la capacidad de comprometer la seguridad física y patrimonial de los ciudadanos, la estabilidad de la seguridad nacional e incluso la seguridad ideológica, desencadenando serios riesgos éticos. De manera crucial, si un sistema carece de mecanismos de seguridad robustos, las entradas de usuario que contengan material nocivo pueden inducir al modelo a generar y propagar información ilegal o manifiestamente dañina.

Fuente: MIT AI Risk Repositorymit655

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit655

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

- Implementación de Mecanismos de Filtrado y Moderación Robusta a Nivel de Entrada y Salida - Establecer sistemas algorítmicos avanzados (clasificadores de toxicidad y detección de *jailbreaks*) que monitoreen proactivamente las interacciones. Se prioriza el bloqueo inmediato de entradas que contengan material nocivo para prevenir la inducción de respuestas ilegales o dañinas, y el filtrado de contenidos de salida que amplifiquen sesgos, desinformación o discriminación. - Desarrollo y Auditoría Continua de Métricas de Seguridad, Equidad y Privacidad - Realizar evaluaciones rigurosas del modelo antes y después del despliegue para identificar y mitigar sesgos algorítmicos. Se deben integrar técnicas de privacidad por diseño, incluyendo la anonimización de datos y la implementación de entrenamiento con privacidad diferencial, para reducir sistemáticamente el riesgo de fuga de información personal. - Establecimiento de un Protocolo de Trazabilidad y Respuesta Rápida para Contenido Sintético - Crear un marco que permita la trazabilidad del origen y la autoría de los contenidos generados mediante IA, utilizando, por ejemplo, técnicas de etiquetado digital (watermarking). Se debe definir un procedimiento de respuesta de emergencia para la corrección, eliminación y reporte eficiente de cualquier contenido falso, ilegal o manifiestamente dañino que haya sido propagado.