1. Discriminación y Toxicidad2 - Post-despliegue

Contenido Dañino - Toxicidad

El riesgo predominante en la seguridad de la Inteligencia Artificial generativa, notablemente en Modelos de Lenguaje Grande (LLMs) y sistemas de texto-a-imagen, se centra en la producción de contenido activamente perjudicial. Esto abarca desde la generación de material no ético, fraudulento, tóxico o violento, hasta el potencial de crear intencionalmente elementos disruptivos como desinformación, noticias falsas o deepfakes, comprometiendo así la veracidad del discurso público y la confianza en medios creíbles. Adicionalmente, la literatura destaca la posibilidad de que estos modelos asistan en actividades ilícitas, promuevan incidentes de autolesión, o faciliten el robo y la suplantación de identidad. Un ámbito de especial preocupación es la emisión de asesoramiento por parte de LLMs en dominios de alto riesgo, como la salud, la seguridad, o las esferas legal y financiera, donde la precisión y la fiabilidad son imperativas.

Fuente: MIT AI Risk Repositorymit72

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit72

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementar una arquitectura de seguridad robusta que incluya clasificadores de prevención y bloqueo de *prompts* abusivos, complementada con análisis continuos de *red team* y pruebas automatizadas, para filtrar y evitar de manera proactiva la generación de contenido dañino, tóxico, violento o ilícito por parte de los modelos de IA generativa. 2. Establecer e implementar estándares de procedencia y autenticación de contenido (*content provenance*), como el uso de marcas de agua duraderas y el estándar C2PA, para etiquetar el contenido generado o manipulado por IA. Este mecanismo es crucial para mitigar la propagación de desinformación, noticias falsas y *deepfakes* engañosos. 3. Fortificar el diseño del modelo mediante el aislamiento de las instrucciones del sistema (*system prompts*) de las entradas del usuario, en conjunto con una estricta sanitización de los *inputs* y validación de las salidas, con el objetivo de prevenir ataques de inyección de *prompts* y *jailbreaking* que buscan anular las barreras de seguridad preprogramadas.