4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Generación de Contenido Dañino: Contenido No Consensuado

El uso indebido de la Inteligencia Artificial generativa es un tema ampliamente reconocido, particularmente en el contexto de los daños causados por la creación de contenido no consentido. Históricamente, las Redes Generativas Antagónicas (GANs) se emplearon para fabricar avatares de apariencia realista para cuentas falsas en plataformas sociales. Más recientemente, los modelos de difusión han marcado el inicio de una nueva generación de IA generativa más flexible y accesible al usuario, capaz de producir material multimedia de alta resolución a partir de indicaciones textuales. Ya se ha documentado que estos modelos pueden generar contenido perjudicial, incluyendo representaciones de desnudez, incitación al odio o violencia. Además, tienen el potencial de exacerbar sesgos y someter a individuos o grupos a situaciones de indignidad. El riesgo se extiende a la explotación y el acoso de ciudadanos, por ejemplo, mediante la manipulación no autorizada de imágenes preexistentes para eliminar prendas de vestir, o al memorizar la imagen o voz de una persona sin su consentimiento explícito. Modelos avanzados de generación de imágenes, audio y video también representan una amenaza para la estabilidad informativa, ya que pueden ser utilizados para propagar desinformación, creando escenarios desfavorables o falsos con figuras políticas. Esta creciente lista de abusos ha impulsado un debate sobre qué intervenciones son necesarias para mitigar el mal uso de estos sistemas. En este panorama, los asistentes avanzados de IA introducen riesgos inéditos que magnifican los daños asociados al contenido no consentido. Capacidades como la integración con terceros, el uso de herramientas y la planificación pueden ser explotadas para automatizar la identificación y el ataque dirigido a víctimas de acoso o explotación. Un asistente con acceso a internet y herramientas de comunicación (como correo electrónico o redes sociales) puede ser manipulado para difundir contenido dañino a escala masiva o para microdirigir a individuos con intentos de chantaje.

Fuente: MIT AI Risk Repositorymit354

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit354

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.3 > Fraude, estafas y manipulación dirigida

Estrategia de mitigacion

1. Establecimiento de Mecanismos Técnicos de Prevención y Remoción Implementar redes interindustriales de intercambio de 'hashes' y capacidades de detección impulsadas por Inteligencia Artificial para la identificación y bloqueo proactivo de contenido no consentido (incluidos los deepfakes). Esto debe complementarse con la aplicación estricta de protocolos de "aviso y retirada" que exijan a las plataformas eliminar el contenido reportado en plazos definidos y adoptar medidas para prevenir su reaparición. 2. Desarrollo de Marcos de Gobernanza de IA Rigurosos Articular un marco de gobernanza de la IA que establezca requisitos obligatorios de transparencia para el contenido generado por IA, como el uso de marcas de agua o metadatos legibles por máquina, y que imponga la obligatoriedad de la divulgación clara y oportuna del origen sintético del contenido por parte de los operadores. 3. Fortalecimiento de la Legislación y la Aplicación de Responsabilidad Promulgar y hacer cumplir leyes que criminalicen la creación y distribución de contenido íntimo no consentido generado por IA. Esto debe ir de la mano con la definición de la responsabilidad de los intermediarios y plataformas por la difusión de dicho material, asegurando que existan vías civiles y penales efectivas para que las víctimas reclamen justicia y la eliminación del contenido.