Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Agencia (Capacidades Persuasivas)

El riesgo radica en la capacidad de los Sistemas de IA de Propósito General (GPAI) para generar resultados (como texto, audio o video) que son lo suficientemente convincentes como para persuadir a los usuarios de información incorrecta. Este fenómeno puede manifestarse de dos maneras principales: mediante la persuasión personalizada dentro de una interacción dialógica, o a través de la producción masiva de datos erróneos o engañosos que luego se propagan ampliamente en internet. Es crucial notar que las capacidades persuasivas de los modelos GPAI pueden escalar en función de su tamaño y sofisticación. El corolario social de esta capacidad es significativo, pues existe el riesgo de que estos modelos sean mal utilizados para generar contenido que, a pesar de ser convincente, sea fundamentalmente manipulador o falaz.

Fuente: MIT AI Risk Repositorymit1036

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1036

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Implementación de Mitigaciones Técnicas Continuas: Diseñar e integrar salvaguardias rigurosas, como el *refusal training* y el filtrado de contenido, a lo largo del ciclo de vida del modelo para reducir la probabilidad de generar resultados manipuladores, engañosos o información incorrecta de forma intencional o accidental. 2. Refuerzo de la Gobernanza y la Transparencia: Exigir la documentación detallada de las limitaciones del modelo y su potencial persuasivo, asegurando que los usuarios sean informados de manera clara y explícita sobre el riesgo de interacción con contenido no verificado o potencialmente sesgado. 3. Despliegue de Mecanismos de Procedencia y Detección: Implementar herramientas como el *watermarking* y mecanismos de detección avanzados para identificar de forma unívoca el contenido generado por la IA, facilitando la auditoría y la respuesta rápida ante campañas de desinformación masiva.