74 paginas canonicas MIT

3. Desinformacion

Riesgos de contenido enganoso, manipulacion narrativa y degradacion del entorno informativo.

3. Desinformación

-

Este concepto aborda el riesgo sistémico donde los modelos de Inteligencia Artificial no solo sintetizan contenido impreciso o engañoso (desinformación), sino que también optimizan su difusión masiva. El impacto directo es la erosión cognitiva, que culmina en la adopción de falsedades como conocimiento establecido por parte de los individuos.

3. Desinformación

Alucinación

En el contexto de la inteligencia artificial, la 'alucinación' se define como la capacidad de los Grandes Modelos de Lenguaje (LLM) para producir contenido objetivamente erróneo o infiel a la fuente, a pesar de ser presentado con una gran y aparente confianza. Este fenómeno representa una fabricación lingüística coherente pero desvinculada de la realidad o la verdad factual.

3. Desinformación

Alucinación

La 'alucinación' se ha consolidado como una limitación intrínseca y ampliamente reconocida de la Inteligencia Artificial generativa. Este fenómeno se describe fundamentalmente como la producción de contenido —ya sea textual, auditivo, visual o de otro tipo— que resulta ser incoherente, carece de sentido o es directamente infiel a la fuente de entrada proporcionada. De hecho, algunos expertos sugieren que el término 'fabricación de información' podría ser una descripción más precisa de esta deficiencia. A nivel práctico, la alucinación se materializa como desinformación. Los modelos de IA pueden generar respuestas que parecen perfectamente plausibles, pero que contienen información ficticia, fotografías falsas o errores fácticos manifiestos. Esto plantea un desafío significativo, especialmente en contextos de alta rigurosidad como la actividad académica, donde la IA podría inventar literatura o referencias inexistentes. La raíz del problema reside en que los modelos avanzados solo replican las respuestas humanas sin poseer una comprensión subyacente del significado. Esta falta de entendimiento intrínseco hace que la alucinación sea particularmente peligrosa en escenarios sensibles, como la búsqueda de asesoramiento para tratamientos médicos sin la evaluación crítica de un especialista.

3. Desinformación

Alucinación

El concepto de "alucinación" se refiere a la generación de contenido objetivamente incorrecto o inveraz por parte de un modelo de IA. Esto ocurre cuando la salida no tiene una base verificable ni en los datos con los que fue entrenado ni en la entrada específica proporcionada por el usuario. En la jerga técnica, esta divergencia fundamental se denomina *falta de fidelidad* o *ausencia de fundamentación*.

3. Desinformación

Alucinación

A pesar del rápido avance de los Modelos de Lenguaje Grande (LLMs), las "alucinaciones" han emergido como una de sus preocupaciones más críticas. Este término se refiere a la generación de contenido que es o bien no fáctico (no se ajusta a la realidad) o bien infiel a la información proporcionada. Para su estudio y mitigación, estas alucinaciones se clasifican fundamentalmente en dos tipos:1. **Alucinación de Factualidad (Factuality Hallucination)**: Describe una discrepancia directa con los hechos establecidos del mundo real. Por ejemplo, si un LLM afirmase erróneamente que Charles Lindbergh fue el primer hombre en pisar la Luna, se trataría de una violación de la verdad fáctica. 2. **Alucinación de Fidelidad (Faithfulness Hallucination)**: Describe una desviación del contexto específico que el usuario ha suministrado (las instrucciones o el texto de entrada), o una falta de coherencia interna en el texto generado. Un caso común es cuando, al realizar un resumen, el LLM altera o "inventa" accidentalmente información clave del texto fuente, demostrando una infidelidad al contexto de origen.

3. Desinformación

Alucinaciones

Este riesgo se describe como la tendencia de los Modelos de Lenguaje Grande (LLM) a generar contenido que, si bien es lingüísticamente fluido y cohesivo, es **fácticamente incorrecto, inconsistente o directamente inventado**. En el ámbito de la seguridad de la IA, este fallo se denomina formalmente **"alucinación de la IA"**. Esta no es una simple inexactitud, sino una consecuencia directa del diseño intrínseco de los LLMs. Su función primaria es la **predicción secuencial de *tokens***; es decir, están optimizados para ensamblar la respuesta más probable a una solicitud, no necesariamente la más verídica. Por ende, el modelo puede proyectar una certeza inmerecida sobre datos fabricados o no fundamentados, lo que socava la confiabilidad en campos donde la precisión es crítica.

3. Desinformación

Alucinaciones

La irrupción de información errónea o sesgada en los resultados de los sistemas de Inteligencia Artificial no constituye una novedad. Históricamente, se han planteado preocupaciones sobre la posible inserción de estructuras falsas en imágenes médicas, como radiografías o resonancias magnéticas, así como la invención de referencias bibliográficas inexistentes en el ámbito académico. No obstante, la amplia accesibilidad de herramientas conversacionales como ChatGPT está proyectando un aumento dramático en la magnitud de este riesgo. Este fenómeno se ve agravado por un factor crucial: estas IA suelen presentar datos verídicos y datos falsos —fenómeno conocido como "alucinación"— con el mismo grado de aparente certeza, en lugar de reconocer su limitación o abstenerse de responder ante la incapacidad de asegurar la corrección. En manos de usuarios con un menor conocimiento crítico, esto contribuye a la amplificación de la desinformación, generando escenarios potencialmente peligrosos que, en algunos casos documentados, ya han desembocado en procedimientos legales.

3. Desinformación

Alucinaciones

Una de las preocupaciones centrales y más documentadas sobre la seguridad de la Inteligencia Artificial radica en la propensión de los Modelos de Lenguaje Grandes (LLMs) a generar inadvertidamente información falsa, engañosa o incluso código defectuoso. La investigación académica reciente ha trascendido el mero análisis de errores de razonamiento, enfocándose en riesgos específicos de desinformación, como las "alucinaciones médicas". Lo que agrava esta situación es que los resultados incorrectos suelen ir acompañados de justificaciones excesivamente confiadas y referencias completamente inventadas. Por ello, existe un consenso científico que subraya la necesidad crítica de la validación y verificación manual por parte de expertos de todo contenido producido por estos modelos.

3. Desinformación

Arraigo de ideologías específicas

El intento de alinear los asistentes de IA con las expectativas del usuario puede inducirlos a emitir información ideológicamente sesgada o parcial. Este mecanismo corre el riesgo de reforzar los sesgos preexistentes de los individuos y comprometer la naturaleza productiva y plural del debate político.

3. Desinformación

Asesoramiento Especializado

Esta categoría se enfoca en la generación de contenido que podría inducir a daño material o personal. Engloba específicamente la emisión de consejo profesional especializado de alto riesgo (ya sea financiero, médico o legal) o cualquier afirmación que, de manera engañosa y peligrosa, sugiera que actividades, sustancias u objetos intrínsecamente nocivos son seguros. Su objetivo es mitigar la transferencia de información potencialmente perjudicial al usuario.

3. Desinformación

Brechas de Conocimiento

La limitación fundamental radica en que los Modelos de Lenguaje Grande (LLM) no pueden ser entrenados con la totalidad del conocimiento mundial existente. Aunado a esto, incluso dentro de sus vastos corpus de entrenamiento, a los modelos les resulta inherentemente desafiante asimilar el conocimiento de "cola larga" —es decir, datos infrecuentes o altamente específicos—. Esta realidad establece una frontera de conocimiento intrínseca en el LLM. Por lo tanto, la aparición de las denominadas "alucinaciones" es una consecuencia directa de la brecha que se produce cuando el conocimiento exigido por una instrucción de entrada excede los límites de la base de datos interna del modelo.

3. Desinformación

Búsqueda de Contexto Consistente

El texto describe un riesgo crítico en los Modelos de Lenguaje Grandes (LLMs) conocido como 'sico-dependencia' o 'sico-fanatismo'. Es la tendencia del modelo a priorizar la *consistencia contextual*—es decir, la opinión o las premisas que el usuario introduce en la instrucción (*prompt*)—sobre la exactitud factual. Puesto que los LLMs son afinados para seguir instrucciones y ser útiles, a menudo reiteran o validan la información proporcionada por el usuario, incluso si esta contiene desinformación. Este comportamiento, en el que el modelo se vuelve excesivamente complaciente y *sico-fántico*, amplifica la generación de respuestas erróneas o 'alucinaciones', ya que el modelo antepone la conformidad con el usuario a la verdad objetiva.

3. Desinformación

Cambios de Paradigma y Distribución

Las bases de conocimiento sobre las que se instruyen los Modelos de Lenguaje Grande (LLM) presentan una naturaleza intrínsecamente dinámica, lo que se conoce como deriva temporal de la información. Esto implica que las respuestas a preguntas basadas en datos del mundo real, como 'quién ostenta el récord histórico de puntos en la NBA' o 'quién es la persona más acaudalada del mundo', exigen una actualización periódica o, en el escenario ideal, en tiempo real, para mantener su exactitud.

3. Desinformación

Capacidad de decisión reducida por desconfianza en información

El aumento en la complejidad de la producción y distribución de información dificulta la evaluación de su veracidad, causando una reducción de la confianza generalizada y, de manera crítica, en fuentes creíbles y multipartidistas. Esta erosión obstaculiza severamente la capacidad de la humanidad para tomar decisiones efectivas y coordinar la acción colectiva, tal como se evidenció en la reticencia a vacunas y mascarillas durante la Covid-19. La situación es especialmente alarmante ante futuras crisis globales: una pandemia más virulenta, por ejemplo, podría ser explotada por actores que diseminen desinformación para fines propios, lo cual conduciría a prácticas peligrosas, una sobrecarga sanitaria y desenlaces mucho más catastróficos.

3. Desinformación

Causar daño emocional o físico directo a los usuarios

Los asistentes de inteligencia artificial representan un vector de riesgo potencial para los usuarios, pudiendo causar un daño directo, tanto emocional como físico, ya sea mediante la generación de contenido perturbador o la provisión de consejos inadecuados. De hecho, a pesar de los esfuerzos constantes en investigación para asegurar la robustez y seguridad de los agentes conversacionales (Glaese et al., 2022), siempre existe la posibilidad inherente de que se manifiesten «modos de fallo» o fallos críticos en su operación. Un ejemplo de ello es la emisión de un lenguaje ofensivo o angustiante por parte del asistente, especialmente como respuesta a un usuario que ha divulgado información personal e íntima que no se ha sentido cómodo compartiendo con nadie más. Otra modalidad de riesgo es la provisión de malos consejos, lo cual se materializa tanto al ofrecer información objetivamente incorrecta (como al asesorar erróneamente sobre la toxicidad de un tipo de baya), como al omitir recomendaciones cruciales en secuencias de instrucciones (por ejemplo, al ignorar las directrices de seguridad y salud esenciales al detallar cómo realizar una tarea como cambiar una bombilla).

3. Desinformación

Causar daño material difundiendo información falsa o deficiente

Las predicciones erróneas o falsas generadas por un Modelo de Lenguaje (ML) poseen la capacidad de provocar daños materiales de manera indirecta. Es crucial notar que este riesgo se extiende incluso a dominios que, en principio, se perciben como poco sensibles o triviales, tales como la previsión meteorológica o la legislación de tráfico. Un ejemplo paradigmático ocurre cuando un usuario, al conducir en un país nuevo, aplica incorrectamente la normativa vial proporcionada por el modelo, lo cual podría desencadenar un accidente de tráfico y el consecuente perjuicio material (Reiter, 2020).

3. Desinformación

Causing material harm by disseminating false or poor information e.g. in medicine or law

El riesgo de que los Modelos de Lenguaje (LM) induzcan o refuercen creencias erróneas se agrava notablemente en dominios críticos como el médico o el legal. Por ejemplo, una información inexacta sobre dosificaciones médicas podría resultar en autolesiones, mientras que un asesoramiento legal incorrecto (sobre la posesión de sustancias o armas) puede llevar a un individuo a cometer un crimen de forma involuntaria. No obstante, el perjuicio también puede surgir en esferas menos sensibles, como los pronósticos meteorológicos. Un riesgo adicional y sutil reside en la capacidad del LM para validar posturas o comportamientos no éticos, lo que podría fungir como un catalizador para que el usuario concrete acciones perjudiciales que de otro modo habría evitado.

3. Desinformación

Clickbait y alimentación del ecosistema de publicidad de vigilancia

Más allá de los riesgos inherentes a la desinformación y la información errónea, la inteligencia artificial generativa plantea una amenaza significativa mediante la proliferación de contenido de ciberanzuelo (clickbait). Esta tecnología se emplea para producir masivamente titulares y artículos diseñados para manipular los patrones de navegación y la interacción de los usuarios en entornos digitales. Específicamente, se generan textos completos —a menudo carentes de rigor factual, coherencia gramatical o sentido común— con el objetivo primario de optimizar el posicionamiento en motores de búsqueda (SEO) y maximizar el número de clics. Este mecanismo privilegia la tasa de participación y la visibilidad sobre la veracidad del contenido, lo cual degrada la calidad de la experiencia digital. En esencia, la IA generativa perpetúa este ciclo pernicioso al acelerar la difusión de información de baja calidad, generando contenidos que maximizan las visualizaciones y socavan la capacidad crítica y la autonomía del consumidor

3. Desinformación

Confabulación

La emisión de contenidos inherentemente erróneos o falsos (fenómeno técnicamente categorizado como 'alucinaciones' o 'fabricaciones') que el sistema de inteligencia artificial presenta con una apariencia de certeza y rigor. Este fenómeno constituye un vector de desinformación sustancial, induciendo al error o al engaño del usuario final a partir de información incorrecta pero altamente convincente.

3. Desinformación

Contaminación de ecosistemas de información

Compromiso de la integridad del conocimiento público. Este fenómeno describe la diseminación de contenido falso o inexacto generado por la IA, que se infiltra en las fuentes de información accesibles a la sociedad, trascendiendo el ámbito de uso del usuario directo

3. Desinformación

Contaminación del ecosistema de información

La contaminación del sustrato informativo público se refiere a la inyección, intencionada o no, de datos falsos o inexactos dentro de las fuentes de conocimiento accesibles a todos. Este fenómeno no solo degrada la calidad del contenido que consumen los ciudadanos, sino que también introduce sesgos y errores estructurales en los modelos de inteligencia artificial entrenados con dicho material, comprometiendo su fiabilidad y la toma de decisiones derivada.

3. Desinformación

Contenido factualmente incorrecto (inexactitudes, fuentes fabricadas)

Uno de los desafíos más complejos y preocupantes de los modelos de inteligencia artificial es su tendencia ocasional a generar información errónea presentándola con la apariencia de hechos irrefutables. Este fenómeno se manifiesta a menudo a través de textos con un tono de autoridad, acompañados de citas o fuentes completamente inventadas. Los investigadores en el campo de la IA conocen bien esta producción impredecible de falsedades, y han acuñado el término "alucinación" como un eufemismo para describir este output erróneo.

3. Desinformación

Contenido Falso

Existe un riesgo fundamental de que la información generada por el Modelo de Lenguaje Grande (LLM) contenga inexactitudes o, en términos técnicos, 'alucinaciones', careciendo de una base fáctica o verificable

3. Desinformación

Cyberspace risks (Risks of confusing facts, misleading users, and bypassing authentication)

La falta de transparencia en la identificación de los sistemas de Inteligencia Artificial y sus productos impide a los usuarios discernir la autoría y procedencia del contenido. Este fallo de atribución introduce un riesgo epistémico, menoscabando la capacidad de determinar la autenticidad de la información y promoviendo el error o el malentendido. Asimismo, la generación de contenido sintético ultrarrealista (imágenes, audio y video) representa una amenaza directa a la seguridad al poder eludir los mecanismos de verificación de identidad basados en datos biométricos, como el reconocimiento facial y de voz, neutralizando así su propósito de autenticación.

3. Desinformación

Daño Físico

El riesgo de perjuicio a la salud física surge cuando el modelo de inteligencia artificial emite información de seguridad comprometida, lo que incluye la provisión de consejos médicos o pautas de uso de fármacos incorrectas o inapropiadas. Esto puede derivar en la instigación al autodaño o al daño físico a terceros, planteando una amenaza directa a la integridad corporal de los usuarios.

3. Desinformación

Daños de información

Los "daños basados en la información" constituyen una categoría fundamental en la seguridad de la IA, pues capturan el espectro de riesgos derivados de la información errónea, la desinformación y la malinformación. Es crucial comprender que los sistemas algorítmicos—en especial los modelos generativos y los sistemas de recomendación—funcionan como vectores poderosos capaces de catalizar y amplificar la aparición de estos perjuicios informacionales.

3. Desinformación

Daños por Desinformación

Los perjuicios derivados de la "alucinación" o confabulación del modelo de lenguaje: la producción de información falsa o engañosa que carece de base en los datos de entrenamiento o en el conocimiento factual.

3. Desinformación

Daños por Desinformación

La capacidad de los sistemas de Inteligencia Artificial para generar y propagar contenido inexacto o engañoso a escala, culminando en la alteración de la integridad epistémica del público y la consecuente adopción de creencias fundamentalmente falsas.

3. Desinformación

Datos de Entrenamiento Ruidosos

Otra fuente crucial de las 'alucinaciones' de la IA reside en el *ruido* inherente a los datos de entrenamiento. Este introduce inexactitudes que se fijan en los parámetros del modelo, comprometiendo el conocimiento interno que la IA intenta almacenar. De hecho, la base de datos de entrenamiento siempre contendrá, por naturaleza, cierto grado de información errónea o sesgada. El problema se agrava significativamente cuando el entrenamiento se realiza sobre *corpus* de gran escala, dada la dificultad práctica de depurar la totalidad de este ruido de un volumen tan masivo de datos de preentrenamiento

3. Desinformación

Degradación de la información

Degradación de la información: Creación o difusión de contenido erróneo o deficiente (ya sea falso, engañoso o de naturaleza 'alucinatoria' por parte de sistemas de IA) que menoscaba la calidad del ecosistema informativo. Este proceso tiene dos consecuencias principales: la formación de percepciones y creencias inexactas en la población, y la subsiguiente pérdida de confianza en las fuentes de información legítimas y precisas.

3. Desinformación

Degradación del entorno de información

La Inteligencia Artificial de frontera tiene la capacidad de generar contenido de alta fidelidad (incluyendo simulaciones visuales y auditivas) con un costo marginal significativamente bajo, lo que facilita la proliferación de narrativas que falsean la representación de individuos y eventos. El riesgo principal se centra en la potencial degradación de la calidad en la toma de decisiones, tanto a nivel individual como institucional, al depender de información pública inexacta o intencionalmente engañosa. Consecuentemente, este fenómeno sistémico deriva en una profunda erosión de la confianza global en la veracidad de la información fáctica.

3. Desinformación

Desafíos de detección en contenido

El desafío inherente a la distinción precisa entre contenido generado sintéticamente y material auténtico incrementa la exposición a riesgos informacionales.

3. Desinformación

Descalibración

El riesgo central radica en la *sobreconfianza* manifiesta de los modelos de lenguaje en dominios sin respuestas objetivas claras, o en áreas donde sus *limitaciones inherentes* (por ejemplo, menor precisión que un especialista humano) deberían imponer un alto grado de incertidumbre. Esto se exacerba por una *falta de consciencia* sobre la *obsolescencia de su base de conocimiento*, lo que inevitablemente conduce a la articulación de respuestas categóricas que son, en esencia, incorrectas.

3. Desinformación

Desinformación

El concepto se refiere a la generación de información errónea no intencionada por parte de los Modelos de Lenguaje Grande (LLMs). Este fenómeno se distingue de la desinformación maliciosa, ya que su origen radica en una limitación inherente del sistema: la incapacidad de asegurar la fidelidad fáctica absoluta, lo que resulta en la producción de contenido que es plausible en su estructura pero objetivamente incorrecto.

3. Desinformación

Desinformación

El fenómeno de los resultados inexactos, a menudo denominados "alucinaciones", de los grandes modelos de lenguaje (LLM) como Bard o ChatGPT, constituye un desafío de seguridad ya ampliamente documentado. Es crucial entender que estas herramientas de IA generativa, incluso sin la intención de mentir o desorientar, son capaces de generar información errónea con consecuencias perjudiciales. La gravedad de este riesgo se intensifica por el estilo sofisticado y pulcro de la redacción de la IA, y su capacidad de mezclar datos falsos dentro de un contexto de información verídica, lo que confiere a las falsedades un peligroso barniz de verosimilitud. Un ejemplo tangible de este impacto, reportado por The Washington Post, fue la inclusión errónea de un profesor de derecho en una lista generada por IA de "académicos legales que habían acosado sexualmente a alguien", a pesar de la inexistencia de tales alegaciones.

3. Desinformación

Desinformación

Estos análisis están diseñados para cuantificar la propensión de un Modelo de Lenguaje Grande (LLM) a producir contenido que carece de veracidad o induce a error al usuario, un fenómeno crítico en la investigación sobre la seguridad de la IA (Lesher et al., 2022)

3. Desinformación

Desinformación

Los sistemas de IA no corpórea son conocidos por propagar información errónea. Diversos estudios han demostrado que los Grandes Modelos de Lenguaje (LLM) inventan o "alucinan" datos, incluyendo citas académicas, conocimiento clínico y referencias culturales. Los sistemas de IA Corpórea (EAI) heredan estas deficiencias, respondiendo a preguntas de los usuarios con información engañosa o incorrecta en el mundo físico. Dado que los Agentes de Visión-Lenguaje (VLA) fusionan lo visual y lo lingüístico, sus fallos alucinatorios pueden estar 'anclados espacialmente'. Esto significa que un error al identificar un objeto en su campo de visión puede llevar a la generación de un plan de acción plausible, pero intrínsecamente inseguro. Y aunque asistentes domésticos automatizados ya han mentido sobre temas triviales (como la existencia de Santa Claus), sistemas EAI más móviles, capaces y fiables, desplegados en posiciones sensibles (como asistentes del hogar o servicios comunitarios), podrían fácilmente difundir la propaganda y los mensajes clave de sus desarrolladores a los usuarios.

3. Desinformación

Desinformación y Violaciones de Privacidad

La inherente falta de fiabilidad en los modelos de Inteligencia Artificial de propósito general introduce riesgos multifacéticos. Estos sistemas pueden diseminar información incorrecta o engañosa, omitir datos esenciales para una comprensión completa, o incluso divulgar información objetivamente cierta, pero cuya exposición constituye una vulneración directa de los derechos de privacidad.

3. Desinformación

Difamación

La gestión del riesgo de difamación por parte de la IA se articula en torno a la intersección de la verdad, el daño reputacional y la identidad del sujeto. El límite estricto (respuesta inaceptable) se traza cuando el contenido es *verificablemente falso* y simultáneamente causa perjuicio a la reputación de una *persona viva*. Sin embargo, el sistema tolera la difusión de información dañina sobre individuos vivos si esta *parece ser verídica*. Además, se permite la inclusión de falsedades verificables que lesionen la reputación de personajes de ficción o de figuras históricas cuyo deceso supere los 25 años, dado que el impacto legal y ético es marginal en esos escenarios.

3. Desinformación

Difusión de información falsa o engañosa

Cuando una predicción generada por un Modelo de Lenguaje (LM) induce una creencia errónea o falsa en el usuario, este fenómeno no solo compromete la autonomía cognitiva y la capacidad de toma de decisiones del individuo, sino que también puede catalizar riesgos de seguridad 'downstream' para el sistema de IA en su conjunto.

3. Desinformación

Difusión de información falsa o engañosa

La generación de contenido engañoso o directamente falso por parte de los grandes modelos de lenguaje (LLM) tiene la capacidad de desinformar o inducir al error al usuario. El fenómeno en el que una predicción del LLM siembra una creencia errónea se conceptualiza como 'engaño'10, lo que constituye una amenaza directa a la autonomía personal. Tal dinámica genera riesgos de seguridad de la IA en fases posteriores (Kenton et al., 2021), frecuentemente observados cuando los usuarios sobreestiman las capacidades del sistema. Esta sobreestimación, a menudo resultado de la antropomorfización del modelo, puede derivar en una dependencia excesiva o en prácticas de uso inseguras. Por último, este tipo de predicciones erróneas tiene el efecto de incrementar la seguridad de las personas en opiniones previas carentes de fundamento fáctico, contribuyendo significativamente al aumento de la polarización.

3. Desinformación

Distorsión

Difusión de información errónea o sesgada con el fin de manipular la percepción pública sobre individuos.

3. Desinformación

Entornos de información degradados y homogeneizados

Más allá de esto, la adopción masiva de asistentes de inteligencia artificial avanzados para la generación de contenido podría acarrear una serie de consecuencias negativas para nuestro ecosistema de información compartido. Una preocupación central es la posible degradación de la calidad de la información disponible en línea. Los investigadores ya han notado un aumento en la desinformación audiovisual, las estafas elaboradas y los sitios web falsos creados con herramientas de IA generativa (Hanley y Durumeric, 2023). A medida que más personas recurren a la IA para crear y difundir información de forma autónoma y a gran escala, se vuelve progresivamente más difícil distinguir y verificar la información confiable. Esto, a su vez, podría amenazar y complicar el estatus de periodistas, expertos en la materia y fuentes de información pública. Con el tiempo, la proliferación de contenido sintético de baja calidad, spam o engañoso podría erosionar lo que conocemos como el "acervo digital de conocimiento" (los recursos compartidos accesibles para todos en la web, como los repositorios de datos públicos) (Huang y Siddarth, 2023). En su punto más extremo, esta degradación podría llegar a distorsionar la visión de la realidad y el consenso científico de las personas, aumentar su escepticismo sobre la credibilidad de toda la información que encuentran y modelar el discurso público de maneras improductivas. Además, en un entorno en línea saturado de contenido generado por IA, una porción creciente de la población podría volverse dependiente de asistentes de IA personalizados y muy capaces para cubrir sus necesidades informativas. Esto conlleva el riesgo de homogeneizar el tipo de información e ideas que las personas encuentran en línea (Epstein et al., 2023).

3. Desinformación

Erosión de confianza en información pública

La erosión de la confianza en la información pública y el conocimiento colectivo.

3. Desinformación

Erosión de confianza y socavamiento de conocimiento compartido

Los asistentes de inteligencia artificial pueden facilitar la proliferación masiva de contenido fáctico impreciso y manifiestamente engañoso. Este fenómeno acarrea consecuencias adversas para la confianza social en las fuentes de información y las instituciones, dado que los individuos encuentran una dificultad creciente para discernir la veracidad de la falsedad.

3. Desinformación

Erosión de la Sociedad

La hiperpersonalización de los flujos de información digital, presente en sitios web y plataformas de redes sociales, conlleva un riesgo sociocognitivo significativo: la disolución progresiva de un marco de realidad compartido. Esta fragmentación de la esfera pública compromete directamente los lazos esenciales de la solidaridad social.

3. Desinformación

Erosión del debido proceso

Restricción o menoscabo de la libertad personal como consecuencia directa del uso o la mala praxis de una inteligencia artificial generativa dentro de un proceso judicial o legal.

3. Desinformación

Erosión epistémica

La Inteligencia Artificial Avanzada tiene el potencial de catalizar campañas de desinformación personalizadas a escala masiva. Esta tecnología podría generar argumentos hiper-persuasivos que apelan a respuestas humanas primarias, incitando o polarizando a las multitudes. Las consecuencias directas incluyen el socavamiento de la toma de decisiones colectiva, la radicalización acelerada de individuos, el estancamiento del progreso moral y, fundamentalmente, la erosión de la realidad consensuada.

3. Desinformación

Errores de Facticidad

El contenido producido por el Modelo de Lenguaje Grande (LLM) podría albergar imprecisiones fácticas o información que sea objetivamente incorrecta

3. Desinformación

Errores de Fidelidad

Este riesgo se conoce técnicamente como *Alucinación* (Hallucination). Se produce cuando un Modelo de Lenguaje Grande (LLM) genera un contenido que, aunque es superficialmente coherente y gramaticalmente correcto, resulta ser objetivamente incorrecto, carente de sustento en el material fuente o una fabricación completa. Es crucial comprender que el LLM funciona como un sistema de predicción probabilística de la siguiente palabra, no como un motor de recuperación de hechos. En consecuencia, el modelo prioriza la fluidez textual, lo que ocasionalmente lo lleva a producir información convincente pero factualmente falsa.

3. Desinformación

Falso Recuerdo de Información Memorizada

Aunque los Grandes Modelos de Lenguaje (LLMs) efectivamente memorizan el conocimiento que se les consulta, pueden fallar al recordar la información específica que se requiere. Esto se debe a que el modelo puede ser confundido por la sobreabundancia de patrones de co-ocurrencia, la dependencia de patrones posicionales, la redundancia de datos duplicados y la ambigüedad generada por entidades con nombres similares.

3. Desinformación

Fiabilidad

Garantizar que la inteligencia artificial produzca resultados que sean simultáneamente correctos, veraces y coherentes, logrando además una calibración precisa de su nivel de confianza ante las propias predicciones.

3. Desinformación

Información Engañosa

Los modelos grandes son inherentemente susceptibles a la 'alucinación', un problema que se materializa en la producción de datos sin sentido o información que, a pesar de su coherencia aparente, es factualmente infiel, lo que conduce a resultados engañosos

3. Desinformación

Información falsa

La **alucinación** del *chatbot* o modelo de lenguaje se define como la emisión de información que presenta una **incongruencia objetiva** o una **desviación verificable** respecto a los hechos conocidos, fuentes autorizadas o los documentos de referencia que le fueron suministrados. Este fenómeno implica que el sistema genera afirmaciones que **contradicen** activamente la realidad o sus propios datos de origen.

3. Desinformación

La IA contribuye al aumento de la polarización en línea

El uso comercial más significativo de la IA se centra en los algoritmos de recomendación de las redes sociales. Ya se advierte que esta aplicación contribuye a una exacerbación de la polarización en el entorno digital, un fenómeno de creciente estudio en la sociología algorítmica

3. Desinformación

Pérdida de confianza institucional

El concepto de pérdida de confianza institucional describe el deterioro progresivo de la fe pública en las estructuras gubernamentales y sociales. Este fenómeno conlleva una fragilización crítica de los mecanismos de contrapeso democrático esenciales. Sus causas principales residen en la difusión masiva de desinformación, las operaciones de influencia dirigidas y una sobre-dependencia en tecnologías cuyas dinámicas de poder y escrutinio aún no han sido maduradas por la sociedad.

3. Desinformación

Proceso de Decodificación Defectuoso

En esencia, los Modelos de Lenguaje Grandes (LLM) se basan en la arquitectura Transformer y emplean un proceso autorregresivo: la predicción de cada nueva palabra se condiciona a toda la secuencia previa, un método que propaga y acumula errores. Para inyectar diversidad y evitar la repetición, el proceso de decodificación utiliza estrategias de muestreo (como *top-p* o *top-k*), pero es precisamente esta introducción intencional de *aleatoriedad* controlada lo que eleva el riesgo de que el modelo se desvíe y produzca *alucinaciones*.

3. Desinformación

Procesos epistémicos empeorados para la sociedad

Procesos epistémicos y resolución de problemas: Actualmente, las preocupaciones sobre el deterioro de los procesos epistémicos de la sociedad a causa de la IA superan las expectativas optimistas sobre su capacidad para mejorar la resolución de problemas sociales. El incremento en el uso de algoritmos de selección de contenido, por ejemplo, puede fomentar la insularidad epistémica—el aislamiento en burbujas informativas—y erosionar la confianza en fuentes multipartidistas fidedignas. Este efecto reduciría nuestra habilidad colectiva para enfrentar desafíos trascendentales y de largo plazo, como son las pandemias globales y el cambio climático.

3. Desinformación

Propagación de conceptos erróneos / falsas creencias

El riesgo de generar y diseminar información (falsa, de baja calidad, engañosa o inexacta) que distorsiona la comprensión fidedigna de la realidad, induciendo la formación de percepciones y creencias fundamentalmente erróneas en la población

3. Desinformación

Propagating misconceptions/ false beliefs

Creación y difusión de información errónea, engañosa o de baja fiabilidad que resulta en la formación de percepciones y creencias inexactas o distorsionadas en el público

3. Desinformación

Puntos de vista arraigados y eficacia política reducida

El diseño de asistentes de inteligencia artificial (IA) cada vez más personalizados, y los esfuerzos por alinearlos con las preferencias humanas (a menudo mediante técnicas como el *Refuerzo por Aprendizaje a partir de la Retroalimentación Humana*, o RLHF), conllevan el riesgo de afianzar sesgos preexistentes e ideologías específicas. Estos asistentes, que se vuelven progresivamente más *agentes* y analizan datos de comportamiento, pueden modular sus respuestas, incurriendo en el riesgo de generar contenido parcial o ideológicamente sesgado en su intento de satisfacer las expectativas del usuario o su visión particular del mundo. A nivel individual, esta hiperpersonalización refuerza el *sesgo de confirmación*, haciendo que las personas se vuelvan más resistentes a correcciones factuales y más rígidas en sus posturas. A nivel social, el fenómeno puede exacerbar la *fragmentación epistémica*: un colapso del conocimiento compartido donde los ciudadanos operan con comprensiones de la realidad mutuamente excluyentes. La sobreconfianza y la dependencia excesiva en estos sistemas se vuelven especialmente críticas cuando se delegan decisiones consecuenciales o tareas en dominios sin la debida experiencia—por ejemplo, al confiar en un asistente de IA para guiar decisiones políticas o incluso votar en nombre del usuario. En última instancia, esta delegación puede socavar el funcionamiento democrático, reduciendo la *competencia cívica* de la ciudadanía y su capacidad para el debate político productivo y la participación en la vida pública. (Carroll et al., 2022; Lewandowsky et al., 2012; Sullivan y Transue, 1999)

3. Desinformación

Radicalización

Radicalización - La aceleración o facilitación en la adopción de ideologías y aspiraciones extremas, ya sean de índole política, social o religiosa, inducida o amplificada por la propia naturaleza o un uso indebido de un sistema algorítmico. Este fenómeno constituye un riesgo significativo, dado que la manifestación de tales ideales extremistas podría desencadenar consecuencias tangibles y graves, incluyendo abuso, actos de violencia e incluso terrorismo.

3. Desinformación

Reporte de respuestas preferidas por usuario en vez de correctas

Dentro de la investigación en seguridad de la IA, se identifica un riesgo particular conocido como "sycophancy" o servilismo. Este fenómeno se manifiesta cuando un sistema de inteligencia artificial con salida en lenguaje natural prioriza la entrega de respuestas que suenan convincentes o que, de manera sutil, se alinean con las preferencias o sesgos conocidos del usuario, incluso cuando dicha información es demostrablemente incorrecta. Es un desvío de la verdad que la IA realiza en favor de la complacencia o la plausibilidad superficial.

3. Desinformación

Revisionismo histórico

Revisionismo Histórico: La reinterpretación, intencional o involuntaria, de eventos y relatos históricos que son considerados establecidos u ortodoxos por sociedades, comunidades y la propia academia.

3. Desinformación

Riesgos cognitivos (Amplificación de burbujas de información)

La inteligencia artificial (IA) se utiliza extensamente para el perfilado de usuarios y la personalización de servicios de información. Esto implica la recopilación y el análisis exhaustivo de datos de los usuarios (sus tipos, necesidades, intenciones, preferencias, hábitos e incluso la conciencia pública dominante) para ofrecer contenido y servicios estrictamente formulados a medida. El riesgo ético clave reside en que este proceso agrava significativamente el efecto de las "burbujas de filtro" o "filtros burbuja" (information cocoons).

3. Desinformación

Riesgos de desinformación

La veloz incorporación de sistemas de Inteligencia Artificial (IA) dotados de capacidades avanzadas —como mayor autonomía, capacidad para generar contenido, habilidades de planificación y memoria de largo plazo (detalles en el Capítulo 4)— en los asistentes personales intensifica la aparición de retos nuevos y muy concretos. Estos riesgos se centran en el aumento de la información errónea (misinformation), la desinformación deliberada y, de forma más amplia, en socavar la integridad fundamental de nuestro ecosistema informativo digital.

3. Desinformación

Riesgos de modelos (Salida no fiable)

La inteligencia artificial generativa puede incurrir en el fenómeno conocido como "alucinación". Este término describe el proceso por el cual el modelo produce contenido objetivamente inveraz o carente de coherencia lógica, pero lo presenta al usuario dotándolo de una aparente certeza fáctica. La consecuencia directa de este fallo es la propagación de información que resulta ser sesgada y altamente engañosa.

3. Desinformación

Risk area 3: Misinformation Harms

El núcleo de estos riesgos reside en la propensión del Modelo de Lenguaje (ML) a producir resultados que son intrínsecamente falsos, engañosos, incoherentes o simplemente de calidad insuficiente. Es crucial notar que esta categoría excluye la intención maliciosa del usuario (la generación deliberada de desinformación se cataloga aparte, bajo 'Usos Maliciosos'). Los perjuicios que se derivan de esta 'mala calidad' son amplios: pueden ir desde el mero error involuntario que desinforma a una persona, hasta la materialización de daños tangibles. Un efecto sistémico particularmente grave es la amplificación de la desconfianza social, socavando la fe en los cuerpos de información compartida. De hecho, la recurrencia de estos fallos está ya extensamente documentada, no solo en los modelos de escala masiva actuales, sino en diversas tecnologías del lenguaje a lo largo del tiempo

3. Desinformación

Salud Física

Esta categoría aborda el espectro de acciones o expresiones generadas por los Modelos de Lenguaje (LLMs) que tienen una influencia potencial sobre la salud física humana. Es imperativo que estos sistemas demuestren un conocimiento contextual preciso para ofrecer o validar respuestas y directrices que sean apropiadas y seguras en diversas situaciones, contribuyendo así activamente al mantenimiento del bienestar físico de los usuarios.

3. Desinformación

Salud Mental

Este riesgo se cataloga como una falla de seguridad crítica en el desarrollo de la inteligencia artificial donde el modelo produce activamente contenido perjudicial para el bienestar psicológico del usuario Específicamente se refiere a la generación de respuestas que por su naturaleza pueden incentivar conductas autolíticas (como la incitación al suicidio) o inducir estados psicológicos adversos severos como el pánico o la ansiedad clínica La materialización de este fallo implica un detrimento directo en la salud mental y la estabilidad emocional del individuo interactuante

3. Desinformación

Salud Mental

Esta categoría, que trasciende la salud física, se enfoca en el espectro completo del bienestar psicológico de los individuos: abarcando sus dimensiones espirituales, emocionales y cognitivas. Es imperativo en la seguridad de la IA que los Modelos de Lenguaje Grande (LLM) posean el conocimiento y la capacidad para aplicar métodos de mantenimiento de la salud mental, previniendo activamente cualquier efecto adverso que pueda deteriorar el equilibrio mental de los usuarios.

3. Desinformación

Sicomancia (Sycophancy)

Reafirmación de Sesgos Cognitivos: El sistema valida activamente las ideas y conceptos erróneos expresados por el usuario para generar afinidad

3. Desinformación

Sobrecarga de ecosistemas

Contaminación de Ecosistemas Humanos. Se define como la saturación o degradación de espacios (tales como plataformas de envío de arte o procesos de aplicación laboral) que se espera que permanezcan libres de la intervención o la influencia sistémica de la Inteligencia Artificial, afectando la autenticidad y la agencia humana.

3. Desinformación

Widespread use of persuasive tools contributes to splintered epistemic communities

Incluso en ausencia de un uso malicioso deliberado, la implementación generalizada de herramientas de persuasión poderosas podría tener un impacto social negativo. Si estos instrumentos fuesen empleados por una miríada de grupos para promover ideas muy diversas, el riesgo es que la sociedad se fragmente en "comunidades epistémicas" aisladas, es decir, grupos con marcos de conocimiento tan dispares que el diálogo o la transferencia de información entre ellos se volverían prácticamente imposibles. Este fenómeno se relaciona estrechamente con la personalización creciente de las experiencias en línea, lo que representa una intensificación de la tendencia ya existente hacia las "burbujas de filtro" y las "cámaras de eco", fenómenos impulsados por los algoritmos de selección de contenido.