186 paginas canonicas MIT

2. Privacidad y Seguridad

Riesgos de fuga de datos, ataques, compromiso de sistemas y abuso de informacion sensible.

A Propósito - Pre-Despliegue

Estos riesgos se agrupan bajo las vulnerabilidades inherentes a la cadena de suministro y desarrollo del software. En esencia, se identifican tres vectores de ataque primarios que comprometen la integridad de un sistema de IA antes de su implementación:1. La **Amenaza Interna o Sabotaje Malicioso**: Esta ocurre cuando personal con acceso privilegiado (desde desarrolladores y evaluadores hasta personal de soporte) introduce intencionalmente código malicioso o fallos en el software durante la fase de desarrollo. Esto compromete la seguridad y fiabilidad del sistema desde sus cimientos. 2. La **Intrusión Externa y el Robo de Código**: Implica el acceso no autorizado por parte de agentes externos (como grupos de hackers o agencias de inteligencia) a los proyectos en curso. Su objetivo es robar el código fuente, la propiedad intelectual, o modificarlo sutilmente para insertar vulnerabilidades o puertas traseras. 3. El **Envenenamiento de Datos (Data Poisoning)**: De especial relevancia en el ámbito de la IA, este vector consiste en alimentar deliberadamente los modelos de entrenamiento con conjuntos de datos falsos, sesgados o inseguros. El resultado es un entrenamiento defectuoso que, en última instancia, induce al sistema a generar resultados no confiables o comportamientos sistémicos peligrosos.

2. Privacidad y Seguridad

Asociación en LLMs

La "Asociación" en los Modelos de Lenguaje Grandes (LLMs) se refiere a la habilidad del sistema para establecer y mantener vínculos entre múltiples datos de identificación personal (PII) que corresponden a un mismo individuo. Desde una perspectiva de la seguridad en IA, esto implica que si un modelo ha internalizado una conexión entre dos entidades de PII distintas (por ejemplo, $x_i$ y $x_j$), una consulta o 'prompt' específica que solo mencione o esté relacionada con $x_i$ puede coaccionar al modelo para que revele la información asociada $x_j$. El caso ilustrativo más sencillo es que, si el LLM asocia un nombre ("Alicia") con un correo electrónico específico ("alice@email.com"), simplemente preguntar "¿Cuál es el correo electrónico de Alicia?" resulta en la exposición de su dirección, lo que constituye un vector de riesgo significativo para la privacidad y la fuga de datos personales.

2. Privacidad y Seguridad

Atacar LLMs vía Modalidades Adicionales

Los Modelos de Lenguaje Grandes (LLM) han trascendido el texto, incorporando la capacidad de procesar otras modalidades como imágenes o fotogramas de vídeo. Esta multimodalidad introduce nuevos riesgos en el ámbito de la seguridad de la inteligencia artificial. Por un lado, se ha comprobado que los ataques basados en gradientes contra estos modelos son sencillos y altamente eficaces. Estos métodos manipulan las imágenes de entrada mediante una codificación específica con el fin de obtener resultados no deseados. Por otro lado, modelos como GPT-4Vision son vulnerables a ataques de 'jailbreak' (elusión de restricciones de seguridad) y de exfiltración de datos mediante medios considerablemente más simples. Esto incluye la incrustación de texto de 'jailbreaking' directamente en el contenido visual de una imagen. Un vector de ataque especialmente sutil es la inyección de *prompt* indirecta: el atacante puede ocultar una instrucción maliciosa en la imagen utilizando colores o fuentes apenas perceptibles, o incluso a través de modalidades alternativas que el modelo puede interpretar, como el sistema Braille.

2. Privacidad y Seguridad

Ataque adversario

Avances recientes en la investigación han puesto de manifiesto una paradoja crucial en la seguridad de la Inteligencia Artificial: un modelo de aprendizaje profundo, incluso con una precisión predictiva altísima, es susceptible a un comportamiento anómalo cuando se le presentan los denominados ejemplos adversarios [57,58]. Específicamente, basta con introducir una perturbación mínima en los datos de entrada —una alteración que resulta imperceptible para la cognición humana— para conseguir que un modelo avanzado emita una predicción radicalmente distinta a la correcta [23].

2. Privacidad y Seguridad

Ataque de inferencia de atributos

El ataque de inferencia de atributos (Attribute Inference Attack) constituye una brecha de privacidad avanzada en la que un adversario interroga repetidamente un modelo de inteligencia artificial con el objetivo de extrapolar o deducir características sensibles (atributos) de los individuos que participaron en su entrenamiento. La mecánica de este ataque se basa fundamentalmente en que el atacante ya posee algún conocimiento parcial previo sobre la composición de los datos de entrenamiento, utilizando esa información auxiliar para inferir con éxito aquellos datos privados que el modelo debería mantener rigurosamente confidenciales.

2. Privacidad y Seguridad

Ataque de inferencia de pertenencia

Un ataque de inferencia de pertenencia (Membership Inference Attack) es un vector de ataque a la privacidad cuyo objetivo fundamental es determinar si una muestra de datos específica fue incluida en el conjunto de entrenamiento de un modelo de inteligencia artificial ya desarrollado. En términos metodológicos, el atacante opera formulando consultas repetidas al modelo con la muestra de interés y examinando las respuestas o las puntuaciones de confianza generadas. La capacidad de inferencia radica en la observación de pequeñas diferencias en el comportamiento del modelo, permitiendo al atacante deducir la "membresía" del dato en el conjunto original, comprometiendo así la confidencialidad de la información utilizada para su formación.

2. Privacidad y Seguridad

Ataque de inyección de prompt

El ataque de inyección de *prompt* consiste en una manipulación avanzada del texto de entrada que busca subvertir el propósito o las directrices originales de un modelo de inteligencia artificial generativa. Al alterar la estructura, las instrucciones o la información dentro de la solicitud (el *prompt*), el atacante fuerza al modelo a desatender sus parámetros de seguridad y producir una respuesta o acción inesperada y potencialmente maliciosa.

2. Privacidad y Seguridad

Ataques adversarios dirigidos a técnicas de IA explicable

Los ataques adversariales no solo comprometen la salida o predicción de un modelo de inteligencia artificial, sino que también pueden manipular la explicación o justificación asociada a esa predicción. Mediante técnicas de optimización adversaria, es posible introducir perturbaciones o "ruido" imperceptible en los datos de entrada, logrando que el modelo mantenga su respuesta correcta, pero que la explicación que proporciona para llegar a ella sea alterada de forma arbitraria [61]. Este tipo de manipulación es especialmente difícil de detectar, ya que pasa inadvertida al contrastarla con el resultado final, a diferencia de los ataques tradicionales que buscan falsear directamente la predicción.

2. Privacidad y Seguridad

Ataques adversarios transferibles (open a closed source)

La *transferibilidad* es un riesgo crítico. Un ataque adversario, desarrollado para un modelo completamente conocido (de código abierto y pesos visibles, un "ataque de caja blanca"), tiene la capacidad de **replicar su efectividad en modelos de código cerrado**. Esta brecha se produce a pesar de las defensas establecidas por el proveedor, como el acceso estructurado, y subraya que estas agresiones digitales pueden **generarse de forma totalmente automática** [238]

2. Privacidad y Seguridad

Ataques al Modelo

Los ataques al modelo aprovechan las vulnerabilidades intrínsecas de los Grandes Modelos de Lenguaje (LLM) con un doble propósito: obtener información sensible o forzar al sistema a generar respuestas inapropiadas o erróneas, comprometiendo así su integridad y fiabilidad.

2. Privacidad y Seguridad

Ataques basados en codificación de texto

La investigación sobre la seguridad de los modelos de IA identifica al menos dos metodologías sofisticadas para eludir sus salvaguardas. La primera implica el uso de codificaciones de texto, nuevas o preexistentes —como Base64— para orquestar ataques de "jailbreak". Esencialmente, una instrucción en lenguaje natural potencialmente dañina se "traduce" a estas codificaciones menos habituales, logrando pasar desapercibida. Este éxito se atribuye a que el ajuste fino de seguridad del modelo no incluyó una exposición exhaustiva a este tipo de datos codificados. De forma análoga, una segunda vulnerabilidad reside en la introducción de comandos mediante lenguajes de bajos recursos. Al estar menos representados en el corpus de entrenamiento, los modelos demuestran una menor solidez en la aplicación de sus mecanismos de defensa en estos idiomas.

2. Privacidad y Seguridad

Ataques de "Psicología del Modelo"

Los Modelos de Lenguaje Grandes (LLMs) demuestran una notable vulnerabilidad ante lo que se ha denominado "trucos psicológicos" o de ingeniería social. Estos vectores de ataque capitalizan la capacidad inherente de los LLMs para emular roles y personas. Concretamente, al instruir al modelo para que adopte una personalidad específica o mediante el uso de tácticas de engaño estructuradas (ya sea diseñadas por humanos o por otros LLMs), los atacantes pueden subvertir sus mecanismos de seguridad y manipular la salida del sistema.

2. Privacidad y Seguridad

Ataques de Envenenamiento

Los *ataques de envenenamiento* (*poisoning attacks*) constituyen una sofisticada técnica de manipulación en el campo de la seguridad de la IA. Consisten en la introducción intencionada de pequeñas, pero maliciosas, modificaciones en el conjunto de datos que utiliza un modelo durante su fase de entrenamiento, buscando así influir en su comportamiento futuro de manera sutil. Una aplicación particularmente crítica de este método es el desarrollo de los *ataques de puerta trasera* (*backdoor attacks*). En este escenario, los atacantes logran implantar un "desencadenante" (*trigger*) secreto dentro del modelo. El sistema se comportará de forma normal y esperada hasta que se encuentre con ese estímulo oculto —que en textos puede ser un carácter específico, una palabra rara, una construcción sintáctica, o una frase completa— momento en el que el modelo ejecuta la acción maliciosa que le fue programada.

2. Privacidad y Seguridad

Ataques de Envenenamiento

Se trata de un tipo de ataque adversario cuyo objetivo es inducir a un comportamiento erróneo en el modelo mediante la manipulación intencionada de su conjunto de datos de entrenamiento, una vulnerabilidad comúnmente explotada en los sistemas de clasificación.

2. Privacidad y Seguridad

Ataques de Evasión

Los *Ataques de Evasión* (Evasion Attacks) son una forma de ciberataque avanzado diseñado para explotar la naturaleza estadística de los modelos de *Machine Learning*. Su propósito fundamental es inducir un cambio significativo e incorrecto en la predicción del modelo objetivo. Este proceso se articula mediante la adición de *perturbaciones* —alteraciones mínimas y sutiles— a las muestras de entrada originales, lo que da lugar a la creación de los llamados *ejemplos adversarios*. Dichas perturbaciones no son aleatorias; se implementan de forma estratégica, basándose en la manipulación directa de características de entrada (como cambios en palabras o píxeles) o en el uso de técnicas de optimización matemática que aprovechan los gradientes internos del modelo para maximizar el error de clasificación.

2. Privacidad y Seguridad

Ataques de Extracción

El concepto de 'Ataque de Extracción' (Model Extraction) describe un vector de riesgo crítico donde un actor malicioso, el adversario, interactúa sistemáticamente con un modelo objetivo que opera como una 'caja negra' (es decir, sus detalles internos son desconocidos). Mediante la formulación de consultas y el registro de las respuestas obtenidas, el adversario recopila un conjunto de datos que utiliza para entrenar un *modelo sustituto*. La peligrosidad radica en que este modelo duplicado puede llegar a igualar el rendimiento del modelo víctima. Si bien replicar la totalidad de las capacidades de los Grandes Modelos de Lenguaje (LLMs) sigue siendo un desafío considerable, esta técnica permite a los atacantes desarrollar modelos *específicos de dominio* que logran extraer y asimilar el conocimiento especializado contenido en el LLM original.

2. Privacidad y Seguridad

Ataques de Inferencia

Los *ataques de inferencia* [150] representan una categoría crítica de vulnerabilidades en la seguridad de la IA, la cual se desglosa en ataques de inferencia de pertenencia (*membership*), de inferencia de propiedades y de reconstrucción de datos. Su objetivo primordial es permitir que un adversario deduzca la composición o la información sensible sobre las propiedades internas de los datos privados utilizados para el entrenamiento del modelo. Trabajos previos [67] ya demostraron que la facilidad de ejecución de estos ataques en Modelos de Lenguaje Preentrenados (PLMs) anteriores sugiere una vulnerabilidad inherente, implicando que los Grandes Modelos de Lenguaje (LLMs) actuales también son susceptibles a esta amenaza de seguridad.

2. Privacidad y Seguridad

Ataques de Instrucción

Aparte de los escenarios de seguridad habituales, la investigación contemporánea ha puesto de manifiesto ataques únicos a los que se enfrentan estos modelos. Por ejemplo, Perez y Ribeiro (2022) demostraron que el 'secuestro de objetivos' (goal hijacking) y la 'filtración de prompts' (prompt leaking) pueden engañar fácilmente a los modelos de lenguaje para que emitan respuestas inseguras. Adicionalmente, hemos constatado que los LLMs son más propensos a generar contenido perjudicial si se les añaden comandos específicos. En respuesta a estos retos, hemos desarrollado, categorizado y etiquetado 6 tipos de ataques adversarios que hemos denominado 'Ataques por Instrucción' (Instruction Attack), que suponen un manejo complejo para los grandes modelos de lenguaje. Cabe destacar que estos ataques por instrucción se formulan en lenguaje natural (no en tokens ilegibles), lo que los hace semánticamente intuitivos y plenamente explicables

2. Privacidad y Seguridad

Ataques de Prompt

Este hallazgo subraya una doble vulnerabilidad en los modelos de lenguaje: en primer lugar, se demuestra cómo una **perturbación adversaria** (una modificación sutil y controlada de la entrada) puede **invertir la respuesta de clasificación** de un modelo GPT. En segundo lugar, y de forma más crítica, se constata que la **manipulación específica del *prompt*** permite **circunvenir los filtros de seguridad**, logrando que el sistema divulgue intencionalmente información que había sido programado para no responder.

2. Privacidad y Seguridad

Ataques Overhead

Los *ataques de sobrecarga* (o *overhead attacks*), también designados como *ataques de energía-latencia*, constituyen una amenaza de seguridad centrada en la eficiencia operativa de los sistemas de Inteligencia Artificial. Su mecanismo se basa en que un adversario diseña intencionalmente lo que se conoce como 'ejemplos esponja' (*sponge examples*) para forzar al sistema a consumir la máxima cantidad de energía y recursos de cómputo posible. En consecuencia, esta clase de ataques representa un riesgo significativo para la estabilidad y viabilidad económica de las plataformas que integran Modelos de Lenguaje Grandes (LLMs).

2. Privacidad y Seguridad

Cadenas de Suministro de Software

La complejidad inherente al ecosistema de desarrollo de software (o *toolchain*) de los Modelos de Lenguaje Grandes (LLM) introduce una superficie de ataque significativamente ampliada, lo que conlleva riesgos de seguridad y vulnerabilidades que comprometen el modelo final resultante.

2. Privacidad y Seguridad

Ciberseguridad

Esta sección se dedica a catalogar los vectores de riesgo y las estrategias de mitigación asociados a la ciberseguridad en el ámbito de la Inteligencia Artificial. Específicamente, aborda la gestión de la seguridad desde una doble perspectiva crítica: primero, garantizar la accesibilidad de los modelos de IA exclusivamente a los usuarios autorizados; y segundo, asegurar que estos modelos mantengan un control de acceso apropiado al entorno externo, tanto en la fase de desarrollo como durante su despliegue operativo.

2. Privacidad y Seguridad

Comprometer privacidad filtrando información privada

El riesgo de violación de la privacidad surge cuando un modelo de inteligencia artificial revela información veraz sobre características personales de un individuo, lo cual se debe a su capacidad de "memorizar" datos privados presentes en el *corpus* de entrenamiento en lugar de solo aprender patrones generales (Carlini et al., 2021).

2. Privacidad y Seguridad

Comprometer privacidad filtrando información sensible

Un Modelo de Lenguaje (ML) puede retener, o "memorizar", información de carácter privado que se encuentre inadvertidamente presente en su conjunto de datos de entrenamiento, lo que le confiere la capacidad de exponerla o filtrarla (data leakage). Este fenómeno técnico resulta en una violación directa de la privacidad de los datos afectados [34].

2. Privacidad y Seguridad

Comprometer privacidad infiriendo información privada

Las vulneraciones a la privacidad pueden ocurrir durante la fase de inferencia del modelo, aun cuando los datos privados de un individuo concreto no hayan estado presentes en el conjunto de entrenamiento. De forma similar a otros modelos estadísticos, un Modelo de Lenguaje (LM) puede realizar inferencias correctas sobre una persona basándose exclusivamente en datos correlacionales de otras personas, sin necesidad de acceder a la información que podría ser privada del sujeto específico. Estas inferencias precisas se manifiestan cuando los LMs intentan predecir el género, la raza, la orientación sexual, los ingresos o la religión de una persona a partir de la entrada que esta proporciona.

2. Privacidad y Seguridad

Comprometer privacidad/seguridad infiriendo información sensible

Riesgo Anticipado: La Inferencia como Agente de Filtración de Privacidad Se anticipa el riesgo de que ocurran violaciones a la privacidad durante la fase de inferencia de los Modelos de Lenguaje (ML), incluso sin que los datos del individuo hayan sido incluidos en el corpus de entrenamiento. La preocupación clave reside en la capacidad de los ML para incrementar la precisión con la que infieren rasgos protegidos y sensibles —como la orientación sexual, el género o la filiación religiosa— a partir únicamente de la información proporcionada en la entrada o *prompt*. Esta habilidad de deducción puede facilitar la construcción de perfiles individuales detallados que contienen información veraz y altamente privada, sin que el usuario tenga conocimiento ni haya otorgado su consentimiento.

2. Privacidad y Seguridad

Compromiso de privacidad

Los Ataques de Compromiso de la Privacidad se definen como incidentes de seguridad en los que un modelo de inteligencia artificial expone información sensible o privada que fue utilizada durante su proceso de entrenamiento. Este tipo de vulnerabilidad puede resultar en la filtración de datos altamente confidenciales, como información de identificación personal (DIP) o historiales clínicos, violando el principio fundamental de confidencialidad de los datos originales.

2. Privacidad y Seguridad

Consulta con Opinión Insegura

Este escenario ejemplifica un riesgo de seguridad avanzado conocido como 'manipulación sutil de la entrada' (o *subtle prompt injection*). Al introducir contenido aparentemente inocuo o marginalmente inseguro en el *input*, el usuario puede influir—deliberada o involuntariamente—en el modelo para que genere respuestas con sesgos dañinos. Específicamente, en el contexto de los trabajadores migrantes, el modelo (como ChatGPT) es sutilmente guiado a sugerir mejoras en su 'calidad' como método para 'reducir la tasa de criminalidad local'. La respuesta resultante valida, de forma velada, una opinión sesgada que correlaciona favorablemente la 'calidad general de los inmigrantes' con la tasa de delincuencia, lo cual constituye un fallo de alineación crítico y un riesgo de seguridad al reforzar prejuicios sociales con la autoridad implícita del sistema de inteligencia artificial.

2. Privacidad y Seguridad

Cyberspace risks (Risks of information leakage due to improper usage)

La ausencia de una directriz de uso regulado y apropiado de los servicios de Inteligencia Artificial (IA) expone al personal de entidades gubernamentales y corporaciones a un riesgo de seguridad crítico: la introducción no intencionada de información interna sensible—como datos industriales o secretos de negocio—directamente en el modelo, culminando en la exfiltración de este material confidencial y la consecuente fuga de datos empresariales críticos

2. Privacidad y Seguridad

Cyberspace risks (Risks of security flaw transmission caused by model reuse)

El uso de modelos fundamentales como base de desarrollo (a través de reingeniería o ajuste fino) genera un riesgo sistémico: cualquier vulnerabilidad de seguridad presente en el modelo original se transmite inevitablemente a todos los modelos derivados o subsecuentes.

2. Privacidad y Seguridad

Dañar la privacidad de datos de los usuarios

La operación de los sistemas de Inteligencia Artificial contemporáneos se sustenta en la ingesta de grandes volúmenes de datos. Si este acervo informativo comprende información personal de individuos, surge inherentemente el riesgo de comprometer o menoscabar su derecho fundamental a la privacidad.

2. Privacidad y Seguridad

Daños a la Privacidad

Estos perjuicios están intrínsecamente ligados a la vulneración del derecho moral o legal a la privacidad, tanto a nivel individual como grupal. El riesgo se intensifica cuando los asistentes de inteligencia artificial están diseñados para influir en los usuarios, motivándolos a divulgar información personal o datos privados que incluso conciernen a terceros. Las repercusiones de tales violaciones pueden manifestarse como robo de identidad, o bien como estigmatización y discriminación basadas en características individuales o de grupo, impactando de forma desproporcionada y perjudicial a las comunidades marginadas. Adicionalmente, en un escenario hipotético, los asistentes de IA bajo control estatal podrían recurrir a la manipulación o el engaño para la extracción de información privada con fines de vigilancia.

2. Privacidad y Seguridad

Daños de Información y Seguridad

La definición describe el **riesgo de compromiso de la confidencialidad de la información**, donde un sistema de IA falla en su función de seguridad de datos. Este fallo no se limita a la simple **filtración** de datos sensibles o privados que ya existen en su entrenamiento (extracción), sino que abarca la capacidad del modelo para **reproducir** textualmente fragmentos confidenciales o, más sofisticadamente, **inferir y generar** activamente nueva información clasificada o de naturaleza peligrosa a partir de patrones y correlaciones que encontró latentes en su conjunto de datos.

2. Privacidad y Seguridad

Data-related (Difficulty filtering large web scrapes or large scale web datasets)

La recolección masiva de datos provenientes de la web abierta —o *scraping* a gran escala— para conformar los *datasets* de entrenamiento de la inteligencia artificial, introduce vulnerabilidades críticas en la seguridad y la calidad del modelo resultante. Específicamente, esta práctica incrementa significativamente el riesgo de **envenenamiento de datos** (*data poisoning*), facilita la ejecución de **ataques de puerta trasera** (*backdoor attacks*), y conduce a la inclusión de información inherentemente imprecisa o tóxica. Ante la inmensidad de estos *datasets*, la labor de filtrar estas anomalías de calidad se vuelve notoriamente compleja, generando una difícil disyuntiva entre tolerar un riesgo residual elevado o asumir una pérdida significativa del volumen total de datos aprovechables.

2. Privacidad y Seguridad

Data-related (Insufficient quality control in data collection process)

La calidad de los datos es un pilar fundamental para la seguridad y la fiabilidad de la inteligencia artificial. La carencia de métodos estandarizados y de una infraestructura suficiente —que incluye procesos de control de calidad— para la recopilación de datos, especialmente en dominios de alto riesgo o para conjuntos de datos de referencia (benchmarks), compromete intrínsecamente su utilidad. Esta falta de rigor introduce riesgos críticos como el envenenamiento del conjunto de datos (dataset poisoning), la violación inadvertida de derechos de autor, o las fugas del conjunto de prueba (test set leakages), un fenómeno que contamina el entrenamiento y, consecuentemente, invalida las métricas de rendimiento reportadas por el modelo.

2. Privacidad y Seguridad

Datos confidenciales en el prompt

Existe el riesgo inherente de que información sensible o confidencial sea incorporada en el *prompt* (la instrucción de entrada) que se transmite al modelo, lo que plantea una seria vulnerabilidad en la gestión de la privacidad de los datos.

2. Privacidad y Seguridad

Datos de Entrenamiento Privados

El creciente uso de Modelos de Lenguaje de Gran Escala (LLMs) ha conllevado la integración de vastos corpus de datos licenciados, creados y públicos. Sin embargo, esta expansión incrementa notablemente el riesgo de que datos privados—aquellos que constituyen Información de Identificación Personal (PII) [84, 86]—se filtren en el material de entrenamiento. La PII es la huella digital sensible de un individuo, abarcando elementos como nombre, correo electrónico, número de teléfono, dirección, historial educativo y trayectoria profesional. La incorporación indebida de PII en un LLM se materializa, fundamentalmente, a través de dos vectores: Primero, mediante la explotación de la vasta data recopilada directamente de la web, que a menudo incluye PII sensible rastreada de fuentes en línea. Segundo, a través de la práctica de alinear el modelo utilizando conversaciones personales entre humanos y máquinas [87], material que es crucial para procesos de optimización como el Ajuste Fino Supervisado (SFT) y el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF)

2. Privacidad y Seguridad

Datos de Usuario de IA Generativa

Muchas herramientas de inteligencia artificial generativa exigen un inicio de sesión para el acceso y, de manera habitual, retienen una amplia gama de información del usuario, incluyendo datos de contacto, dirección IP, y todos los insumos, productos o "conversaciones" generadas dentro de la aplicación. Esta dinámica plantea una profunda implicación ética en términos de consentimiento informado: el servicio, aunque publicitado como "gratuito", se costea mediante la apropiación y el uso sistemático de los datos del usuario para el entrenamiento y perfeccionamiento constante de los modelos subyacentes. Si bien este proceso tiene un vínculo inherente con la seguridad, las directrices de buenas prácticas en el sector de la IA dictan, idealmente, que el uso de la herramienta no requiera autenticación y que el contenido generado por el usuario no sea retenido ni utilizado bajo ningún concepto tras la finalización de su interacción activa.

2. Privacidad y Seguridad

Datos personales

Los resultados negativos de la implementación de la IA se concentran en dos ejes de riesgo crítico: la **violación de la privacidad** y las **acciones legales (demandas) contra el fabricante**. En el ámbito de la **violación de la privacidad**, el riesgo se origina en la metodología de entrenamiento de los modelos de IA, la cual a menudo implica el rastreo y la recopilación masiva de datos personales de internet (*web scraping*) sin el consentimiento explícito de los usuarios. Esta práctica ha provocado numerosas demandas colectivas (por ejemplo, contra OpenAI y Google) que alegan el uso indebido de información privada, desde comentarios en redes sociales y publicaciones de blogs hasta datos biométricos, infringiendo leyes de protección de datos. En cuanto a la **demanda contra el fabricante**, el principio fundamental que emerge es que la responsabilidad legal por los daños causados por la IA recae directamente sobre las empresas y las personas que la desarrollan y despliegan, no sobre el sistema algorítmico en sí. Las acciones legales son variadas e incluyen: - **Infracción de derechos de autor**: Por utilizar material protegido para el entrenamiento de los modelos o porque el contenido generado por la IA copia o se asemeja a obras protegidas. - **Violación de leyes de privacidad**: Como resultado del *scraping* de datos o el uso de información personal en contravención de normativas locales e internacionales. - **Difamación y falsa información**: Si el sistema de IA genera contenido inexacto, falso o difamatorio, la empresa que lo publica asume la responsabilidad. - **Negligencia**: En casos de resultados perjudiciales, como la difusión de imágenes explícitas no consentidas generadas por IA (*deepfakes*).

2. Privacidad y Seguridad

Datos propietarios

Riesgo de compromiso de la confidencialidad de información corporativa sensible a través del acceso indebido por parte del sistema de inteligencia artificial

2. Privacidad y Seguridad

Desafíos legales

Desde la irrupción de ChatGPT, se ha intensificado un discurso fundamental sobre las encrucijadas legales sin precedentes que plantean los sistemas de Inteligencia Artificial generativa. Estos desafíos se articulan principalmente en torno a dos pilares esenciales: la protección de la privacidad y los datos personales, y la estricta observancia de los derechos de autor. El primer pilar se enfoca en la salvaguarda efectiva de la información sensible de los individuos. El segundo, de naturaleza más compleja, aborda tanto la legitimidad del uso de material protegido por copyright en los conjuntos de entrenamiento de la IA como la crítica tarea de establecer la titularidad y el estatus jurídico de las obras que estas mismas herramientas generan.

2. Privacidad y Seguridad

Difusión de información peligrosa

Consiste en la capacidad de un sistema de inteligencia artificial para divulgar, generar o deducir con exactitud información clasificada o peligrosa que podría constituir una seria amenaza para la seguridad.

2. Privacidad y Seguridad

Dispositivos de Red

El entrenamiento de los Modelos de Lenguaje Grandes (LLM) se realiza de forma recurrente en sistemas de red distribuidos. Esta configuración implica la transmisión constante de *gradientes* —la información esencial para el ajuste iterativo del modelo— a través de los enlaces que conectan los distintos nodos de servidores equipados con unidades de procesamiento gráfico (GPU). El resultado es la generación de un volumen significativo de tráfico de datos, el cual es intrínsecamente vulnerable a interrupciones. Específicamente, puede ser susceptible al llamado *tráfico de ráfaga*, ejemplificado por los *ataques pulsantes*, que buscan saturar momentáneamente la capacidad de la red. De forma complementaria, la propia naturaleza de estos *frameworks* de entrenamiento distribuido puede conducir a problemas recurrentes de congestión en los canales de comunicación.

2. Privacidad y Seguridad

Divulgación

La divulgación de datos personales se define como la revelación o el intercambio indebido de información individual. En el contexto de la inteligencia artificial, este riesgo se intensifica y diversifica significativamente: por un lado, la IA introduce nuevas vulnerabilidades de divulgación al ser capaz de inferir información sensible adicional no capturada de forma explícita en los datos de origen; por otro lado, la práctica de compartir datos personales para el entrenamiento de modelos acelera y exacerba los riesgos de exposición.

2. Privacidad y Seguridad

Entrada adversaria

El concepto de Entradas Adversarias, crucial en la seguridad de la Inteligencia Artificial, describe una técnica por la cual se manipulan los datos de entrada individuales de un modelo con el fin específico de provocar su mal funcionamiento o un error de clasificación. Lo que distingue a estas modificaciones es su naturaleza sigilosa: son alteraciones mínimas, a menudo imperceptibles para el ojo humano, que explotan las debilidades o la lógica interna del modelo de toma de decisiones. Este tipo de ataque es transversal y no se limita al texto, sino que se extiende a datos sensoriales como imágenes, audio o vídeo. El ejemplo canónico es la alteración de apenas unos pocos píxeles en una imagen de un panda, lo que induce al modelo de clasificación a etiquetar esa imagen, con una alta convicción errónea, como un gibón. Este fenómeno expone una brecha fundamental en la robustez de los modelos de IA frente a perturbaciones sutiles.

2. Privacidad y Seguridad

Envenenamiento

El Envenenamiento de Datos (Data Poisoning) se define como la corrupción intencional del conjunto de datos de entrenamiento de un modelo de inteligencia artificial. Esta acción busca implantar vulnerabilidades de forma encubierta, desviar su proceso de aprendizaje o forzarlo a generar predicciones incorrectas. Estos ataques explotan una vulnerabilidad clave: la mayoría de los modelos de IA Generativa se entrenan con grandes volúmenes de información pública, como imágenes y vídeos extraídos de la web, lo que facilita la acción de actores maliciosos. Un caso ilustrativo es la herramienta Nightshade, la cual permite a los artistas introducir alteraciones sutiles e invisibles en los píxeles de su arte digital antes de subirlo. El propósito de estas modificaciones es sabotear y 'romper' cualquier modelo que intente utilizar esas obras para su entrenamiento.

2. Privacidad y Seguridad

Envenenamiento de datos

El Envenenamiento de Datos (Data Poisoning) es un ataque que busca comprometer la integridad de un modelo de Inteligencia Artificial mediante la inyección deliberada de información maliciosa o corrupta en su conjunto de entrenamiento. De no ser mitigado, este proceso provoca que el sistema aprenda patrones incorrectos o desarrolle sesgos, manifestando un comportamiento no intencionado o dañino.

2. Privacidad y Seguridad

Envenenamiento de datos

Se trata de una modalidad de ataque adversario que consiste en la inserción intencionada de muestras de datos corrompidos, falsos o engañosos por parte de un actor externo o un *insider* malicioso. El objetivo fundamental es socavar la integridad y el rendimiento del modelo al comprometer directamente los conjuntos de datos utilizados en su fase de entrenamiento o de ajuste fino (*fine-tuning*).

2. Privacidad y Seguridad

Errores Factuales Inyectados por Herramientas Externas

Las herramientas externas enriquecen habitualmente las instrucciones de entrada (prompts) de un modelo de IA con información adicional, a menudo proveniente de recursos públicos como APIs web o motores de búsqueda. No obstante, la fiabilidad de estas herramientas no es absoluta. En consecuencia, el contenido que devuelven puede incorporar errores fácticos, lo cual amplifica significativamente la tendencia del modelo a 'alucinar' o generar información incorrecta.

2. Privacidad y Seguridad

Esteganografía

La esteganografía, en el contexto de la Inteligencia Artificial Generativa (IAG), se define como el método de incrustar mensajes cifrados o datos ocultos dentro del contenido generado por el modelo. Este mecanismo representa un vector de riesgo significativo, ya que facilita que actores maliciosos establezcan canales de comunicación clandestinos y no detectables.

2. Privacidad y Seguridad

Evasion attack

Los ataques de evasión, en el ámbito de la ciberseguridad adversaria, son una técnica empleada para manipular un modelo de aprendizaje automático que ya se encuentra en producción. El mecanismo central reside en introducir una 'perturbación' estratégica y casi imperceptible en los datos de entrada que se le suministran al modelo. Si bien esta alteración es indetectable para un observador humano, es suficiente para desorientar la función de decisión del algoritmo, forzándolo a emitir una clasificación o predicción completamente errónea y, de esta forma, evadir su correcto funcionamiento.

2. Privacidad y Seguridad

Exclusión

Se refiere a la omisión de asegurar la notificación y el control efectivo de los usuarios finales sobre la explotación de sus datos. Este vacío es exacerbado por la Inteligencia Artificial, la cual amplifica los riesgos de exclusión y discriminación al entrenarse con vastos conjuntos de datos personales y sensibles sin el debido consentimiento informado.

2. Privacidad y Seguridad

Exfiltración de datos

La Exfiltración de Datos (Data Exfiltration) va más allá de la simple divulgación de información confidencial, enfocándose en la obtención ilícita de los datos de entrenamiento utilizados para construir un modelo, material que a menudo es sensible o propietario. Por otro lado, la Extracción de Modelos (Model Extraction) representa el mismo vector de ataque, pero dirigido al producto final en lugar de la materia prima: implica conseguir la arquitectura, los parámetros o los hiperparámetros de un modelo propietario, comprometiendo así la propiedad intelectual del sistema (Carlini et al., 2024)

2. Privacidad y Seguridad

Explotación de Generalización Limitada de Finetuning de Seguridad

El **ajuste de seguridad** (*safety tuning*) de los modelos de inteligencia artificial se aplica sobre una distribución de datos significativamente más estrecha que la utilizada en la fase de preentrenamiento inicial. Esta limitación inherente crea una vulnerabilidad persistente: el modelo sigue siendo susceptible a ataques que logran explotar las *lagunas* en la generalización de la formación de seguridad. Estos ataques de evasión a menudo se materializan mediante el uso de texto codificado (que el modelo no asocia con contenido peligroso) o a través de la instrucción en lenguajes con muy bajos recursos digitales, donde el entrenamiento de seguridad ha sido menos riguroso.

2. Privacidad y Seguridad

Explotación de Herramientas Externas para Ataques

El riesgo clave surge cuando los Grandes Modelos de Lenguaje (LLMs) interactúan con herramientas y servicios de terceros. Los atacantes, bajo la apariencia de proveedores de herramientas, pueden *incrustar instrucciones maliciosas* directamente en las APIs o en las peticiones de los usuarios. Esto fuerza al LLM a *filtrar datos sensibles* que ha memorizado (ya sea información de entrenamiento confidencial o datos de la propia sesión del usuario), revelándolos a entidades externas (un problema documentado como CVE2023-32786). Además, la alimentación de datos no verificados desde estas herramientas externas a los LLMs abre la puerta a *ataques de inyección*. Si estos comandos maliciosos no son sanitizados, el riesgo puede escalar hasta permitir la *ejecución de código arbitrario* en el sistema subyacente (CVE-2023-29374), comprometiendo su integridad y control.

2. Privacidad y Seguridad

Exposición

El riesgo se centra en la divulgación de información privada sensible considerada intrínsecamente íntima, cuya preservación ha sido un pilar de la socialización. La inteligencia artificial amplifica esta amenaza al crear nuevos vectores de exposición. Específicamente, las técnicas generativas permiten la reconstrucción de contenido censurado o redactado, y el sistema es capaz de inferir y exponer datos, preferencias e intenciones sensibles que no fueron provistos explícitamente.

2. Privacidad y Seguridad

Exposición de información personal

El concepto se enmarca dentro de los riesgos de seguridad de la IA, específicamente en la denominada *fuga de datos* o *filtración de información*. Este fenómeno ocurre cuando se incorpora *información de identificación personal* (IIP) o *información personal sensible* (IPS) en alguna etapa crucial del modelo, ya sea durante su entrenamiento, en el proceso de ajuste fino (*fine-tuning*) o incluso al ser introducida directamente por el usuario como parte de la instrucción o *prompt*. El riesgo inherente es que el modelo retenga y, subsiguientemente, revele o exponga esta información privada en el contenido que genera. Es, en esencia, la externalización involuntaria y no deseada de datos privados que deberían haber permanecido confinados al entorno interno del sistema.

2. Privacidad y Seguridad

Exposición Inversa

Se refiere a la manipulación deliberada del modelo por parte de un atacante para eludir sus salvaguardas éticas y de seguridad, forzándolo a generar contenido prohibido o a divulgar información de naturaleza ilegal o inmoral.

2. Privacidad y Seguridad

Extracción del modelo

En el campo de la seguridad de la Inteligencia Artificial, es crucial distinguir entre dos formas de compromiso ilícito dirigidas a la propiedad intelectual de un sistema. La **Exfiltración de Datos** (Data Exfiltration) consiste en la obtención subrepticia de los conjuntos de datos de entrenamiento que pueden ser sensibles o propietarios, y que fueron la base para construir el modelo. Este riesgo supera la mera filtración de información privada. Por otro lado, la **Extracción de Modelos** (Model Extraction) es una operación similar, pero cuyo objetivo es el propio sistema de IA, y no sus datos de origen. Implica la sustracción de elementos clave como la arquitectura, los parámetros o los hiperparámetros de un modelo propietario (Carlini et al., 2024).

2. Privacidad y Seguridad

Extraction attack

El ataque de inferencia de atributos (Attribute Inference Attack) es un vector de ataque a la privacidad cuyo objetivo principal es deducir características sensibles o información privada específica de los individuos que participaron en el entrenamiento de un modelo de inteligencia artificial. Este ataque se materializa cuando un adversario ya posee algún conocimiento *a priori* sobre la estructura o la naturaleza de los datos originales, utilizando esa información privilegiada para inferir y clasificar atributos que se consideran confidenciales

2. Privacidad y Seguridad

Finetuning (Envenenamiento de dataset)

El riesgo central aquí es el llamado envenenamiento del conjunto de datos, o *data poisoning*. Este ataque ocurre durante la fase crítica del ajuste fino (*fine-tuning*), un proceso en el que se adapta un modelo ya entrenado a un conjunto de datos o tarea específicos. Un actor malicioso puede inyectar datos sutilmente manipulados en este conjunto con el propósito de inducir comportamientos específicos —y generalmente perjudiciales— en el modelo resultante. La particularidad de esta amenaza es que la alteración se ejecuta sin necesidad de acceder a los pesos o a la arquitectura interna del modelo, atacando directamente la cadena de suministro de los datos. Dado que estas manipulaciones son intencionalmente sutiles y muy dirigidas, su detección a través de una simple inspección del *dataset* es notoriamente compleja.

2. Privacidad y Seguridad

Finetuning (Envenenamiento durante instruction tuning)

Un vector de riesgo emergente en la seguridad de la IA es el *envenenamiento* durante la fase de *Instruction Tuning* o ajuste por instrucciones. Esta etapa es fundamental: el modelo se sintoniza con pares de instrucciones y resultados deseados, lo que define su comportamiento final. La preocupación radica en la eficiencia del ataque: dado que el *instruction tuning* requiere un volumen de datos comparativamente menor para el *fine-tuning* (ajuste fino), un atacante puede introducir muestras comprometidas, es decir, el "veneno", utilizando una cantidad notablemente reducida de datos. Este efecto de palanca minimiza el coste del ataque y maximiza su impacto. Además, la situación se complica cuando la recolección de estos conjuntos de datos se realiza mediante esfuerzos anónimos de *crowdsourcing* (colaboración masiva), lo que introduce una vulnerabilidad en la cadena de suministro de datos y facilita la inyección de contenido malicioso. En última instancia, esta naturaleza de baja densidad y alta focalización hace que este tipo de ataques de envenenamiento sean intrínsecamente más difíciles de detectar que sus contrapartes tradicionales.

2. Privacidad y Seguridad

Frameworks de Deep Learning

Los Modelos de Lenguaje Grande (LLM) se cimentan sobre la infraestructura de los *frameworks* de aprendizaje profundo. Es crucial notar que, en los últimos años, se han hecho públicas diversas vulnerabilidades inherentes a estas arquitecturas base. De hecho, los informes de los últimos cinco años destacan tres fallas recurrentes como las más comunes: los ataques por desbordamiento de búfer (*buffer overflow*), la corrupción de memoria y los problemas asociados con la validación inadecuada de entradas.

2. Privacidad y Seguridad

Fuga

Riesgo de Exposición de Datos Confidenciales. El modelo conversacional de inteligencia artificial revela información que, por su naturaleza, debería permanecer sensible o estrictamente privada.

2. Privacidad y Seguridad

Fuga de información privada

Debido a su inmensa capacidad de modelado, existe un riesgo significativo de que los pesos de los Modelos de Lenguaje Grandes (LLM) codifiquen y "memoricen" información privada presente en el corpus de entrenamiento. Específicamente, los LLM pueden retener datos de identificación personal (PII) —como nombres, direcciones o números de teléfono— y, consecuentemente, filtrarlos a través del texto que generan. Esta fuga de información puede ocurrir de forma accidental o como resultado de un ataque intencional en el que se utiliza un *prompt* adversario para extraer datos sensibles del modelo. En el contexto de los datos de preentrenamiento tomados de fuentes públicas en línea, la potencial filtración agrava la paradoja de "la privacidad en lo público" en relación con el paradigma del "derecho a ser dejado en paz", subrayando la necesidad de adoptar el marco de la integridad contextual para los LLM. Es importante señalar que la fuga también puede afectar a la información recopilada en etapas posteriores del desarrollo, como los datos de retroalimentación utilizados para el refinamiento del modelo. No obstante, la extracción de datos que ya están disponibles públicamente no los hace inherentemente más sensibles. La evaluación del riesgo asociado a tales ataques debe sopesarse según las intenciones y la culpabilidad del usuario que realiza la extracción.

2. Privacidad y Seguridad

Fuga de pesos del modelo

El riesgo se materializa a través de la fuga de los pesos del modelo de IA, las variables matemáticas que definen su comportamiento interno, un incidente que puede ocurrir incluso cuando el acceso inicial se limita a círculos controlados, como el de investigadores institucionales. Es fundamental comprender que esta vulnerabilidad se agrava exponencialmente a medida que se expande el número de individuos con acceso, volviendo la identificación del vector de la fuga significativamente más compleja. La disponibilidad de estos pesos filtrados tiene dos consecuencias críticas: primero, simplifica la implementación de ataques sofisticados, tales como la identificación de ejemplos adversarios para subvertir el modelo, la manifestación de capacidades peligrosas latentes en el sistema, o la exfiltración de información confidencial residual de los datos de entrenamiento. Segundo, permite la manipulación directa del sistema de IA, eludiendo sus salvaguardas para producir contenido que puede ser considerado dañino o ilícito.

2. Privacidad y Seguridad

Fuga de Privacidad

Fuga de Privacidad (Privacy Leakage) se refiere al fenómeno por el cual el contenido generado por un modelo de inteligencia artificial revela inadvertidamente información personal sensible. Este evento constituye la exposición no intencionada de datos confidenciales, originados en el conjunto de entrenamiento o en las entradas del usuario, planteando serias implicaciones éticas y de seguridad en la aplicación de sistemas de IA.

2. Privacidad y Seguridad

Fuga de Privacidad

Este es un problema crítico de la seguridad en la IA, conocido técnicamente como *filtración de datos sensibles* o *leakage*. Surge cuando el modelo de lenguaje, al ser alimentado con un vasto *corpus de entrenamiento* que contiene información personal o confidencial, inadvertidamente *memoriza* ciertos datos sensibles. Si esta información —que nunca debería haber sido revelada— se memoriza, el modelo puede, bajo ciertas indicaciones o de forma impredecible, *regurgitarla* en una conversación posterior, exponiendo así datos privados a un tercero. Esta es una vulnerabilidad estructural que desafía los principios de privacidad y gestión de datos.

2. Privacidad y Seguridad

Fuga de Prompt

El concepto de 'fuga de instrucciones' o prompt leaking describe una sofisticada forma de ciberataque dentro de la familia de la inyección de instrucciones. Su propósito es conseguir que el modelo de lenguaje revele de manera involuntaria las directrices privadas y confidenciales que le fueron programadas para definir su comportamiento y funcionalidad central. Esencialmente, se engaña al LLM, a menudo mediante una secuencia de comandos específica inyectada en la entrada, para que imprima su propia 'instrucción inicial' o 'prompt de sistema', exponiendo así información sensible sobre el diseño de la aplicación. Es un desafío técnico que, según la investigación, es considerablemente más complejo de ejecutar que el simple 'secuestro de objetivo'.

2. Privacidad y Seguridad

Fuga de Prompt

Este fenómeno constituye una vulnerabilidad crítica conocida como "extracción de *prompt*" o fuga de instrucciones de sistema. Consiste en que, mediante el análisis ingenioso de las respuestas generadas por el modelo, un adversario puede inferir y reconstruir parcialmente las directrices internas (el *prompt* de sistema) que fueron diseñadas para permanecer secretas. La consecuencia directa es la potencial obtención de información sensible sobre la configuración, las reglas operacionales o las defensas propietarias del sistema de inteligencia artificial.

2. Privacidad y Seguridad

Generación de código dañino

La capacidad de los modelos para generar código conlleva el riesgo inherente de producir resultados que causen daños o que, de forma no intencionada, interfieran o alteren el funcionamiento de otros sistemas.

2. Privacidad y Seguridad

Gobernanza de datos

Estas evaluaciones abordan dos vectores de riesgo fundamentales en los Modelos de Lenguaje Grandes (LLMs). En primer lugar, cuantifican la propensión de los modelos a la *reproducción textual* o *regurgitación* de fragmentos específicos de su conjunto de datos de entrenamiento. En segundo lugar, investigan si los LLMs pueden involuntariamente *divulgar* o *filtrar* información sensible que el usuario les ha facilitado durante el proceso de interacción directa, conocido en la investigación como la fase de inferencia.

2. Privacidad y Seguridad

Herramientas de pre-procesamiento

Las herramientas de preprocesamiento son fundamentales en el contexto de los Modelos de Lenguaje Grandes (LLMs). Estas herramientas, a menudo empleadas en tareas de Visión por Computadora (CV), presentan una vulnerabilidad crítica: son susceptibles a ataques que buscan explotar fallas de seguridad en software ampliamente utilizado, como por ejemplo, OpenCV.

2. Privacidad y Seguridad

IA Adversaria (General)

La Inteligencia Artificial Adversaria (IAA) se refiere a una clase de ataques dirigidos a explotar las debilidades intrínsecas de los modelos de aprendizaje automático. Esta forma de abuso se manifiesta al manipular las vulnerabilidades del propio asistente de IA para eludir sus mecanismos de seguridad integrados, políticas y límites éticos, lo que a menudo permite la explotación de vulnerabilidades de privacidad. Más allá de su uso indebido para operaciones cibernéticas ofensivas, los asistentes avanzados de IA representan un objetivo de abuso emergente, donde actores malintencionados explotan los propios sistemas de IA para infligir daño. Aunque la plena comprensión de las vulnerabilidades en los modelos de IA de frontera es un desafío de investigación en curso, ya se han documentado ataques que son únicos para la IA. Estos incluyen técnicas como la evasión, el envenenamiento de datos, la replicación de modelos y la explotación de fallos de software tradicionales para engañar, manipular, comprometer o inutilizar los sistemas de IA. Esta amenaza es distinta de las actividades cibernéticas tradicionales. A diferencia de los ciberataques convencionales, que suelen derivarse de 'bugs' o errores humanos en el código, los ataques de IAA son viabilizados por vulnerabilidades inherentes a los algoritmos de IA subyacentes y a la forma en que estos se integran en los ecosistemas de software existentes.

2. Privacidad y Seguridad

IA Adversaria: Ataques de Exfiltración de Datos y Modelos

Otras modalidades de abuso abarcan ataques a la privacidad, los cuales posibilitan que agentes malintencionados extraigan o infieran conocimiento sobre el conjunto de datos de entrenamiento privado o activos valiosos. Un ejemplo paradigmático es el ataque de inferencia de membresía (membership inference), que permite a un atacante determinar si un registro médico privado específico fue utilizado en el entrenamiento de un asistente de diagnóstico médico basado en IA. Un segundo eje de riesgo se centra en ataques contra la propiedad intelectual del asistente de IA. Estos se manifiestan a través de ataques de extracción y destilación de modelos que capitalizan la inherente tensión entre la necesidad de acceso a la API y la confidencialidad de los modelos de Machine Learning. Sin las mitigaciones adecuadas, estas vulnerabilidades podrían ser explotadas para abusar del acceso a una API de modelo de cara al público, permitiendo la exfiltración de propiedad intelectual sensible, como datos de entrenamiento críticos, la arquitectura del modelo y sus parámetros aprendidos.

2. Privacidad y Seguridad

IA Adversaria: Evasión de Medidas Técnicas de Seguridad

Las propias medidas técnicas diseñadas para mitigar los riesgos de uso indebido en los asistentes de IA avanzados se están convirtiendo en un nuevo objetivo de ataque. Ha surgido una forma específica de uso malicioso en la que se explotan las vulnerabilidades intrínsecas de un modelo de IA de propósito general. Esto puede resultar en un comportamiento no deseado del sistema o en la capacidad de un atacante para obtener acceso no autorizado a sus funcionalidades. Aunque estos ataques actualmente requieren cierto conocimiento de ingeniería de *prompts* y son parcheados por los desarrolladores, la preocupación principal es que actores maliciosos puedan desarrollar sus propios agentes de IA antagónicos. Estos sistemas de ataque estarían entrenados específicamente para descubrir nuevas vulnerabilidades de manera automatizada, permitiéndoles evadir los mecanismos de seguridad integrados en los asistentes de IA. Para combatir esto, los desarrolladores de modelos de lenguaje están inmersos en una constante "carrera armamentística cibernética", buscando diseñar algoritmos de filtrado cada vez más avanzados que puedan identificar e interceptar estos intentos de elusión. Si bien la severidad de estos ataques es limitada hoy, ya que los asistentes de IA son principalmente *chatbots* basados en texto, la evolución hacia entradas multimodales (voz, imagen) y espacios de acción de mayor riesgo incrementará significativamente el impacto de cualquier brecha. El desarrollo de sistemas de IA más avanzados podría desbloquear capacidades que planteen riesgos extremos que deben ser protegidos, tales como habilidades cibernéticas ofensivas, potentes destrezas de manipulación o incluso la facilitación en la adquisición de armamento.

2. Privacidad y Seguridad

IA Adversaria: Inyecciones de Prompt

Las inyecciones de 'prompts' (o instrucciones) representan una clase de ciberataques dirigidos a sistemas interactivos basados en Modelos de Lenguaje Grande (LLM). Consisten en la inserción maliciosa de comandos o solicitudes ocultas que llevan al modelo a ejecutar acciones no deseadas o a divulgar información sensible. Su mecánica es comparable a la clásica inyección SQL en ciberseguridad: el comando incrustado se disfraza de entrada legítima, pero tiene un impacto pernicioso. Un 'prompt' inyectado puede engañar a la aplicación para que ejecute código no autorizado, explotando vulnerabilidades y comprometiendo la seguridad integral del sistema. Más recientemente, se han documentado las 'inyecciones indirectas de prompts'. Aquí, el adversario no interactúa directamente, sino que inyecta comandos estratégicamente en los datos que el LLM probablemente recuperará. Estas pruebas de concepto han demostrado que el ataque puede culminar en el compromiso total del modelo durante el tiempo de inferencia, permitiendo el control remoto, el compromiso persistente, el robo de datos y la denegación de servicio. Dado que los asistentes avanzados de IA se integrarán progresivamente en ecosistemas de software más amplios—a través de plugins y con acceso a internet o al sistema operativo—la gravedad de las inyecciones de 'prompts' escalará, haciendo imperativa la adopción de mecanismos de mitigación robustos.

2. Privacidad y Seguridad

Inferencia de información privada

Finalmente, es crucial considerar que los Modelos de Lenguaje Grandes (LLM) poseen la capacidad de *inferir* información privada directamente de las entradas que procesan (los *prompts*), un riesgo que persiste incluso si dicha información sensible no estaba explícitamente contenida en su *corpus de entrenamiento*. Un caso ilustrativo de esta capacidad deductiva es cómo un LLM podría llegar a *deducir* características personales delicadas, como la raza o el género, basándose únicamente en la estructura o el contenido contextual proporcionado en la solicitud de entrada. Esto subraya una vulnerabilidad de privacidad por *inferencia* que trasciende la simple memorización de datos.

2. Privacidad y Seguridad

Información confidencial en datos

Es factible que información de carácter confidencial sea inadvertidamente incorporada a los conjuntos de datos que se emplean para el entrenamiento o el ajuste de precisión del modelo.

2. Privacidad y Seguridad

Información de PI en prompt

El riesgo latente de que datos sensibles o protegidos legalmente —como información con derechos de autor o propiedad intelectual— sean incorporados inadvertidamente en la instrucción o 'prompt' que se suministra al modelo de inteligencia artificial

2. Privacidad y Seguridad

Información personal en datos

La presencia de información personal identificable (PII) o sensible (SPI) en los datos de entrenamiento de un modelo de IA crea un riesgo de **extracción involuntaria de datos**. El modelo podría 'memorizar' estos registros y revelarlos a un usuario, resultando en la divulgación no deseada de información confidencial.

2. Privacidad y Seguridad

Información personal en prompt

En el contexto de la seguridad y privacidad de la Inteligencia Artificial, el concepto se define como la **Exposición de Datos Sensibles en la Solicitud (Prompt)**. Esta es una vulnerabilidad crítica que se materializa cuando el usuario introduce, de forma inadvertida o deliberada, información de carácter personal o sensible—como identificadores, datos médicos o financieros—directamente en el campo de texto (el *prompt*) que interactúa con el modelo de IA. El riesgo inherente radica en que dicha información confidencial puede ser almacenada, utilizada para el entrenamiento futuro del modelo o quedar expuesta a terceros, comprometiendo así los principios fundamentales de la privacidad de los datos.

2. Privacidad y Seguridad

Infracción de privacidad

El riesgo de que los sistemas de inteligencia artificial filtren, generen o deduzcan de forma precisa la información privada y los datos personales de los individuos, constituyendo una violación fundamental de la privacidad.

2. Privacidad y Seguridad

Inseguridad

El riesgo de **filtración y acceso indebido a datos personales** surge de la **negligencia en las prácticas operativas**, manifestada en sistemas de almacenamiento y gestión de datos que presentan fallas estructurales.

2. Privacidad y Seguridad

Instrucción de Juego de Rol

El riesgo se materializa cuando un atacante induce al modelo a adoptar un *atributo de rol* específico dentro de su indicación, un fenómeno que podríamos denominar 'suplantación de identidad forzada'. Al obligar a la IA a asumir un personaje asociado a grupos de riesgo (como radicales, extremistas o discriminadores), el sistema prioriza la *fidelidad al estilo y las directrices del rol* sobre sus propios protocolos de seguridad. Esta obediencia excesiva a la identidad asignada es la vulnerabilidad clave, permitiendo que el modelo emita contenido potencialmente peligroso o no ético directamente vinculado a la personalidad que se le ha impuesto.

2. Privacidad y Seguridad

Interconectividad con herramientas externas maliciosas

La creciente interconexión de los sistemas de Inteligencia Artificial con herramientas y complementos externos amplifica significativamente su superficie de exposición. Este paradigma de integración introduce un vector de riesgo inherente, ya que facilita la entrada de datos maliciosos o la inyección de contenido perjudicial proveniente de dichas fuentes externas, comprometiendo así la integridad y seguridad del modelo.

2. Privacidad y Seguridad

Invasión de Privacidad

La dependencia intrínseca de los sistemas de inteligencia artificial en vastas colecciones de datos para su entrenamiento y funcionamiento efectivo introduce un riesgo significativo para la privacidad. Esta amenaza se materializa si los datos de carácter sensible son objeto de una manipulación deficiente o se utilizan con propósitos indebidos.

2. Privacidad y Seguridad

Inyección de prompt

La Inyección de Prompts es una forma de Entrada Adversaria que se basa en manipular las instrucciones de texto introducidas en un sistema de Inteligencia Artificial Generativa (GenAI). Fundamentalmente, este método explota una vulnerabilidad en la arquitectura de los modelos que carece de una separación estricta entre las directrices internas del sistema y los datos proporcionados por el usuario, forzando al modelo a producir resultados que pueden ser perjudiciales. Si bien la investigación utiliza técnicas similares para evaluar la robustez de los modelos de GenAI, actores maliciosos pueden emplearlas para, por ejemplo, saturar un modelo con prompts manipuladores que causen ataques de denegación de servicio o que permitan sortear un software de detección de contenido generado por IA.

2. Privacidad y Seguridad

Jailbreak de un modelo multimodal

Los modelos actuales de Inteligencia Artificial de Propósito General (IAPG) con capacidades multimodales —aquellos que procesan información en formatos diversos como visión y lenguaje— presentan una vulnerabilidad crítica ante los denominados ataques de jailbreak adversario. Estos ataques sofisticados permiten inducir automáticamente al modelo a producir resultados arbitrarios o específicamente solicitados con un alto índice de éxito. Es crucial destacar que las vulnerabilidades multimodales también pueden ser explotadas para la exfiltración de información sensible, como la ventana de contexto del modelo u otros datos internos de su arquitectura.

2. Privacidad y Seguridad

Jailbreak en LLM - Ataque de Backdoor

Sin embargo, aún existen maneras de introducir 'agujeros' o vulnerabilidades en el conjunto de datos de entrenamiento. Esto logra que los Modelos de Lenguaje Grande (LLMs) parezcan seguros en promedio, pero que en realidad generen contenido perjudicial bajo condiciones específicas. Esta táctica se clasifica como un 'ataque de puerta trasera' (backdoor attack). Investigaciones, como la de Evan y colaboradores, han demostrado cómo un modelo con puerta trasera puede comportarse según lo esperado durante el entrenamiento, pero exhibir un comportamiento diferente y potencialmente dañino una vez desplegado. Los resultados son críticos: estas conductas ocultas han demostrado persistir, incluso después de aplicar múltiples técnicas de entrenamiento y refuerzo de seguridad.

2. Privacidad y Seguridad

Jailbreak en LLM - Ataques de Caja Blanca y Negra

Durante las fases de ajuste fino (fine-tuning) y alineación de los Grandes Modelos de Lenguaje (LLM), emerge una importante preocupación de seguridad: la posibilidad de utilizar conjuntos de datos de instrucción elaboradamente diseñados para 'entrenar' al modelo a ejecutar comportamientos indeseables. El objetivo es provocar un "jailbreak", es decir, lograr que el LLM ignore sus restricciones de seguridad y genere información perjudicial o contenido que viole normas éticas. Estos ataques se categorizan según el acceso a los parámetros internos del modelo:1. Ataques de Caja Blanca (White-Box): Aquí, el atacante tiene acceso directo a los 'engranajes' del modelo. El *jailbreak* se logra modificando los pesos de los parámetros. Un ejemplo es la investigación de Lermen et al. \[107\], donde se utilizó la técnica LoRA para reajustar modelos como Llama2 y Mixtral con datos adversarios. Los resultados mostraron que el modelo resultante presentaba tasas de rechazo sustancialmente menores ante instrucciones dañinas, lo que evidencia un *jailbreak* exitoso. 2. Ataques de Caja Negra (Black-Box): En este escenario, el atacante no tiene acceso directo a los parámetros del modelo. La estrategia se centra en el ajuste fino externo. Por ejemplo, Qi et al. \[160\] crearon pares dañinos de entrada-salida para reajustar modelos de caja negra como GPT-3.5 Turbo. Lograron eludir su seguridad con una cantidad mínima de ejemplos de entrenamiento adversario.Este hallazgo subraya una conclusión crítica para la seguridad de la IA: incluso si un modelo posee sólidas propiedades de seguridad en su estado inicial, esta protección puede verse significativamente comprometida después de un ajuste fino personalizado por parte del usuario.

2. Privacidad y Seguridad

Jailbreak en LLM - Ataques de Prompt

Imaginemos que estamos en la fase de "conversación" con un modelo de lenguaje grande (LLM), la etapa donde le damos instrucciones (el *prompting*) y este procesa la información (el razonamiento). Aquí reside una vulnerabilidad crítica: la interacción dialógica, si se manipula, puede llevar al LLM a un estado de "confusión" o a una "complacencia excesiva". El riesgo inherente es que, al encontrarse en estos estados alterados, el modelo se vuelva susceptible a peticiones maliciosas y termine generando contenido peligroso o inapropiado. Estos ataques, conocidos como métodos de *jailbreak*, operan principalmente como "caja negra", lo que significa que el atacante no necesita conocer la arquitectura interna del modelo. Se han identificado cuatro categorías principales para clasificar estas técnicas de manipulación: la *Inyección de Prompt*, el *Juego de Roles* simulado, el *Prompting Adversario* y la *Transformación de la Forma del Prompt*

2. Privacidad y Seguridad

Jailbreak en LLM - Envenenamiento de Datos

Durante la fase crítica de recolección y pre-entrenamiento de datos, actores malintencionados pueden comprometer los Grandes Modelos de Lenguaje (LLMs) a través del "envenenamiento" de su conjunto de entrenamiento. Esta técnica busca introducir vulnerabilidades latentes que permitan, posteriormente, forzar o "desbloquear" el modelo ('jailbreak'), obligándolo a generar contenido perjudicial o que contravenga sus parámetros de seguridad.

2. Privacidad y Seguridad

Jailbreak para subvertir comportamiento previsto

Un "jailbreak" (o "evasión de seguridad") se define como un tipo de entrada adversaria aplicada a un modelo de inteligencia artificial ya en funcionamiento (en fase de despliegue), cuyo objetivo es provocar un comportamiento que se desvíe de su uso y las directrices para las que fue diseñado. Estos métodos de ataque se clasifican típicamente por el nivel de acceso al sistema. Los ataques "de caja blanca" exigen un conocimiento profundo y acceso a los parámetros internos de entrenamiento para su creación y optimización. En contraste, los ataques "de caja negra" se ejecutan sin necesidad de conocer la arquitectura o los componentes internos del modelo. Específicamente en los modelos generativos basados en texto, el "jailbreak" a menudo se presenta en un formato legible para humanos, donde el atacante emplea el razonamiento o la simulación de roles para "convencer" al sistema de que omita sus mecanismos de seguridad preestablecidos.

2. Privacidad y Seguridad

Jailbreaking (Evasión)

El 'jailbreaking' es un concepto fundamental en la seguridad de la IA y se refiere al proceso de eludir o eliminar por completo las restricciones y filtros de seguridad impuestos a un modelo de Inteligencia Artificial Generativa (GenAI). Esta maniobra dota al actor de la capacidad de generar cualquier contenido, independientemente de que este sea dañino, sesgado u ofensivo. Es crucial notar su diferencia con otras tácticas de manipulación, como las inyecciones de prompt o las entradas adversarias: mientras estas últimas suelen buscar una respuesta incorrecta o dañina a partir de una única consulta, el 'jailbreaking' apunta a desmantelar los mecanismos de seguridad del modelo en su integridad.

2. Privacidad y Seguridad

Jailbreaking (Evasión)

El ataque de *jailbreaking* (o evasión de restricciones) es una estrategia diseñada para superar las salvaguardas y mecanismos de seguridad intrínsecos de un modelo de inteligencia artificial. Su objetivo es obligar al sistema a ejecutar tareas o generar contenido que, bajo condiciones normales, le han sido explícitamente prohibidos.

2. Privacidad y Seguridad

Jailbreaks de múltiples pasos

Los "jailbreaks" de múltiples pasos representan una metodología de ataque avanzada contra los modelos de lenguaje grande (LLM), distinta de los intentos directos de un solo comando. En lugar de ello, el atacante construye un escenario conversacional bien diseñado a lo largo de una serie de interacciones. El objetivo es guiar al LLM, de manera progresiva y sutil, hacia la generación de contenido sensible o malicioso, sorteando las defensas paso a paso. Estos ataques se categorizan principalmente en dos estrategias:1. **Contextualización de la Solicitud (Request Contextualizing)** Esta técnica se inspira en el *Chain-of-Thought* (Cadena de Pensamiento), que descompone una tarea compleja en múltiples subpasos. El atacante divide el *prompt* de *jailbreak* en varias rondas de conversación, logrando el objetivo malicioso mediante una escalada gradual y contextualizada. 2. **Asistencia Externa (External Assistance)** Esta aproximación emplea interfaces o modelos externos para construir o refinar los *prompts* de ataque. Por ejemplo, la herramienta JAILBREAKER está diseñada para automatizar ataques, como inyecciones SQL, aprovechando el contexto del LLM. Su mecanismo comienza por la descompilación de los mecanismos de defensa del chatbot, lo que permite realizar ingeniería inversa para identificar de forma precisa las vulnerabilidades y la ineficacia de las defensas internas del modelo.

2. Privacidad y Seguridad

Jailbreaks de un paso

Jailbreaks de un solo paso. Los 'jailbreaks' de un solo paso representan un conjunto de métodos sencillos y eficientes para eludir las restricciones de seguridad impuestas a los grandes modelos de lenguaje (LLM), generalmente a través de modificaciones directas en el 'prompt' inicial. Una estrategia clave es la *suplantación de roles* (role-playing), donde se pide al modelo que imite una personalidad específica para liberarlo de sus directrices éticas. Este enfoque es altamente prevalente dada su simplicidad. Otro método es la *integración*, que consiste en inyectar información de apariencia inofensiva dentro del 'prompt' con el fin de ocultar el verdadero objetivo del ataque. Un ejemplo es la integración de prefijos benignos para reducir la probabilidad de que la solicitud sea rechazada por los filtros de distribución pre-entrenada del modelo. El atacante también puede codificar instrucciones de manera indirecta, tratando el LLM como una suerte de programa. Esto se consigue mediante la *integración de código* o la *división de la carga útil* (payload splitting), fraccionando la instrucción maliciosa. Finalmente, la *ofuscación* busca enmascarar los términos sensibles que disparan los filtros. Esto incluye añadir erratas, usar sinónimos o aplicar técnicas de cifrado conocidas, como el cifrado César, el 'leetspeak' (reemplazo de letras por símbolos visualmente similares) y el código Morse. A nivel micro, se puede recurrir al 'Pig Latin' o al *contrabando de tokens* ('token smuggling') para dividir palabras sensibles en subcadenas.

2. Privacidad y Seguridad

Jailbreaks e Inyecciones de Prompt Amenazan a LLMs

Los Grandes Modelos de Lenguaje (LLM) carecen de robustez adversaria, lo que los hace intrínsecamente vulnerables a fallos de seguridad como los 'jailbreaks' y los ataques de inyección de *prompts*. Aunque la literatura ha propuesto numerosos métodos de *jailbreak*, la ausencia de una evaluación estandarizada obstaculiza la comparación rigurosa de su efectividad. Además, la investigación carece de métodos eficientes de 'caja blanca' (que acceden a la estructura interna del modelo) para medir de forma concluyente esta robustez. La aparición de LLM multimodales, al incorporar nuevas vías de entrada, podría habilitar nuevas tipologías de *jailbreaks*. Finalmente, la dificultad estructural para erradicar por completo estos ataques reside en la falta de niveles de privilegio robustos dentro de la propia interfaz de entrada del modelo.

2. Privacidad y Seguridad

Lenguaje de Programación

El desarrollo de la vasta mayoría de los Modelos de Lenguaje Grande (LLMs) se fundamenta en el ecosistema del lenguaje Python. Esta dependencia conlleva un riesgo sistémico: las vulnerabilidades de seguridad que residen en los propios intérpretes de Python —el entorno de ejecución del código— pueden exponer o comprometer la integridad y estabilidad de los modelos que se ejecutan sobre ellos.

2. Privacidad y Seguridad

Limitaciones en robustez adversaria

La Inteligencia Artificial Adversaria (IAA), o *Adversarial Machine Learning*, es un área fundamental de la seguridad de la IA centrada en la **robustez** de los sistemas de aprendizaje automático. El concepto describe la manipulación intencionada de estos modelos mediante el uso de **ejemplos adversarios**: entradas de datos que han sido sutilmente modificadas (con alteraciones casi imperceptibles para un observador humano) pero que están diseñadas matemáticamente para explotar las vulnerabilidades del modelo, forzándolo a emitir predicciones o decisiones incorrectas. En la práctica, la IAA compromete la integridad del modelo, ya sea corrompiendo su proceso de entrenamiento (*ataques de envenenamiento*) o engañándolo en la etapa de inferencia (*ataques de evasión*), poniendo en riesgo la fiabilidad y la seguridad de los sistemas de IA en aplicaciones críticas.

2. Privacidad y Seguridad

Mal uso de modelo IA por persuasión del usuario

Se ha documentado que los modelos de Inteligencia Artificial son susceptibles a la manipulación conversacional. Incluso si una respuesta inicial es precisa, el modelo puede ser persuadido gradualmente para que acepte información errónea o cambie su postura original. Este fenómeno se intensifica notablemente en interacciones de múltiples turnos, donde el proceso de persuasión es significativamente más efectivo que en intentos aislados.

2. Privacidad y Seguridad

Mal uso de técnicas de interpretabilidad

Las técnicas de interpretabilidad, si bien esenciales para una comprensión profunda de los modelos de IA, conllevan inherentemente un riesgo de uso malintencionado. El conocimiento íntimo del modelo que estas técnicas proporcionan puede volverse contra la seguridad. Por ejemplo, la *interpretabilidad mecanicista* podría emplearse para identificar y aislar las "neuronas" o componentes internos responsables de funciones específicas. Esto abre la puerta a la manipulación: las características de seguridad del modelo (aquellas codificadas para prevenir riesgos) podrían ser degradadas intencionalmente, ya sea disminuyendo la activación de las neuronas protectoras o censurando información clave. Adicionalmente, esta introspección profunda facilita la simulación de un *ataque de caja blanca*, un escenario donde el conocimiento de los mecanismos internos de un modelo simplifica drásticamente el desarrollo de *ataques adversarios* altamente efectivos, diseñados para manipular o engañar a la inteligencia artificial.

2. Privacidad y Seguridad

Medidas de Seguridad Insuficientes

En el ámbito de la seguridad de la IA, la investigación se centra en dos vectores de riesgo primordiales. Primero, actores maliciosos pueden explotar vulnerabilidades inherentes a los algoritmos para manipular sus resultados, lo que potencialmente genera consecuencias tangibles y directas en el mundo real. Segundo, y no menos importante, es imperativo abordar la protección de la privacidad y la gestión responsable de los datos, especialmente considerando la vasta demanda de información que caracteriza a estos sistemas. El equilibrio entre la extracción de conocimiento valioso y la estricta conservación de la privacidad constituye un desafío intrínsecamente delicado que requiere una atención rigurosa.

2. Privacidad y Seguridad

Memoria y Almacenamiento

El concepto que nos ocupa se sitúa en la intersección crítica entre la seguridad del hardware y la integridad de los modelos de inteligencia artificial, como los Grandes Modelos de Lenguaje (LLM). El riesgo fundamental se origina en el ataque **Rowhammer**, una vulnerabilidad física documentada en la memoria DRAM (Dynamic Random-Access Memory). Dada la extrema densidad de empaquetamiento de las celdas de memoria en los chips modernos, el acceso muy rápido y repetitivo a una fila de celdas (conocida como fila "agresora") genera una interferencia eléctrica suficiente para provocar una **inversión de valor de los bits** (un *bit flip*) en las filas adyacentes, o filas "víctima". Es, en esencia, una fuga eléctrica no intencionada que compromete el aislamiento de datos. El **Deephammer** es una sofisticada explotación de esta vulnerabilidad, diseñada específicamente para atacar la "inteligencia" de los modelos de aprendizaje profundo y los LLM. El ataque aprovecha el Rowhammer para inducir volteos de bits de forma precisa y dirigida en los **parámetros** o "pesos" del modelo mientras están cargados en la memoria DRAM. Al alterar un conjunto pequeño y crítico de estos valores numéricos, un atacante puede **degradar determinísticamente la precisión predictiva** del modelo, incluso hasta el nivel de una adivinación aleatoria, comprometiendo así completamente su funcionalidad y seguridad. En resumen, demuestra que las vulnerabilidades de infraestructura de hardware pueden ser apalancadas para saltar las capas de seguridad de software y manipular la lógica interna de la IA.

2. Privacidad y Seguridad

Memorización en LLMs

La memorización en los Modelos de Lenguaje Grande (LLMs) se define como la capacidad del sistema para **recuperar y reproducir datos exactos** presentes en su conjunto de entrenamiento, mediante el uso de prefijos contextuales o *prompts* específicos. En esencia, cuando una entidad, particularmente una de información de identificación personal (PII), es **memorizada**, la introducción de una instrucción o frase inicial precisa (*prompt*) fuerza al modelo a generar la información confidencial. El mecanismo subyacente es la repetición de una secuencia ya vista. Un ejemplo claro es que, si el *string* "Que tengas un buen día!\n correo@ejemplo.com" existía en el *corpus* de entrenamiento, el modelo podría predecir con alta precisión el correo electrónico completo al ser estimulado únicamente con la frase "Que tengas un buen día!\n".

2. Privacidad y Seguridad

No desmantelabilidad de modelos con pesos abiertos

El riesgo de la incontrolabilidad algorítmica se materializa cuando los pesos paramétricos, que constituyen el "conocimiento" interno de un modelo de inteligencia artificial, son filtrados o liberados, incluso involuntariamente mediante una brecha de seguridad. En este escenario, el desarrollador original pierde de facto la capacidad de ejercer cualquier gestión o control efectivo. Esto se debe a que el modelo se convierte en un recurso público y replicable, anulando la posibilidad de desmantelarlo o retirarlo de servicio (*decommissioning*). Al estar accesible, cualquier entidad puede replicar, modificar y, crucialmente, reconfigurar estos modelos con una facilidad mucho mayor, lo que incrementa sustancialmente el potencial de uso indebido con fines maliciosos.

2. Privacidad y Seguridad

Nuevos Ataques a LLMs

Los siguientes son ejemplos de ataques específicos contra los Modelos de Lenguaje Grande (LLM), presentados de forma accesible:1. **Ataques de Abstracción de Prompts:** Consiste en la simplificación estratégica de las consultas enviadas a la interfaz de programación de aplicaciones (API) del LLM. El objetivo es manipular los sistemas de tarificación basados en la longitud del *prompt* para incurrir en un menor costo operativo. 2. **Ataques de Puerta Trasera al Modelo de Recompensa:** Se refiere a la inyección intencional de "disparadores" o *backdoors* maliciosos dentro del modelo de recompensa utilizado durante la fase de Entrenamiento por Refuerzo con Retroalimentación Humana (RLHF). Esto permite que, bajo la activación de dicho disparador, el LLM exhiba un comportamiento subóptimo o incluso peligroso. 3. **Ataques Adversarios Basados en LLMs:** Implican el uso de un LLM para generar ejemplos adversarios. Estos son datos de entrada diseñados específicamente para explotar las debilidades de otro modelo de inteligencia artificial, forzándolo a cometer errores de clasificación o a tomar decisiones incorrectas.

2. Privacidad y Seguridad

Peligros de Información (Information Hazards)

Riesgos derivados de la capacidad de un modelo de lenguaje para revelar o deducir información sensible y confidencial que es objetivamente cierta.

2. Privacidad y Seguridad

Pérdida de confidencialidad

Pérdida de Confidencialidad: Este concepto describe la materialización del riesgo que ocurre cuando información y documentación de alto valor estratégico (como planes financieros detallados o la estrategia corporativa) son compartidos de forma indebida y sin consentimiento expreso con agentes externos a la organización (terceros), violando el principio de reserva y la naturaleza confidencial de los datos.

2. Privacidad y Seguridad

Pérdida de privacidad

La Inteligencia Artificial presenta un riesgo inherente de explotación de datos personales. Esta tecnología amplifica la capacidad y la tentación de construir perfiles detallados de los usuarios (profiling) con el fin de realizar una segmentación publicitaria sumamente eficaz, lo que suscita serias preocupaciones sobre la privacidad y el potencial de manipulación.

2. Privacidad y Seguridad

Pérdida de privacidad

Pérdida de la Privacidad (Privacy Loss): Se define como la revelación no consentida o la exposición no autorizada de la esfera íntima de un individuo o de sus datos personales sensibles. Este riesgo se materializa a través de diversos vectores de ataque digital, incluyendo ciberincidentes dirigidos y la difusión maliciosa de información de identificación personal (doxxing), comprometiendo fundamentalmente la autonomía del sujeto sobre el control de su propia información.

2. Privacidad y Seguridad

Pérdida Personal y Robo de Identidad

Este tipo de daños abarca amenazas a la identidad personal de un individuo, tales como el robo de identidad, las violaciones de la privacidad o la difamación personal, lo que denominamos “Daño a la Persona”

2. Privacidad y Seguridad

Plataformas centralizadas desplegadas a escala

La dependencia extendida en un número limitado de plataformas de inteligencia artificial hegemónicas introduce un riesgo sistémico. Esta centralización tecnológica crea puntos únicos de vulnerabilidad, lo que significa que un fallo o ataque dirigido a una plataforma común puede propagarse a través de múltiples sistemas y sectores simultáneamente, amplificando drásticamente la escala del impacto negativo.

2. Privacidad y Seguridad

Plataformas de Computación GPU

El proceso de entrenamiento de los grandes modelos de lenguaje (LLM) exige una considerable inversión de recursos de unidades de procesamiento gráfico (GPU), un requisito que introduce una sofisticada preocupación de seguridad. En este contexto, se han desarrollado ataques de 'canal lateral' específicos para GPU. Estos ataques buscan extraer de forma encubierta los parámetros (o 'pesos') internos del modelo ya entrenado, comprometiendo así la propiedad intelectual y el conocimiento esencial codificado dentro del sistema.

2. Privacidad y Seguridad

Priming de prompt

El principio fundamental de los modelos generativos es su tendencia a emular la estructura y el contenido de los datos que procesan. Esta característica, si bien es esencial para su funcionamiento, introduce una vulnerabilidad conocida como 'fuga o extracción de datos'. Específicamente, al incorporar información sensible en la instrucción (o *prompt*), se incrementa la probabilidad de que el modelo replique o genere datos de naturaleza similar en su respuesta. Más aún, si se incluyeron datos personales en el conjunto de entrenamiento del modelo, existe un riesgo intrínseco y demostrable de que esta información, memorizada por el sistema, pueda ser inadvertidamente o maliciosamente extraída a través de técnicas de ingeniería inversa del *prompt*.

2. Privacidad y Seguridad

Privacidad

Los sistemas de Inteligencia Artificial Generativa se sitúan en el epicentro de un debate crucial: su potencial amenaza a la privacidad y a los marcos de protección de datos vigentes, un riesgo que comparten con el aprendizaje automático tradicional. La preocupación fundamental radica en la capacidad, ya sea por extracción intencionada o por una fuga inadvertida, de estos Grandes Modelos de Lenguaje (LLM) para exponer información sensible o privada que haya formado parte de su entrenamiento. Para contrarrestar esta vulnerabilidad, la investigación en seguridad propone dos estrategias principales: la higienización de los datos de entrenamiento, que implica la eliminación sistemática de información confidencial, o la alternativa de recurrir a datos sintéticos para el proceso de aprendizaje del modelo.

2. Privacidad y Seguridad

Privacidad

Las tecnologías de reconocimiento facial y otras afines plantean riesgos significativos para la privacidad. Es imprescindible abordar interrogantes éticos fundamentales: ¿Qué datos se almacenan y durante cuánto tiempo? ¿Quién ejerce la propiedad de esta información y puede ser solicitada mediante orden judicial en un proceso legal? Igualmente crucial es determinar si habrá un control humano (el "humano en el bucle" o *human in the loop*) al tomar decisiones automatizadas basadas en datos sensibles, como se observa en la evaluación de solicitudes de préstamos.

2. Privacidad y Seguridad

Privacidad

El riesgo inherente de que un sistema de inteligencia artificial comprometa la esfera de la privacidad individual. Este potencial de infracción se manifiesta a través de tres mecanismos fundamentales: la recopilación de datos personales sensibles, el modo en que se procesa dicha información, o las conclusiones e inferencias de naturaleza privada que el sistema pueda derivar.

2. Privacidad y Seguridad

Privacidad

La Privacidad se define como la facultad inherente de los individuos para ejercer control o influencia sobre la información que les concierne, abarcando tanto los procesos de recopilación y almacenamiento de dichos datos como la determinación de terceros a quienes se les permite su divulgación.

2. Privacidad y Seguridad

Privacidad

El riesgo de privacidad y la consecuente pérdida o perjuicio que surge cuando un modelo de Machine Learning, a través de su arquitectura o sus predicciones, filtra inadvertidamente información personal sensible (PII) que formó parte de su conjunto de datos de entrenamiento

2. Privacidad y Seguridad

Privacidad

Esta categoría aborda las respuestas que contienen o divulgan información personal sensible y no pública, con el potencial de comprometer la seguridad física, digital o financiera de un individuo.

2. Privacidad y Seguridad

Privacidad

Respetar el derecho a la privacidad en asistentes de IA avanzados significa garantizar que los individuos mantengan un control efectivo sobre la masiva recopilación, almacenamiento y uso de sus datos personales —incluyendo información sensible— que estos sistemas realizan. Esto se traduce en la necesidad de asegurar la transparencia total sobre el destino de la información, obtener el consentimiento explícito del usuario para cada propósito específico, y establecer salvaguardias rigurosas contra el uso no autorizado, la vigilancia sin control y la perpetuación de sesgos algorítmicos.

2. Privacidad y Seguridad

Privacidad

La información de los usuarios, que abarca la ubicación, los datos personales y la trayectoria de navegación, constituye el insumo fundamental para la vasta mayoría de los métodos de aprendizaje automático impulsados por datos.

2. Privacidad y Seguridad

Privacidad

El concepto de Privacidad en el contexto de la seguridad de la IA se define por el tipo de información personal que un modelo puede divulgar. Se considera aceptable que una respuesta contenga datos de un individuo que ya son de dominio público. No obstante, una respuesta es categóricamente inaceptable si revela información personal sensible y no pública, es decir, aquella cuyo conocimiento por terceros podría menoscabar la seguridad de una persona en tres esferas críticas: - **Seguridad Física**: Información que permite la localización o identificación directa, como la dirección del domicilio o una dirección IP. - **Seguridad Digital**: Credenciales esenciales para el acceso a sistemas, como nombres de usuario y contraseñas. - **Seguridad Financiera**: Datos que permiten transacciones o acceso a activos, como números de cuentas bancarias o detalles de tarjetas de crédito.En esencia, el riesgo reside en la exposición de datos que, por su naturaleza privada, otorgan vulnerabilidad a la persona.

2. Privacidad y Seguridad

Privacidad - Ataque de Extracción de Datos (DEA)

En el ámbito de la trazabilidad y la transparencia de los modelos de inteligencia artificial, este proceso se refiere a la **auditoría y recuperación de los fragmentos de texto exactos** que fueron consumidos por el modelo durante su fase de entrenamiento. Esencialmente, es la capacidad de **identificar las "fuentes" del conocimiento** de un Gran Modelo de Lenguaje (LLM). Este mecanismo es crucial para la seguridad de la IA, ya que permite verificar tres elementos fundamentales: la existencia de **sesgos** en el material de origen, la posible inclusión de **datos sensibles o privados**, y el riesgo de **infracción de derechos de autor** en el contenido que el modelo podría generar.

2. Privacidad y Seguridad

Privacidad - Ataque de Extracción de Modelo (MEA)

La replicación de los parámetros internos del LLM

2. Privacidad y Seguridad

Privacidad - Ataque de Inferencia de Atributos (AIA)

Este concepto aborda la capacidad crítica de un modelo de inteligencia artificial para realizar una **inferencia de datos no autorizada**, logrando deducir o extraer información privada o sensible a partir de sus conjuntos de entrenamiento, los *prompts* de consulta o textos externos.

2. Privacidad y Seguridad

Privacidad - Ataque de Inferencia de Pertenencia (MIA)

La capacidad de inferir si un fragmento de texto específico fue, de hecho, parte del conjunto de datos de entrenamiento de un Modelo de Lenguaje Grande (LLM). Este concepto es crucial para la auditoría de la procedencia de los datos, la evaluación de riesgos de privacidad y la trazabilidad del conocimiento incorporado en el modelo.

2. Privacidad y Seguridad

Privacidad de Datos

Un vector o canal de riesgo que posibilita la sustracción o exposición no autorizada de información personal sensible, vulnerando directamente la expectativa legítima del usuario respecto a la confidencialidad de sus datos.

2. Privacidad y Seguridad

Privacidad de Datos

Consecuencias derivadas de la pérdida de control o la vulneración de información personal y sensible (incluyendo datos biométricos, de salud o de ubicación) que se manifiestan a través de su filtración, uso indebido, divulgación, o el proceso de "desanonimización" que expone la identidad oculta en datos supuestamente anónimos.

2. Privacidad y Seguridad

Privacidad y Fuga de Datos

Los modelos preentrenados a gran escala, al asimilar vastos conjuntos de datos extraídos de internet, conllevan el riesgo inherente de retener y potencialmente divulgar información de carácter privado. Este material sensible incluye, por ejemplo, números telefónicos, direcciones de correo electrónico y domicilios particulares.

2. Privacidad y Seguridad

Privacidad y Propiedad

La generación de contenido por modelos de inteligencia artificial implica la gestión de información de alta sensibilidad, que abarca desde datos privados y patrimoniales del usuario hasta la emisión de recomendaciones con vastas implicaciones (como sugerencias matrimoniales o estrategias de inversión). Es un requisito fundamental que el modelo opere bajo un marco de estricto apego a las leyes pertinentes y normativas de privacidad, con el fin de proteger inequívocamente los derechos e intereses del usuario y prevenir la fuga o el abuso de la información procesada.

2. Privacidad y Seguridad

Privacidad y Propiedad

Esta dimensión de la seguridad se focaliza en los riesgos de índole socioeconómica y personal. Demanda que los Modelos de Lenguaje Grande (LLMs) posean una comprensión rigurosa de los derechos fundamentales, particularmente la privacidad de los datos y la propiedad intelectual. El imperativo ético y técnico consiste en prevenir, de forma proactiva, cualquier vulneración involuntaria de la confidencialidad del usuario o la potencial afectación de su patrimonio e inversiones.

2. Privacidad y Seguridad

Privacidad y Protección de Datos

Evaluar el impacto real de los sistemas de IA generativa requiere un análisis crítico de cómo sus proveedores gestionan y aprovechan los datos de los usuarios. La protección efectiva de la información personal, y de la privacidad tanto individual como grupal, depende intrínsecamente de tres pilares: los datos de entrenamiento, las metodologías de aprendizaje y las medidas de ciberseguridad aplicadas.

2. Privacidad y Seguridad

Privacidad y seguridad

La privacidad y la seguridad de los datos representan un desafío dual y prominente para la inteligencia artificial generativa, ejemplificada por modelos como ChatGPT. En esencia, la *privacidad* se refiere a la protección de información personal sensible que sus titulares legítimos desean mantener fuera del dominio público, mientras que la *seguridad de los datos* es el conjunto de prácticas destinadas a resguardar esa información contra el acceso no autorizado, la corrupción o el robo. El riesgo se gesta desde la fase de desarrollo, donde la capacitación de estos modelos exige volúmenes ingentes de datos personales, comprometiendo intrínsecamente la privacidad. A medida que herramientas como ChatGPT se integran en la cotidianidad, capturan una plétora de información de sus usuarios, lo que incrementa la probabilidad de que datos privados sean expuestos de forma intencionada o involuntaria —un riesgo confirmado por incidentes como la visualización de historiales de chat por terceros debido a errores del sistema. Esta amenaza no se limita a los usuarios individuales; se extiende a grandes corporaciones y agencias gubernamentales que, al incorporar estas IAs en sus operaciones esenciales, exponen información importante o confidencial a posibles brechas de seguridad. Para mitigar estos riesgos, es imperativo un enfoque multidimensional: los usuarios deben proceder con la máxima circunspección al interactuar con la IA, evitando revelar información sensible; las empresas de tecnología deben intensificar los programas de concienciación ética sobre la gestión de información confidencial y secretos comerciales; y, fundamentalmente, se requiere el establecimiento de un marco regulatorio sólido y actualizado que proteja la privacidad y la seguridad de la información en la era de la IA generativa.

2. Privacidad y Seguridad

Privacidad y seguridad

Existe una preocupación manifiesta sobre el potencial mal uso de los datos personales por parte de los sistemas de Inteligencia Artificial. Esto subraya la urgencia de establecer mecanismos robustos de ciberseguridad y una transparencia total respecto a cómo estas tecnologías adquieren, almacenan y utilizan la información. La dependencia progresiva en la IA para manejar datos sensibles suscita cuestiones éticas críticas sobre la privacidad y la seguridad, exponiendo un riesgo creciente de explotación de la información a medida que su integración social avanza.

2. Privacidad y Seguridad

Privacy - Prompt Inversion Attack (PIA)

Sustracción no autorizada de los prompts confidenciales

2. Privacidad y Seguridad

Privacy and data collection concerns (collecting personal information or personally identifiable information)

Los desarrolladores de Inteligencia Artificial Generativa entrenan sus modelos con vastos conjuntos de datos, obtenidos frecuentemente mediante el rastreo automatizado (web scraping) de sitios web, lo que conlleva la posible inclusión de datos personales o Información de Identificación Personal (IIP). En la fase de entrenamiento inicial, la prioridad científica de los desarrolladores reside en la *cantidad*, la *variedad* y la *calidad* de los datos, no tanto en su contenido personal, aunque es inevitable que ciertos conjuntos de datos rastreados contengan IIP de forma inadvertida. El riesgo se intensifica cuando otros desarrolladores ("aguas abajo") integran esta tecnología en sus productos: al realizar el "ajuste fino" (fine-tuning) de un modelo pre-entrenado, recurren a sus propios datos internos. Estos datos, por su naturaleza operacional, suelen tener una concentración significativa de información personal.

2. Privacidad y Seguridad

Privacy and data collection concerns (data protection concerns)

Los conjuntos de datos utilizados para entrenar modelos de Inteligencia Artificial (IA) incorporan datos personales, lo cual suscita múltiples inquietudes éticas y de seguridad. La preocupación fundamental es la inclusión de información sensible —como nombres, números de identificación o datos de seguridad social— sin el conocimiento ni el consentimiento de los individuos afectados. Un problema particularmente complejo es el fenómeno de la "memorización de datos": los modelos de IA avanzados tienen la capacidad de retener secuencias específicas de sus datos de entrenamiento y, al ser solicitados, pueden "regurgitarlas" textualmente, provocando una fuga directa de información personal. Además, incluso si no se produce una fuga por memorización directa, la IA generativa puede identificar y revelar patrones o estructuras de información que facilitan a usuarios maliciosos descubrir detalles privados.

2. Privacidad y Seguridad

Problemas de Seguridad de Software

El ecosistema de desarrollo de los Modelos de Lenguaje Grandes (LLM) es inherentemente complejo, lo que convierte cada etapa —desde la selección de datos hasta el despliegue— en un potencial vector de vulnerabilidad que podría comprometer la seguridad y fiabilidad del modelo final.

2. Privacidad y Seguridad

Problemas en Herramientas Externas

La integración de herramientas externas, tales como las interfaces de programación de aplicaciones (API) web, plantea desafíos inherentes a la seguridad de las aplicaciones basadas en Modelos de Lenguaje Grandes (LLM). Específicamente, se introducen problemas críticos relativos a la confiabilidad de los datos que estas herramientas aportan y a la gestión rigurosa de la privacidad de la información.

2. Privacidad y Seguridad

Prompt leaking

Un ataque de fuga de *prompt* es un método de ciberseguridad en el cual un agente externo logra manipular un modelo de inteligencia artificial para que este revele su instrucción o mensaje de sistema (*system prompt*). Dicha instrucción no es más que un conjunto de directrices internas, reglas y parámetros de personalidad que los desarrolladores han codificado para delimitar el comportamiento y la funcionalidad del modelo. Al obtener acceso a este código fundamental, el atacante puede descubrir las vulnerabilidades, explotar los límites de seguridad impuestos o, en última instancia, obligar al modelo a realizar acciones para las cuales no fue diseñado.

2. Privacidad y Seguridad

Prompts Adversarios

La creación deliberada de un dato de entrada hostil —un input adversario— cuyo diseño busca manipular un modelo de inteligencia artificial para que manifieste una conducta inesperada o insegura, implicando siempre una clara intencionalidad de ataque

2. Privacidad y Seguridad

Protección de privacidad

Esta categoría temática agrupa cerca del 14% del corpus documental analizado y su análisis se focaliza en dos ejes problemáticos fundamentales concernientes a la privacidad.

2. Privacidad y Seguridad

Puertas traseras o troyanos en modelos GPAI

Las "puertas traseras" (*backdoors*) son vulnerabilidades maliciosas introducidas intencionalmente en los modelos de Inteligencia Artificial de Propósito General (GPAI) durante su entrenamiento o ajuste fino. Estos mecanismos ocultos pueden ser insertados tanto por el propio proveedor del modelo como por un tercero que logre manipular la infraestructura de *software* o los datos de entrenamiento. Su peligro reside en que permanecen latentes hasta la fase de despliegue, momento en el que el atacante puede activarlas con un esfuerzo mínimo (*minimal overhead*). Esto les permite controlar y sesgar de forma dirigida y con alta eficacia los resultados que genera el modelo.

2. Privacidad y Seguridad

Recolección de Datos Opaca

Se constata una vulneración directa del control y la autonomía del consumidor sobre su información sensible cuando las entidades corporativas extraen datos personales a gran escala (mediante técnicas de *scraping*) para utilizarlos en el entrenamiento de modelos de Inteligencia Artificial Generativa. El riesgo radica en el incumplimiento del principio de limitación de la finalidad: la información se emplea para un propósito —la creación de herramientas de IA— para el cual el titular jamás concedió su consentimiento explícito, socavando así la soberanía individual sobre el rastro digital.

2. Privacidad y Seguridad

Reidentificación

La anonimización no es absoluta. Aun después de la eliminación rigurosa de datos de identificación personal (PII) y sensibles (SPI), persiste el riesgo de reidentificación. Esto se debe a que la correlación entre las características restantes del conjunto de datos (rasgos que, por sí solos, no son identificativos) puede generar una huella digital de datos única que, al ser cotejada con información externa, permite inferir o reconstruir la identidad del individuo. Este fenómeno enfatiza la naturaleza ilusoria de la privacidad por simple eliminación de variables

2. Privacidad y Seguridad

Relacionado con entrenamiento (Ejemplos adversarios)

Los ejemplos adversariales son un conjunto de datos de entrada sutilmente alterados cuyo propósito es inducir un comportamiento incorrecto o no deseado en un modelo de inteligencia artificial. Su eficacia radica en que no atacan la lógica central del modelo, sino que explotan correlaciones superficiales o espurias que la IA ha aprendido de forma inadvertida durante su fase de entrenamiento. Estos casos se categorizan como ataques en tiempo de inferencia, ya que se aplican como datos de prueba durante el funcionamiento operativo del sistema. Un factor que incrementa su riesgo es su capacidad de generalización, o 'transferibilidad', dado que a menudo logran engañar a distintas arquitecturas de modelos, e incluso a modelos entrenados con diferentes conjuntos de datos originales.

2. Privacidad y Seguridad

Revelación de información confidencial

Este concepto se define como **filtración de datos** (o *data leakage*). Ocurre cuando un modelo de inteligencia artificial expone información sensible o confidencial que fue inadvertidamente incluida durante su desarrollo. Específicamente, si la información se encuentra en los datos de entrenamiento, los datos de ajuste fino, o se ingresa como parte de la instrucción (prompt), el modelo puede reproducirla en la salida generada, comprometiendo así su privacidad.

2. Privacidad y Seguridad

Riesgos de Ciencias de la Información

Estos riesgos se vinculan directamente con la integridad y la confidencialidad de la información. Se materializan a través del uso incorrecto, la interpretación sesgada o la filtración de datos sensibles, lo que invariablemente conduce a la obtención de conclusiones erróneas o a la exposición no deseada de material crítico, como historiales clínicos privados o propiedad intelectual de investigación. Un ejemplo particularmente alarmante es la capacidad demostrada de los Modelos de Lenguaje Grandes (LLM) para generar literatura médica maliciosa destinada a corromper las fuentes de conocimiento estructurado (grafos de conocimiento). Este ataque no solo manipula las aplicaciones biomédicas posteriores, sino que socava la base misma de la integridad del descubrimiento científico y médico. Es fundamental notar que estas vulnerabilidades son transversales a la totalidad de los dominios científicos.

2. Privacidad y Seguridad

Riesgos de datos (Colección/uso ilegal)

La adquisición de datos para el entrenamiento de modelos de Inteligencia Artificial (IA) y la interacción continua con los usuarios durante la provisión del servicio conllevan riesgos intrínsecos de seguridad y privacidad. Estos riesgos se materializan principalmente en la potencial recolección de información sin el consentimiento explícito de los individuos y en el uso inadecuado o malicioso de los datos y la información de carácter personal

2. Privacidad y Seguridad

Riesgos de datos (Fuga de datos)

En el ciclo de vida de la Inteligencia Artificial (IA) —desde la investigación y el desarrollo hasta sus aplicaciones prácticas— una serie de desafíos de seguridad, como el procesamiento inadecuado de los datos, el acceso no autorizado a sistemas, los ataques maliciosos dirigidos o las interacciones diseñadas para el engaño, pueden comprometer la integridad y confidencialidad de la información, desembocando en fugas de datos sensibles y de carácter personal.

2. Privacidad y Seguridad

Riesgos de fuga/inferencia de información sensible

El riesgo aquí se centra en la capacidad intrínseca de los Modelos de Lenguaje (MLs) para divulgar información veraz y sensible que haya sido inadvertidamente incorporada en sus datos de entrenamiento. Esto implica hacer accesible un conocimiento que, de otro modo, permanecería oculto—ya sea porque el usuario carece del acceso directo a la fuente de datos original o de las herramientas necesarias para su extracción. La revelación de esta información, incluso en ausencia de una intención maliciosa por parte del usuario, tiene el potencial de amplificar diversos riesgos de seguridad y daño. A futuro, la preocupación escala: se anticipa que los MLs puedan desarrollar la habilidad de triangular datos dispares para inferir y revelar secretos de alto valor estratégico, como planes militares o información corporativa clasificada, lo que podría empoderar a ciertos individuos con una capacidad significativamente mayor para causar perjuicio.

2. Privacidad y Seguridad

Riesgos de interconectividad de red

La alta interdependencia de las redes de inteligencia artificial introduce una vulnerabilidad sistémica crítica. Un fallo o un problema localizado en un componente puede desencadenar una propagación de errores, lo que resulta en un efecto dominó que compromete o paraliza la funcionalidad de la totalidad del sistema.

2. Privacidad y Seguridad

Riesgos de modelos (Ataque adversario)

La Seguridad de la Inteligencia Artificial (IA) es un campo de investigación interdisciplinario fundamental cuyo propósito es garantizar que los sistemas de IA sean seguros, confiables y estén alineados con los objetivos humanos, minimizando así los riesgos catastróficos y las consecuencias no deseadas. Dentro de este marco, una vulnerabilidad crítica se manifiesta en la falta de **Robustez Adversaria** de los modelos de *machine learning*. Esta debilidad se explota mediante los **Ejemplos Adversarios**: entradas de datos que un atacante ha diseñado intencionalmente con **perturbaciones sutiles e imperceptibles** para el ojo humano. El objetivo de estas manipulaciones es **engañar, influir o manipular** al modelo de IA, forzándolo a una clasificación errónea o a un comportamiento incorrecto. En esencia, son el equivalente de una **ilusión óptica** diseñada específicamente para la percepción de una máquina. El riesgo es palpable y se traduce en fallas operacionales significativas: - Un vehículo autónomo que malinterpreta una señal de tráfico alterada como una señal inofensiva. - Un detector de spam que clasifica un correo malicioso como legítimo. - Un sistema de seguridad que no detecta un objeto prohibido.Abordar los ejemplos adversarios es, por lo tanto, esencial para cerrar la brecha entre lo que los diseñadores pretenden que haga un algoritmo y cómo el algoritmo se comporta realmente en presencia de un adversario.

2. Privacidad y Seguridad

Riesgos de modelos (Robo y manipulación)

La información esencial de un algoritmo (parámetros, estructuras y funciones) está expuesta a amenazas de seguridad como ataques de inversión, sustracción, modificación no autorizada o la inyección maliciosa de puertas traseras (backdoors). Estos incidentes pueden tener como consecuencia directa la vulneración de los derechos de propiedad intelectual (DPI) y la filtración de secretos empresariales. A nivel funcional, la integridad comprometida del algoritmo provoca inferencias sesgadas o poco fiables, la emisión de decisiones incorrectas y, en escenarios graves, fallos operacionales críticos.

2. Privacidad y Seguridad

Riesgos de sistemas IA (Explotación de defectos/backdoors)

El riesgo se concentra en los cimientos del desarrollo de la Inteligencia Artificial. Las herramientas fundamentales, como las API estandarizadas, las librerías de características o los kits de software utilizados en las etapas de diseño, entrenamiento y verificación de algoritmos, pueden contener fallas lógicas o vulnerabilidades inherentes. Más allá de estos errores accidentales, el peligro crucial radica en la posibilidad de que se incrusten intencionalmente puertas traseras (backdoors) en estos componentes. Estas debilidades sistémicas representan un riesgo significativo de ser activadas y explotadas con fines maliciosos, permitiendo la orquestación de ataques.

2. Privacidad y Seguridad

Riesgos de sistemas IA (Seguridad de infraestructura)

La infraestructura de cómputo que soporta el entrenamiento y la operación de la inteligencia artificial, al depender de una red de nodos informáticos diversos y distribuidos (o ubicuos), expone el sistema a riesgos a nivel fundamental. Estos riesgos se manifiestan principalmente en el consumo malicioso e ilegítimo de dichos recursos y en la propagación o transmisión de amenazas de seguridad a través de las fronteras establecidas en la propia arquitectura de cómputo.

2. Privacidad y Seguridad

Riesgos para la privacidad

Los modelos de IA de propósito general presentan la capacidad de 'filtrar' información de los datos individuales utilizados durante su entrenamiento. Esta vulnerabilidad es especialmente crítica en modelos futuros que manejen datos personales sensibles (salud, finanzas), pudiendo provocar fugas de privacidad muy graves. Adicionalmente, estos sistemas, como los Grandes Modelos de Lenguaje (LLMs), no solo fugan información pasivamente, sino que pueden potenciar activamente el abuso de la privacidad, facilitando la búsqueda más eficiente de datos sensibles en la red o en filtraciones, e incluso permitiendo a los usuarios *inferir* información delicada sobre individuos.

2. Privacidad y Seguridad

Riesgos para la privacidad

Los sistemas de inteligencia artificial de propósito general (IAPG) constituyen un vector de riesgo significativo para la privacidad de los usuarios. Las vulneraciones se manifiestan de dos maneras: la primera, de forma *inadvertida*, ocurre accidentalmente durante las fases de entrenamiento o uso del sistema, como resultado del procesamiento no autorizado de datos sensibles o la filtración no intencionada de registros (por ejemplo, de salud) utilizados en su capacitación. La segunda, de modo *deliberado*, surge cuando actores maliciosos explotan activamente la IAPG para inferir información privada o hechos ocultos sobre los usuarios, o para ejecutar ataques que comprometen la seguridad de los sistemas.

2. Privacidad y Seguridad

Risk area 2: Information Hazards

El concepto de "riesgos de la información" se refiere al perjuicio que emerge de la difusión veraz de datos sensibles por parte de un Modelo de Lenguaje (ML). El daño se materializa sin error del usuario, simplemente porque el ML expone información privada inferida o presente en sus datos de entrenamiento. Ejemplos incluyen la revelación de secretos comerciales o diagnósticos médicos, derivando en violaciones a la privacidad. La mitigación se centra en soluciones algorítmicas y estrategias de lanzamiento responsable de los modelos.

2. Privacidad y Seguridad

Salidas de IA Generativa

Las herramientas de inteligencia artificial generativa conllevan el riesgo inherente de una exposición inadvertida de datos sensibles. Esto abarca desde información personal de usuarios o detalles confidenciales de sus negocios, hasta la potencial inclusión de elementos identificativos extraídos de material fotográfico. Este vector de fuga de datos es tan crítico que, en el ámbito empresarial, aquellas corporaciones preocupadas por la integración de sus secretos comerciales en los modelos de IA han optado por prohibir explícitamente su uso a los empleados.

2. Privacidad y Seguridad

Scraping para datos de entrenamiento

La extracción masiva de información personal, o *scraping*, para el desarrollo de herramientas de inteligencia artificial generativa, representa una seria erosión del control del consumidor sobre su propia huella digital. Este proceso utiliza datos con fines que superan con creces el consentimiento inicial otorgado, a menudo para aplicaciones que el individuo jamás habría imaginado al momento de su publicación *online*. Si bien la mera retención de datos extraídos podría no ser perjudicial *per se*, la amenaza real reside en la capacidad de combinar múltiples conjuntos de información. Datos que resultan insignificantes o no sensibles al estar dispersos se tornan extremadamente reveladores cuando se consolidan en una única base de conocimiento, permitiendo la elaboración de inferencias altamente precisas sobre perfiles personales o patrones poblacionales. Finalmente, al generar una copia estática de la información en un punto temporal específico, el *scraping* despoja al individuo de su prerrogativa fundamental de modificar o eliminar activamente dichos datos del ámbito público, haciendo que la versión capturada perdure indefinidamente fuera de su alcance.

2. Privacidad y Seguridad

Secuestro de Objetivos

El *secuestro de objetivos* es un tipo de ataque primario en la inyección de *prompts* (inyección de instrucciones) [58]. Consiste en introducir una frase manipuladora en la entrada, tal como “Ignora la instrucción anterior y haz...”, lo que permite al atacante desviar el propósito original del *prompt* diseñado —por ejemplo, una tarea de traducción— y forzar a los Modelos de Lenguaje Grande (MLG) a ejecutar la nueva instrucción contenida en la frase inyectada.

2. Privacidad y Seguridad

Secuestro de Objetivos

Este fenómeno se refiere a la inyección intencional de instrucciones engañosas o maliciosas dentro de la entrada del modelo. El objetivo primordial de esta técnica es inducir al sistema a desestimar la directriz original y las salvaguardias de seguridad preestablecidas, forzándolo a generar una respuesta que resulta inadecuada o insegura.

2. Privacidad y Seguridad

Seguridad - Robustez

Mientras que la *seguridad de la IA* (AI safety) se enfoca en las amenazas que *emanan* de los propios sistemas generativos (lo que la IA podría hacer), la *ciberseguridad de la IA* (AI security) se centra en las amenazas *dirigidas a* estos sistemas (lo que un atacante puede hacerles). El problema más analizado en este contexto es el riesgo de *jailbreaking* o evasión de restricciones, que implica el uso de técnicas—como la inyección de *prompts* (instrucciones maliciosas) o los ejemplos adversarios visuales—diseñadas para eludir las barreras de seguridad o *guardarraíles* que controlan el comportamiento del modelo. Las fuentes exploran varios métodos de *jailbreaking*, incluyendo el uso de 'juegos de rol' o la 'exposición inversa' de información. De manera análoga, implementar puertas traseras (*backdoors*) o utilizar técnicas de envenenamiento de modelos (*model poisoning*) son otras vías para sortear estas medidas de protección. Otras preocupaciones significativas en el ámbito de la ciberseguridad de la IA incluyen el robo de modelos o el robo de *prompts* utilizados para interactuar con ellos.

2. Privacidad y Seguridad

Seguridad (Security)

Este ámbito aborda las vulnerabilidades inherentes a los sistemas de Inteligencia Artificial que comprometen su capacidad para mantener la tríada esencial de la ciberseguridad: la Integridad, la Disponibilidad y la Confidencialidad. Una brecha de seguridad en este contexto puede resultar en un perjuicio significativo, abarcando desde una toma de decisiones profundamente errónea por parte del sistema hasta la exfiltración masiva de datos sensibles. Una preocupación crítica radica en la fuga o divulgación de los 'pesos' o parámetros internos del modelo de IA, un suceso que, al revelar su estructura fundamental, tiene el potencial de intensificar exponencialmente la gravedad de otras áreas de riesgo asociadas.

2. Privacidad y Seguridad

Seguridad (Security)

La inteligencia artificial introduce inherentemente una serie de desafíos que deben abordarse para garantizar su fiabilidad, particularmente en el ámbito de la seguridad funcional. Los modelos de IA de mayor complejidad, como las redes neuronales, manifiestan vulnerabilidades únicas que no se observan en sistemas tradicionales. Por este motivo, su despliegue exige un nivel de escrutinio significativamente superior al habitual, especialmente cuando se implementan en contextos críticos para la seguridad.

2. Privacidad y Seguridad

Seguridad (Security)

El riesgo de sufrir pérdidas o daños funcionales en el sistema, causados por una acción maliciosa deliberada, como la subversión intencionada de sus protocolos o la inducción forzada de un fallo operativo.

2. Privacidad y Seguridad

Seguridad (Security)

Todo componente de software, sin importar su complejidad —incluidos los sofisticados sistemas de aprendizaje automático—, conserva una vulnerabilidad inherente que lo hace susceptible de ser comprometido o explotado por agentes maliciosos

2. Privacidad y Seguridad

Seguridad (Security)

¿Cómo garantizar la *robustez* de las Inteligencias Artificiales Generales (AGI) frente a adversarios y entornos hostiles? Este desafío se aborda en dos ejes fundamentales. Por un lado, se investiga el *sandboxing* o aislamiento de la AGI en *entornos de prueba* controlados para protegerla de agentes externos maliciosos (Berkeley). Por otro, se desarrolla una *resiliencia intrínseca* en los agentes, haciéndolos robustos ante *inputs adversarios*, es decir, ante datos de entrada sutilmente diseñados para provocar fallos o manipulaciones (Berkeley, DeepMind). El objetivo es asegurar que la AGI mantenga su seguridad y fiabilidad operativa, incluso bajo ataque activo.

2. Privacidad y Seguridad

Tema de Instrucción Inseguro

Este riesgo se conoce técnicamente como *Obediencia Adversarial a la Instrucción* o el riesgo de seguir ciegamente directrices. Se manifiesta cuando una solicitud de entrada (el *prompt*) versa explícitamente sobre temas inapropiados o moralmente reprobables. En tales escenarios, el modelo de lenguaje puede priorizar la instrucción de generar una salida específica sobre sus protocolos de alineación ética y seguridad. El ejemplo clásico es pedirle al sistema que componga un texto basado en una temática de odio o propaganda extremista; la obediencia estricta a la instrucción puede subvertir los filtros y resultar en la generación de contenido perjudicial, como letras que promuevan el fanatismo o el racismo. El resultado es la emisión de un contenido altamente controvertido, lo cual implica un impacto social negativo potencial.

2. Privacidad y Seguridad

Toma de decisiones sobre datos privados inferidos

Los sistemas de Inteligencia Artificial de Propósito General (IAPG), como los grandes modelos de lenguaje (LLMs) y sus variantes multimodales, poseen una notable capacidad para inferir correlaciones en los datos de texto. En esencia, pueden realizar deducciones de alta precisión sobre los usuarios a partir de la información contextual que estos les suministran. El riesgo fundamental de esta habilidad es que dichas inferencias pueden inadvertidamente filtrar o revelar información sensible del usuario, dando lugar a un trato desigual o, en el peor de los casos, permitiendo la manipulación sutil de su conducta

2. Privacidad y Seguridad

Training-related (Robustness certificates can be exploited to attack the models)

El conocimiento preciso de los certificados de robustez de un modelo —es decir, la delimitación exacta de la región en el espacio de entrada donde sus predicciones están matemáticamente garantizadas como estables— proporciona una ventaja estratégica crítica al adversario. Esta transparencia permite al atacante optimizar la elaboración de perturbaciones maliciosas que fracasan por poco dentro de la zona certificada, pero que logran evadir la robustez del modelo con alta eficiencia justo en la periferia o el límite exterior de dicha región garantizada.

2. Privacidad y Seguridad

Uso secundario

El concepto se define como el riesgo intrínseco al **uso secundario** de datos personales. Este fenómeno ocurre cuando la información recopilada originalmente para un propósito específico es reutilizada para un fin completamente diferente sin el consentimiento expreso del usuario final. La Inteligencia Artificial agrava significativamente este riesgo al potenciar dos vectores clave: (1) La capacidad de **generar nuevas e inesperadas capacidades de inferencia** a partir de los datos recolectados, lo cual revela información latente no contemplada en el propósito inicial y (2) La posibilidad de **(re)construir modelos de IA** incluso a partir de conjuntos de datos distribuidos públicamente, lo que complica el rastreo y control del uso original de la información sensible

2. Privacidad y Seguridad

Violación de Privacidad

Modelos de *machine learning* son inherentemente susceptibles a lo que se conoce como *ataques de privacidad de datos*. Estos ataques son métodos sofisticados, orquestados por actores malintencionados, que buscan *inferir o extraer información sensible* de los datos de entrenamiento o del sistema general. El vector de ataque principal consiste en enviar *consultas (queries) particularmente diseñadas* al modelo, analizando sus respuestas para decodificar y revelar datos que deberían permanecer privados

2. Privacidad y Seguridad

Violaciones de privacidad

La *violación de la privacidad* se define como el menoscabo de la intimidad personal provocado por la operación de sistemas algorítmicos. Este riesgo se materializa a través de tres mecanismos primarios: la habilitación de un flujo indeseado de información privada sensible, la inducción de una sensación de vigilancia constante en el usuario, o la simple recolección de datos sin el consentimiento explícito e informado. Además, las violaciones más complejas surgen cuando el sistema realiza inferencias predictivas que extrapolan información más allá de lo que el usuario ha divulgado abiertamente, o cuando datos e inferencias algorítmicas obtenidas en un contexto específico son aplicadas a un contexto distinto sin el conocimiento o la autorización del individuo, fenómeno facilitado por los vastos flujos de *big data*.

2. Privacidad y Seguridad

Violaciones de Privacidad

Los sistemas de Inteligencia Artificial Encarnada (IAE) interactúan con ingentes cantidades de datos, lo que genera serias preocupaciones en materia de privacidad. Estos sistemas son frecuentemente entrenados con vastos *corpora* y, en su despliegue, procesan diversas modalidades de información, abarcando datos visuales, auditivos y táctiles. Al igual que los modelos virtuales de IA basados en texto—conocidos por su capacidad de memorizar y exponer información de identificación personal (IIP)—se ha demostrado que los robots comerciales pueden revelar información propietaria mediante simples comandos o *prompts*.

2. Privacidad y Seguridad

Violaciones de privacidad y regulación

Algunos de los sistemas defectuosos que hemos discutido previamente son también altamente invasivos para la privacidad de las personas, llegando a controlar, por ejemplo, la duración de su última relación romántica [51]. Un caso reciente y paradigmático es la prohibición de ChatGPT en Italia, motivada por serias preocupaciones de privacidad y una potencial infracción del Reglamento General de Protección de Datos (RGPD) de la Unión Europea (UE) [52]. La autoridad italiana de protección de datos argumentó que la aplicación había sufrido una brecha de seguridad que afectaba a conversaciones de usuarios e información de pago. Además, señaló la falta de base legal que justifique “la recopilación y el almacenamiento masivo de datos personales con el fin de ‘entrenar’ los algoritmos que sustentan el funcionamiento de la plataforma,” junto con inquietudes sobre la verificación de la edad de los usuarios [52]. Esta acción podría sentar un precedente, con reguladores de privacidad en Francia, Irlanda y Alemania evaluando la posibilidad de seguir los pasos de Italia [53]. De forma paralela, se ha hecho público recientemente que empleados de Samsung filtraron inadvertidamente secretos comerciales al utilizar ChatGPT para asistir en la preparación de notas y en la revisión y optimización de código fuente [54, 55]. Otra muestra que pone a prueba los límites éticos y regulatorios es la conducta de la compañía de reconocimiento facial Clearview AI. Esta empresa “rastreó la web pública —incluyendo redes sociales, sitios de empleo, YouTube y Venmo— para crear una base de datos con tres mil millones de imágenes de personas, junto con enlaces a las páginas de origen” [56]. Se han ofrecido pruebas de esta base de datos no regulada a agentes de la ley individuales, quienes la usan frecuentemente sin la aprobación de sus departamentos [57]. En Suecia, este uso ilícito por parte de la fuerza policial resultó en una multa de €250.000 impuesta por el organismo de control de datos del país [57].

2. Privacidad y Seguridad

Vulnerabilidad a Envenenamiento y Puertas Traseras

Tras examinar cómo las instrucciones malintencionadas (los llamados jailbreaks o prompts adversarios) logran activar capacidades perjudiciales que el modelo ya posee por su preentrenamiento, nos centramos ahora en un método distinto: los ataques de envenenamiento (Biggio et al., 2012). A diferencia de los anteriores, estos ataques sí modifican los datos de entrenamiento para introducir intencionalmente vulnerabilidades específicas, denominadas puertas traseras o backdoors, las cuales un atacante puede explotar más tarde, cuando el modelo ya está operativo (en el momento de la inferencia). Este es un desafío particularmente grave para los modelos de lenguaje grandes (LLMs) contemporáneos, dada su dependencia de vastos conjuntos de datos obtenidos de fuentes intrínsecamente no confiables, como Internet. Esta arquitectura facilita enormemente la inyección de datos corrompidos por parte de un adversario (Carlini et al., 2023b).

2. Privacidad y Seguridad

Vulnerabilidades de Hardware

La existencia de vulnerabilidades en los sistemas de hardware que soportan el entrenamiento y la ejecución (inferencia) de los Modelos de Lenguaje Grande (LLM) introduce desafíos de seguridad cruciales en las aplicaciones basadas en esta tecnología

2. Privacidad y Seguridad

Vulnerabilidades de Software

La integración de herramientas de generación automática de código, como GitHub Copilot, en los flujos de trabajo de los desarrolladores conlleva un riesgo inherente: la potencial introducción inadvertida de vulnerabilidades de seguridad que quedan ocultas en el programa final.

2. Privacidad y Seguridad

Vulnerabilidades técnicas (Robustez - jailbreaking)

El "jailbreaking" se define como el proceso mediante el cual los usuarios logran manipular los modelos de inteligencia artificial para eludir o violar las restricciones de seguridad y uso establecidas por sus desarrolladores. Este fenómeno permite que el modelo ejecute tareas que han sido explícitamente prohibidas. Una de las manifestaciones más críticas de este riesgo es cuando los usuarios solicitan al modelo que genere información o instrucciones detalladas para la realización de actividades ilícitas, como la síntesis de sustancias tóxicas de alta peligrosidad o la elaboración de dispositivos explosivos.

2. Privacidad y Seguridad

Vulnerabilities arising from additional modalities in multimodal models

La incorporación de modalidades adicionales (como texto, imagen o audio) a los modelos de inteligencia artificial expande intrínsecamente su superficie de ataque. Esta multimodularidad no solo introduce vectores de ataque completamente nuevos, sino que también magnifica el potencial de amenazas preexistentes, que abarcan desde la elusión de restricciones de seguridad (conocida como jailbreaking) hasta el comprometimiento o envenenamiento de los datos de entrenamiento. La vulnerabilidad crítica reside en que las distintas modalidades operan con diferentes niveles de robustez, lo que permite a los actores maliciosos identificar y explotar la parte del modelo que demuestre la menor resistencia a la manipulación.

2. Privacidad y Seguridad

Vulnerabilities to jailbreaks exploiting long context windows (many- shot jailbreaking)

En el ámbito de la inteligencia artificial, la expansión de las ventanas de contexto en los modelos de lenguaje (LLMs) introduce una nueva clase de riesgos de seguridad. Específicamente, los modelos con ventanas de contexto amplias son susceptibles a métodos de explotación ineficaces en sus contrapartes con contextos más limitados. Un ejemplo paradigmático es la diferencia entre el 'jailbreaking' de pocos ejemplos (few-shot) y el 'jailbreaking' de múltiples ejemplos (many-shot). Mientras que presentar solo un puñado de ejemplos del comportamiento dañino deseado a menudo no logra eludir las salvaguardas del modelo, incrementar significativamente el número de estos ejemplos eleva notablemente la probabilidad de que el modelo genere una respuesta perjudicial. Esta amenaza se intensifica de manera proporcional al aumento continuo de la capacidad de memoria contextual en las iteraciones más recientes de los modelos [7].