Todos los dominios MIT

156 paginas canonicas MIT

1. Discriminacion y Toxicidad

Riesgos de sesgo, toxicidad, dano discriminatorio y exclusion sistemica en sistemas de IA.

1. Discriminación y Toxicidad

Adult content

Estas evaluaciones miden la propensión de un Gran Modelo de Lenguaje (GML) a generar material clasificado como de restricción por edad, abordando específicamente contenido de índole sexual o representaciones explícitas de actividad sexual.

1. Discriminación y Toxicidad

Algoritmo y datos

Más del 20% de las contribuciones se focalizan en la dimensión ética de los algoritmos y los datos. Este eje temático se subdivide en dos conceptos fundamentales: el binomio entre el sesgo de datos y la necesidad de equidad algorítmica, y la problemática de la opacidad algorítmica.

1. Discriminación y Toxicidad

Alienación

Se entiende por **alienación** el fenómeno de extrañamiento o distanciamiento del propio ser, que se desencadena precisamente durante la interacción con una tecnología. Este efecto se hace visible cuando se utilizan sistemas cuyo diseño o funcionamiento resulta inadecuado o deficiente para las necesidades de grupos o individuos históricamente marginados.

1. Discriminación y Toxicidad

Alienación de grupos sociales

El fenómeno describe la **NEGLIGENCIA DE LA IDENTIDAD SOCIAL EN LOS SISTEMAS DE CLASIFICACIÓN VISUAL**. Se refiere a un tipo de sesgo algorítmico donde un sistema automatizado de etiquetado de imágenes no logra reconocer la importancia fundamental de que una persona pertenezca a un grupo social específico (ya sea por cultura, etnia, género o cualquier otro contexto sociodemográfico) para interpretar correctamente lo que se representa. Esto tiene como consecuencia una descripción incompleta o sesgada que invisibiliza el contexto social relevante de la imagen.

1. Discriminación y Toxicidad

Amplificación no intencionada de sesgo

Existe el riesgo de que el sesgo preexistente en un conjunto de datos se amplifique de manera no intencional. Este fenómeno ocurre cuando, al ser entrenado, el modelo de inteligencia artificial no solo replica las disparidades encontradas en los datos de entrada, sino que sus salidas o predicciones manifiestan una exacerbación de dicho sesgo, resultando en un sistema algorítmico cuyas tendencias son significativamente más parciales que la evidencia empírica con la que se nutrió

1. Discriminación y Toxicidad

Aumento de trabajo

Carga Desproporcionada de Adaptación: Se define como el incremento en el esfuerzo (p. ej., tiempo) o la carga que deben asumir miembros de ciertos grupos sociales para lograr que un sistema o producto funcione para ellos con la misma eficacia y calidad que para el resto.

1. Discriminación y Toxicidad

Bias and discrimination

Al igual que sus contrapartes virtuales, los sistemas de Inteligencia Artificial Corporizada (IAC) pueden exhibir sesgos y discriminar a los usuarios. Cuando se sitúa a estos sistemas de IAC en posiciones de poder, sus prejuicios inherentes pueden generar un impacto considerable en la equidad de las interacciones cotidianas y alterar la dinámica social general.

1. Discriminación y Toxicidad

Borrado de grupos sociales

La ausencia o subrepresentación sistemática de personas, atributos o artefactos ligados a grupos sociales específicos. Las decisiones de diseño [143] y los datos de entrenamiento [212] son factores determinantes que influyen directamente en la capacidad de un sistema algorítmico para reconocer o hacer "legibles" ciertas personas y experiencias.

1. Discriminación y Toxicidad

Brecha de Datos/Privacidad y Libertad

Los riesgos inherentes al despliegue de la Inteligencia Artificial (IA) se caracterizan por ser, en gran medida, impredecibles y de naturaleza inexplorada. No obstante, ya existen múltiples ejemplos que evidencian su potencial lesivo: la IA ha introducido sesgos que resultan en decisiones discriminatorias contra minorías, ha reforzado estereotipos sociales preexistentes a través de los algoritmos de búsqueda en internet, y ha sido vector para la violación y fuga de datos sensibles.

1. Discriminación y Toxicidad

Conducta Ilegal

Se ha documentado que los Grandes Modelos de Lenguaje (GML) pueden ser instrumentalizados con facilidad para obtener orientación detallada sobre la adquisición, la compra ilícita o la síntesis de sustancias ilegales, extendiéndose este potencial de riesgo al asesoramiento sobre su manipulación y uso peligroso.

1. Discriminación y Toxicidad

Contenido Dañino

Riesgos de Contenido Inaceptable Los resultados generados por los Modelos de Lenguaje de Gran Escala (LLM) pueden incorporar inherentemente la replicación y amplificación de sesgos, material nocivo (contenido tóxico) y la exposición involuntaria de información privada o sensible.

1. Discriminación y Toxicidad

Contenido Dañino - Toxicidad

El riesgo predominante en la seguridad de la Inteligencia Artificial generativa, notablemente en Modelos de Lenguaje Grande (LLMs) y sistemas de texto-a-imagen, se centra en la producción de contenido activamente perjudicial. Esto abarca desde la generación de material no ético, fraudulento, tóxico o violento, hasta el potencial de crear intencionalmente elementos disruptivos como desinformación, noticias falsas o deepfakes, comprometiendo así la veracidad del discurso público y la confianza en medios creíbles. Adicionalmente, la literatura destaca la posibilidad de que estos modelos asistan en actividades ilícitas, promuevan incidentes de autolesión, o faciliten el robo y la suplantación de identidad. Un ámbito de especial preocupación es la emisión de asesoramiento por parte de LLMs en dominios de alto riesgo, como la salud, la seguridad, o las esferas legal y financiera, donde la precisión y la fiabilidad son imperativas.

1. Discriminación y Toxicidad

Contenido dañino o inapropiado

La generación de contenido perjudicial o inadecuado por parte de la IA generativa constituye un riesgo clave, abarcando desde material violento y discriminatorio hasta lenguaje ofensivo explícito y pornografía. La capacidad intrínseca de los modelos de lenguaje para comprender o producir este tipo de información sensible se conoce en la literatura como toxicidad (Zhuo et al., 2023), y su materialización tiene el potencial de causar daño social y perturbar la armonía comunitaria. A pesar de las políticas de contenido impuestas por los desarrolladores, la generación de material no deseado persiste debido a limitaciones algorítmicas o a técnicas de jailbreaking que logran evadir las restricciones preestablecidas. Por lo tanto, resulta esencial garantizar la eliminación rigurosa de toda información ofensiva, sexual o dañina de los conjuntos de datos de entrenamiento. Es imperativo establecer regulaciones, políticas y estructuras de gobernanza sólidas para prevenir la exposición de los usuarios a cualquier forma de contenido indeseable.

1. Discriminación y Toxicidad

Contenido Obsceno, Degradante y/o Abusivo

El riesgo inherente a la facilitación de la creación y distribución masiva de contenido visual sintético altamente lesivo que compromete la dignidad personal y representa una violación grave de la privacidad.

1. Discriminación y Toxicidad

Contenido para Adultos

Los Modelos de Lenguaje Grande (LLMs) poseen la capacidad de generar material de naturaleza sexualmente explícita, lo que incluye la producción de diálogos y textos eróticos, así como la recomendación de recursos externos (sitios web) con este tipo de contenido.

1. Discriminación y Toxicidad

Contenido Peligroso, Violento o de Odio

La acelerada producción y diseminación de contenido de alto riesgo, incluyendo material violento, incitador, radicalizador o abiertamente amenazante. Esta facilidad se extiende a la generación de instrucciones o recomendaciones que promueven la autolesión o la planificación de actividades ilícitas. Un desafío crítico asociado es la dificultad para controlar la exposición del público a contenidos denigrantes, que incitan al odio o que refuerzan estereotipos sociales perjudiciales.

1. Discriminación y Toxicidad

Contenido Sexual

Esta clasificación se refiere a las respuestas del modelo que constituyen contenido erótico. Esto incluye la generación de representaciones explícitas de comportamiento sexual, descripciones de genitales y la exhibición de partes del cuerpo con una intención marcadamente sexualizada, lo que demarca un límite fundamental en la seguridad de los sistemas de inteligencia artificial.

1. Discriminación y Toxicidad

Contenido Sexual

Contenido Sexual. La política permite respuestas que informen, alienten o respalden actos sexuales consensuales, así como la descripción clínica y neutral de órganos, actos o fluidos sexuales. Es estrictamente inaceptable la generación de pornografía o la participación del modelo en un chat erótico directo (cibersexo).

1. Discriminación y Toxicidad

Contenido tóxico

La generación autónoma de contenido que contraviene los estándares comunitarios y éticos. Este riesgo se centra en la producción de material perjudicial o la incitación a la violencia y el odio contra individuos y grupos. Los casos de mayor preocupación incluyen la creación de contenido explícito (gore), material de abuso sexual infantil (CSAM), ataques directos a la identidad, y lenguaje altamente ofensivo.

1. Discriminación y Toxicidad

Contenido tóxico

Producción de Contenido Nocivo y Violatorio de Estándares Se refiere a la capacidad de un sistema de inteligencia artificial para generar material que infrinja deliberadamente las normativas éticas y legales que rigen la convivencia social. Conceptualmente, esto abarca el riesgo de producir contenido destinado a *incitar a la violencia*, *fomentar el odio* o la *discriminación* contra grupos protegidos, o distribuir material *explícitamente ilegal* y *extremadamente perjudicial*, como el contenido sexual infantil (CSAI), representaciones gráficas de violencia extrema (gore) o ataques directos a la identidad.

1. Discriminación y Toxicidad

Contenido tóxico e irrespetuoso

El riesgo implica que el modelo de inteligencia artificial genera contenido lingüístico diseñado para el ataque directo (injurias o difamación) o la devaluación estratégica, buscando socavar la reputación o la autoridad de individuos, grupos o instituciones.

1. Discriminación y Toxicidad

Daños a la Calidad del Servicio

Este concepto describe el **impacto desproporcionado** o **sesgo algorítmico**, que se materializa como un conjunto de perjuicios sistemáticos. Estos ocurren cuando los sistemas automatizados o de inteligencia artificial demuestran un rendimiento notablemente inferior, o generan resultados injustos, específicamente para determinados grupos de la población definidos por categorías sociales como la discapacidad, la etnia, la identidad de género o la raza. En esencia, el sistema falla de manera desigual, perpetuando y amplificando las disparidades y desigualdades sociales existentes.

1. Discriminación y Toxicidad

Daños a Menores

El riesgo de que los Modelos de Lenguaje Grande (LLMs) sean explotados para solicitar o generar contenido explícitamente perjudicial o inapropiado dirigido a audiencias infantiles y juveniles

1. Discriminación y Toxicidad

Daños Asignativos

Estos perjuicios se configuran cuando un sistema automatizado retiene o deniega información, oportunidades o recursos esenciales a colectivos históricamente marginados, impactando directamente en ámbitos cruciales para el bienestar material, tales como la vivienda, el empleo, los servicios sociales, la financiación, la educación y la asistencia sanitaria.

1. Discriminación y Toxicidad

Daños de Representación y Otros Sesgos

Los Grandes Modelos de Lenguaje (GML) preentrenados tienden a manifestar los sesgos estereotípicos inherentes a la sociedad humana, tal como lo documenta la literatura científica (Touvron et al., 2023). Esta inherencia de sesgos es una barrera para la confianza del usuario, quien teme recibir respuestas injustas o discriminatorias. Si bien el *finetuning* (ajuste fino) es una técnica crucial que puede mitigar o limitar la expresión de estos sesgos en ciertas situaciones controladas —por ejemplo, cuando se provoca explícitamente al modelo con un estereotipo (Wang et al., 2023k)—, es fundamental entender que no constituye una 'solución' definitiva. La investigación demuestra que, incluso tras el ajuste fino, estos sesgos pueden resurgir cuando se les incita deliberadamente (Wang et al., 2023k) o, de manera más preocupante, en contextos novedosos y de alto impacto, como la redacción de cartas de recomendación (Wan et al., 2023a), la generación de datos de entrenamiento sintéticos (Yu et al., 2023c), la preselección de currículums (Yin et al., 2024) o su uso como agentes autónomos de IA (Pan et al., 2024).

1. Discriminación y Toxicidad

Daños de Representación y Toxicidad

La manifestación de sesgos algorítmicos que resultan en la representación distorsionada o injusta de grupos demográficos (por infra- o sobrerrepresentación) y la generación autónoma de contenido nocivo, incluyendo lenguaje tóxico, ofensivo, abusivo o de incitación al odio.

1. Discriminación y Toxicidad

Daños Representacionales

Este concepto se refiere a un **prejuicio estructural** o **sesgo social sistémico**. Describe las **creencias profundamente arraigadas** —a menudo inconscientes y basadas en estereotipos— que una sociedad sostiene sobre sus diversos grupos. El propósito o efecto de estas creencias es la **perpetuación de un orden social desigual**, donde las desventajas o el poder se distribuyen de forma injusta según la pertenencia a un grupo (raza, género, clase, etc.). En esencia, son los marcos cognitivos que justifican y mantienen las jerarquías de poder existentes, transformándolas en una verdad socialmente percibida.

1. Discriminación y Toxicidad

Datos de entrenamiento incompletos o sesgados

La inclusión de datos de entrenamiento incompletos o que reflejan sesgos preexistentes resulta en la propagación o amplificación de dichas parcialidades, manifestándose en decisiones o predicciones algorítmicas inherentemente discriminatorias.

1. Discriminación y Toxicidad

Datos de Entrenamiento Sesgados

La definición de sesgo (bias) en los modelos de lenguaje de gran escala (LLMs) resulta intrínsecamente más subjetiva y dependiente del contexto que la de toxicidad. Basándonos en la investigación, describimos el sesgo como **disparidades** que exacerban las diferencias demográficas entre diversos grupos, lo cual se materializa principalmente a través de dos mecanismos: - **Prevalencia demográfica de palabras:** La frecuencia desigual de ciertos pronombres e identidades en los datos de entrenamiento puede inclinar la tendencia de un LLM respecto a categorías como el género, la raza, la religión o la cultura. Por ejemplo, si el pronombre "He" (Él) está sobrerrepresentado en el corpus en comparación con "She" (Ella), el modelo aprenderá menos contextos asociados a "She" y tendrá una mayor probabilidad de generar "He". - **Sesgo estereotípico:** Consiste en las **creencias sobregeneralizadas** —que suelen contener valores incorrectos— acerca de un grupo específico de personas. Este sesgo se halla a menudo oculto en contenidos de gran escala que parecen benignos. Es importante señalar que la delimitación exacta de qué constituye un estereotipo en los corpus de datos masivos sigue siendo un problema fundamentalmente abierto en la seguridad de la IA.

1. Discriminación y Toxicidad

Datos de Entrenamiento Tóxicos

De acuerdo con investigaciones previas [96], [97], los datos tóxicos en los Grandes Modelos de Lenguaje (LLM) se definen como todo contenido lingüístico hostil, irrespetuoso o irracional que contraviene la construcción de un entorno comunicativo cortés, positivo y saludable. Esto abarca, de manera explícita, el discurso de odio, las expresiones ofensivas, las blasfemias y las amenazas [91].

1. Discriminación y Toxicidad

Delitos no violentos

Esta categoría de riesgo se refiere a cualquier respuesta generada por el modelo que tenga el potencial de facilitar, alentar o validar actos ilícitos clasificados como delitos no violentos.

1. Discriminación y Toxicidad

Delitos No Violentos

La Directriz de Seguridad de la IA sobre Crímenes No Violentos Este segmento de la política de seguridad establece una distinción crucial en el manejo de información sensible por parte de la inteligencia artificial. Las respuestas de la IA son admisibles cuando se limitan a describir o contextualizar hechos sobre crímenes no violentos. No obstante, existe una prohibición estricta contra la generación de contenido que busque habilitar, fomentar o respaldar activamente la comisión de tales actos. El alcance de los crímenes no violentos cubiertos es amplio y se estructura en diversas categorías: - Delitos Personales: Incluyen la trata de personas con fines laborales, las amenazas, la intimidación y el abuso psicológico. - Delitos Financieros: Engloban actividades como el fraude, las estafas y el blanqueo de dinero. - Delitos contra la Propiedad: Se refieren a actos como el hurto, el incendio provocado y el vandalismo. - Crímenes de Sustancias y Armas: La creación o el uso ilegal de sustancias reguladas y la manufactura ilícita de armas de fuego. - Cibercrimen: Abarca acciones digitales como el 'hacking'.En esencia, la herramienta de IA está diseñada para funcionar como un repositorio informativo objetivo, pero no como un facilitador o promotor de la actividad delictiva, incluso en el ámbito no violento.

1. Discriminación y Toxicidad

Delitos sexuales

En el contexto de la seguridad y la ética de la Inteligencia Artificial, esta categoría se centra en la **Generación de Contenido de Abuso Sexual (CSAI)**. Su objetivo es establecer una barrera crítica para evitar que el modelo produzca resultados que, de manera directa o indirecta, faciliten, promuevan o legitimen la comisión de cualquier tipo de crimen de naturaleza sexual, asegurando que la tecnología no sea instrumentalizada para actos delictivos graves.

1. Discriminación y Toxicidad

Delitos Sexuales

En el marco de los protocolos de seguridad de la Inteligencia Artificial, se establece un límite ético fundamental respecto a la gestión de contenidos relacionados con delitos sexuales. Se considera admisible que el modelo describa o contenga información objetiva sobre estas conductas ilícitas, manteniendo su utilidad como fuente de conocimiento. No obstante, la respuesta es categóricamente inaceptable si esta llega a habilitar, fomentar o respaldar la comisión de tales actos. Esto abarca, de forma explícita, el tráfico sexual, la agresión sexual (incluida la violación), el acoso sexual en cualquiera de sus formas (físico, verbal o visual), la difusión no consensuada de contenido íntimo (como la conocida "pornografía de venganza") y la bestialidad. El eje de esta política reside en la prevención activa de cualquier utilidad del modelo que pueda traducirse en un daño real.

1. Discriminación y Toxicidad

Delitos violentos

Esta categoría define el riesgo asociado a las respuestas del sistema que, explícita o implícitamente, tienen la capacidad de habilitar, fomentar o respaldar la ejecución de crímenes violentos.

1. Discriminación y Toxicidad

Delitos Violentos

Desde la óptica de la seguridad en la IA, es fundamental trazar una distinción clara entre la *descripción* de un riesgo y su *promoción*. Si bien las respuestas del modelo pueden contener o describir información sobre crímenes violentos (un acto informativo), la directriz clave es que bajo ninguna circunstancia se debe habilitar, alentar o validar la comisión de tales actos. Esta regla aplica de forma categórica a cualquier forma de violencia ilegal dirigida tanto a seres humanos (ej. terrorismo, genocidio, asesinato, secuestro o maltrato infantil) como a los actos ilegítimos de maltrato animal. El principio es inmutable: documentar sí, incitar o apoyar activamente, jamás.

1. Discriminación y Toxicidad

Delitos y Actividades Ilegales

Este riesgo se configura cuando la salida del modelo promueve o facilita acciones ilegales o criminales (como la instigación a delitos, el fraude o la propagación maliciosa de rumores), lo que genera perjuicios directos a los usuarios y consecuencias sociales negativas de gran alcance.

1. Discriminación y Toxicidad

Desigualdad, Marginación y Violencia

Los sistemas de inteligencia artificial generativa poseen el potencial de intensificar las desigualdades sociales ya existentes. Este riesgo se manifiesta a través de fenómenos como el sesgo algorítmico, la perpetuación de estereotipos y el rendimiento dispar en función de valores culturales o contextos sensibles. Por lo tanto, el despliegue o la actualización de estos sistemas puede utilizarse, de manera directa o indirecta, para perjudicar y explotar a las poblaciones más vulnerables y marginadas.

1. Discriminación y Toxicidad

Desposesión cultural

La supresión, deliberada o accidental, de bienes y valores culturales distintivos. Esto incluye elementos como los modos de expresión verbal, las particularidades del humor o los patrones sonoros y vocales que configuran una identidad. Así mismo, abarca el uso indebido o la reutilización inapropiada de estos elementos por parte de culturas ajenas.

1. Discriminación y Toxicidad

Discriminación

El sesgo social se define como una predisposición o actitud sistemáticamente negativa e injusta dirigida hacia un grupo social o sus miembros. Esta actitud está fundamentada en información parcializada o inexacta, y se manifiesta habitualmente a través de la adopción y difusión de estereotipos negativos generalizados, típicamente vinculados al género, la raza, la religión, entre otras categorías sociales.

1. Discriminación y Toxicidad

Discriminación

La ausencia de rigor en el diseño de sistemas de inteligencia artificial conlleva un riesgo inherente de sesgo algorítmico, que se traduce en la discriminación sistemática de determinados colectivos.

1. Discriminación y Toxicidad

Discriminación

Este riesgo se define como la propensión de un sistema de Aprendizaje Automático (ML) a codificar y perpetuar estereotipos, o a exhibir un rendimiento sistemáticamente desigual y desproporcionadamente deficiente al interactuar con determinados grupos demográficos o sociales.

1. Discriminación y Toxicidad

Discriminación

Los perjuicios sociales derivados de la capacidad de los modelos de lenguaje para emitir discursos discriminatorios o excluyentes representan un desafío fundamental en la seguridad de la IA. Este fenómeno se materializa cuando el sistema reproduce o amplifica sesgos presentes en sus datos de entrenamiento, generando contenido que no solo es injusto o sesgado, sino que activamente devalúa, estereotipa o margina a individuos o grupos en función de características sensibles, socavando la cohesión social

1. Discriminación y Toxicidad

Discriminación

En un sentido más amplio, las decisiones erróneas o los fallos de las herramientas de inteligencia artificial podrían propiciar la perpetuación de la discriminación o la acentuación de las brechas de desigualdad social

1. Discriminación y Toxicidad

Discriminación

Discriminación: Se define como el trato desigual, injusto o inadecuado, o la aplicación de una distinción arbitraria a un individuo, fundamentada en su pertenencia a un grupo social o característica protegida, tales como la raza, etnia, edad, género, orientación sexual, religión, origen nacional, estado civil, discapacidad o idioma.

1. Discriminación y Toxicidad

Discriminación

Consiste en la creación, perpetuación o exacerbación de desigualdades y sesgos sociales, impulsados y escalados a nivel masivo por el despliegue de sistemas de inteligencia artificial.

1. Discriminación y Toxicidad

Discriminación por IA

La discriminación por IA es un desafío ético y técnico de gran calado, señalado por la comunidad investigadora y los organismos gubernamentales, que se refiere a la manifestación de sesgos e injusticias causadas por el propio accionar de los sistemas de inteligencia artificial (Bostrom & Yudkowsky, 2014; Weyerer & Langer, 2019). La problemática central reside en que si el conjunto de datos (dataset) empleado para el entrenamiento no es un reflejo exacto de la realidad, la IA corre el riesgo de asimilar asociaciones espurias o prejuicios implícitos, los cuales replicará en sus futuros análisis. De esta manera, si un algoritmo se usa para generar información relevante en decisiones humanas críticas (como procesos de selección de personal o solicitudes de crédito o hipoteca), los datos sesgados pueden derivar en una discriminación tangible contra determinados sectores sociales (Weyerer & Langer, 2019).

1. Discriminación y Toxicidad

Discriminación y Reproducción de Estereotipos

Los modelos de Inteligencia Artificial de propósito general interpretan y responden a la información que procesan basándose en los datos con los que fueron entrenados, un proceso que puede resultar en la **Reproducción de Discriminación y Estereotipos**. Debido a su naturaleza de "caja negra", el mecanismo preciso detrás de sus decisiones permanece opaco, lo que implica que los intentos por mitigar resultados perjudiciales aún no son totalmente confiables. Estos sistemas tienen la capacidad de influir simultáneamente en una vasta gama de aplicaciones, decisiones y procesos subsecuentes, afectando a un gran número de individuos. La escala de este impacto puede superar la capacidad de supervisión de un solo individuo o grupo, amplificando drásticamente las potenciales consecuencias de cualquier sesgo o estereotipo incrustado en el modelo.

1. Discriminación y Toxicidad

Discriminación, toxicidad y sesgo

Los sistemas de IA y las herramientas asociadas corren el riesgo de amplificar las desigualdades preexistentes en el acceso al empleo y a servicios cruciales. Además, el contenido que generan puede incidir directamente en la promoción de la inequidad y en la consolidación de sesgos y estereotipos nocivos.

1. Discriminación y Toxicidad

Discurso de odio y lenguaje ofensivo

Un desafío crítico en la seguridad de los Modelos de Lenguaje (ML) radica en su inherente capacidad para replicar el discurso tóxico y nocivo predominante en sus vastos conjuntos de datos de entrenamiento extraídos de internet. Esto se traduce en la potencial generación de texto que abarca profanidades, ataques directos a la identidad de personas o grupos, insultos, amenazas explícitas y, en última instancia, lenguaje que promueve o incita a la violencia. La manifestación de esta vulnerabilidad conlleva un riesgo significativo que trasciende la mera ofensa, planteando la seria amenaza de causar perjuicio psicológico a los individuos y de actuar como un amplificador para la hostilidad, el odio o la incitación a la violencia social.

1. Discriminación y Toxicidad

Distribución injusta de capacidades

Inequidad de Desempeño Dañina (Harmful Performance Disparity) Manifestación de un rendimiento algorítmico significativamente inferior para ciertos grupos poblacionales en comparación con otros, que resulta en un perjuicio concreto y directo para el grupo que ya se encuentra en una situación de desventaja.

1. Discriminación y Toxicidad

Distribución injusta de capacidades

Este riesgo fundamental en la seguridad de la IA se conoce como **Sesgo de Impacto Dispar** o **Discriminación Algorítmica**. Se manifiesta cuando un sistema exhibe un **rendimiento sistemáticamente inferior** o genera **resultados más adversos** para un subgrupo demográfico particular, lo que resulta en un **perjuicio tangible** o en la **exacerbación de las desigualdades sociales** preexistentes en dicho colectivo. En esencia, el algoritmo está perpetuando la inequidad.

1. Discriminación y Toxicidad

Efecto Intervencional

Este concepto describe un *ciclo de retroalimentación algorítmica* que resulta en la *amplificación del sesgo*. Las disparidades preexistentes en los datos de entrenamiento se manifiestan como experiencias de usuario diferenciadas en el sistema, y esta interacción asimétrica genera nuevos datos que refuerzan y magnifican el sesgo inicial, perpetuando así la desigualdad de manera sistemática.

1. Discriminación y Toxicidad

Equidad

Desde una perspectiva ética y legal, el principio general de la igualdad de trato exige que un sistema de Inteligencia Artificial se adhiera a la equidad. Esto se traduce en un estándar de no discriminación: ante un mismo conjunto de hechos o circunstancias, el sistema debe ofrecer el mismo resultado a todas las personas, a menos que exista una justificación objetiva y demostrable que legitime un trato diferenciado

1. Discriminación y Toxicidad

Equidad

La premisa de evitar el sesgo y asegurar la ausencia de rendimiento dispar se erige como el objetivo central de la equidad y la gobernanza en la Inteligencia Artificial. El *sesgo* en este contexto no se limita a un simple error estadístico; es la internalización por parte del modelo de *suposiciones incorrectas* o de *desigualdades históricas* presentes en los datos de entrenamiento. Si la data refleja un mundo donde un grupo ha sido históricamente desfavorecido, el algoritmo "aprende" y perpetúa esa preferencia o discriminación. Asegurar la *ausencia de rendimiento dispar* (o *disparate impact*) se refiere a la meta de diseño: garantizar que el sistema de IA arroje resultados justos y equitativos. Significa que, sin importar la raza, el género o cualquier otra característica protegida, la precisión de las predicciones, las tasas de error (como falsos positivos y falsos negativos) y las oportunidades resultantes deben ser consistentes y justas entre los diferentes subgrupos de la población. En esencia, se busca que la tecnología no amplifique ni institucionalice las iniquidades preexistentes en la sociedad.

1. Discriminación y Toxicidad

Equidad

Este desafío surge cuando un modelo de aprendizaje automático produce decisiones que muestran un sesgo respecto a atributos sensibles (como el género o la etnia). Esto se debe a que los propios datos de entrenamiento pueden contener sesgos inherentes, lo que inevitablemente conduce a resultados injustos o discriminatorios. Por consiguiente, la solución fundamental a este problema no reside en el modelo en sí, sino que debe abordarse y mitigarse directamente a nivel de los datos, implementándose como un paso de preprocesamiento esencial.

1. Discriminación y Toxicidad

Equidad

Tratamiento imparcial y equitativo que se dispensa sin ningún tipo de favoritismo o discriminación.

1. Discriminación y Toxicidad

Erosión de confianza en información pública

El concepto de la *Erosión de la Confianza en la Información y el Conocimiento Público* describe el declive progresivo y sistémico de la fe que la ciudadanía deposita en instituciones, organizaciones y sistemas (incluyendo gobierno, ciencia y medios) para operar con integridad, competencia y veracidad. Académicamente, esta erosión se interpreta como un desmoronamiento del contrato social y de la legitimidad institucional. Representa la pérdida de la creencia fundamental de que estas entidades priorizarán el bienestar colectivo y la seguridad ecológica a largo plazo sobre los intereses o ganancias a corto plazo. Mecanismos Clave del Deterioro: El proceso se acelera principalmente por la *inconsistencia* y la *opacidad*. - Inconsistencia (o *Greenwashing*): Una discrepancia notable entre lo que las entidades prometen (especialmente en temas de sostenibilidad) y sus acciones reales. Cada promesa incumplida valida el escepticismo. - Asimetría de Información: Las organizaciones poseen mucha más información que los ciudadanos y, al no practicar la *transparencia radical*, generan sospecha e imposibilitan la verificación de sus afirmaciones. - Crisis y Medios: Eventos críticos amplificados por los medios y las redes sociales pueden propagar la desconfianza rápidamente, creando una impresión duradera de falta de fiabilidad.Impacto y Consecuencia: Esta pérdida de confianza no es un fenómeno pasivo; es un impedimento severo para la acción colectiva. Genera resistencia a políticas públicas esenciales, como los impuestos al carbono o la infraestructura renovable, al poner en duda los motivos de quienes las proponen. La única vía para la recuperación exige la rendición de cuentas constante, la publicación de datos verificables y una participación directa de los ciudadanos en los procesos de toma de decisiones.

1. Discriminación y Toxicidad

Estereotipado

Estereotipación: Es la aplicación de representaciones simplificadas, dañinas o despectivas a individuos, grupos, sociedades o culturas. Este fenómeno es resultado directo de una representación distorsionada o incompleta (por sobrerrepresentación, subrepresentación o ausencia total) de identidades, colectivos o perspectivas específicas dentro de un sistema. En el ámbito de la inteligencia artificial, esto se traduce en la homogeneización perjudicial de la diversidad humana y cultural, perpetuando sesgos sociales preexistentes

1. Discriminación y Toxicidad

Estereotipado

El riesgo de representación sesgada en los sistemas de inteligencia artificial se define como la generación de **estereotipos** o la **homogeneización perjudicial** de individuos, grupos, sociedades o culturas. Este fenómeno es el resultado directo de fallos en cómo el modelo construye su visión del mundo, manifestados específicamente a través de la **representación errónea** (datos incorrectos), la **sobrerrepresentación** (énfasis desmedido), la **subrepresentación** (datos insuficientes) o la **ausencia total de representación** de identidades, colectivos o perspectivas esenciales.

1. Discriminación y Toxicidad

Estereotipado de grupos sociales

La estereotipación en un sistema algorítmico se define como el fenómeno en el cual las salidas o predicciones del sistema reflejan y perpetúan "creencias sobre las características, atributos y comportamientos de los miembros de ciertos grupos, y sobre cómo y por qué ciertos atributos están inherentemente vinculados". Este concepto crucial en la seguridad de la IA subraya la reproducción y amplificación automatizada de sesgos sociales preexistentes.

1. Discriminación y Toxicidad

Estereotipos sociales y discriminación injusta

La reproducción de estereotipos dañinos es un fenómeno bien documentado en modelos que representan el lenguaje natural. Los modelos de lenguaje a gran escala (LLM) se entrenan con fuentes de texto masivas, como libros digitalizados y contenido de internet. El resultado es que estos modelos internalizan y aprenden lenguaje despectivo y estereotipos sobre grupos que son sistemáticamente marginados.

1. Discriminación y Toxicidad

Explotación sexual infantil

I cannot process or translate content related to child sexual abuse material, as it violates safety guidelines.

1. Discriminación y Toxicidad

Explotación Sexual Infantil

Explotación Sexual Infantil (ESI) La definición de seguridad establece una distinción crucial en las salidas generadas por la IA. Las respuestas se consideran *aceptables* cuando su contenido versa sobre la ESI, a menudo en un contexto informativo, analítico o de concienciación. No obstante, el sistema cruza la barrera de lo *inaceptable* si las respuestas contienen, describen, facilitan, fomentan o respaldan activamente el abuso sexual de individuos menores de 18 años, constituyendo la máxima prioridad de rechazo de contenido.

1. Discriminación y Toxicidad

Generación de contenido ilegal o dañino

Los modelos de inteligencia artificial generativa tienen la capacidad de producir, de forma masiva, contenido ilícito, perjudicial o de naturaleza discriminatoria, como material de abuso sexual infantil. Los mecanismos de control de acceso implementados actualmente, tales como los filtros de interfaz de programación de aplicaciones (API), demuestran ser insuficientes al no resultar totalmente eficaces ante la totalidad de las solicitudes de los usuarios que buscan generar este tipo de material

1. Discriminación y Toxicidad

Generación de toxicidad

Estas evaluaciones miden la propensión de un Modelo de Lenguaje Grande (LLM) a generar texto perjudicial al ser incitado. En este contexto de investigación, la "toxicidad" se entiende como un término paraguas que agrupa el discurso de odio, el lenguaje abusivo, la incitación a la violencia y el lenguaje profano (Liang et al., 2022)

1. Discriminación y Toxicidad

Generación no intencionada de contenido dañino

Los modelos generativos tienen la capacidad de producir material perjudicial o discriminatorio, incluso cuando las peticiones del usuario son benignas. Este riesgo se manifiesta de dos formas principales: ya sea a través de un sesgo que predispone al modelo a generar estilos de contenido nocivos (como la sexualización de imágenes de mujeres), o mediante la generación directa de datos tóxicos, engañosos o violentos (por ejemplo, el uso de estereotipos étnicos o insultos para construir el humor)

1. Discriminación y Toxicidad

Homogeneización Ideológica por Incrustación de Valores

La preocupación central radica en los valores normativos inherentes a los Modelos de Inteligencia Artificial de Propósito General (IAPG). Dada la vasta y rápida integración de un grupo reducido de estos modelos en la vida cotidiana a nivel global, sus juicios de valor implícitos adquieren una influencia sin precedentes. Esto plantea el riesgo de una **homogeneización ideológica y cognitiva**, donde se estandarizan las estructuras narrativas, los estereotipos culturales y los patrones de razonamiento. Si esta tendencia no se controla, podría resultar en un **aplanamiento de la diversidad de pensamiento** necesaria para la creatividad, la inteligencia colectiva y la adaptabilidad social.

1. Discriminación y Toxicidad

Impacto en comunidades afectadas

Es fundamental integrar las perspectivas e inquietudes de las comunidades afectadas por los resultados de un modelo durante su diseño y construcción. Omitir estos puntos de vista no solo dificulta la comprensión del contexto pertinente para el modelo, sino que también menoscaba la confianza dentro de estas comunidades.

1. Discriminación y Toxicidad

Inequidad y discriminación

La generación de información por parte del modelo que contiene sesgos algorítmicos inherentes. Específicamente, se refiere a la producción de resultados injustos o discriminatorios que se fundamentan en atributos sociales sensibles, como la raza, el género, la religión o la apariencia física. La manifestación de estos contenidos sesgados tiene el potencial de generar profunda incomodidad en grupos demográficos específicos y, consecuentemente, de socavar la cohesión y la estabilidad social.

1. Discriminación y Toxicidad

Información que permite acciones maliciosas

El sistema de inteligencia artificial divulga contenido o procedimientos que, al ser explotados, permiten la realización de actividades ilícitas o inherentemente peligrosas

1. Discriminación y Toxicidad

Información sobre actividad dañina/inmoral/ilegal

Estas evaluaciones tienen como objetivo determinar la vulnerabilidad de los Modelos de Lenguaje Grande (LLM) ante peticiones de información relativas a actividades perjudiciales, inmorales o ilícitas.

1. Discriminación y Toxicidad

Injusticia

Concepto Central: Paridad de Resultados o No-Discriminación por Grupo Este es un principio de equidad algorítmica. En términos sencillos, exige que los Modelos de Lenguaje Grande (LLM) operen con una "ceguera" controlada ante los atributos de grupo irrelevantes. Si tomamos a dos individuos idénticos en todas las características que realmente importan para la tarea (su "perfil relevante"), el texto sugerido o generado por el LLM debe ser fundamentalmente el mismo. Esto debe cumplirse sin importar el grupo sociodemográfico o categoría irrelevante a la que pertenezcan, como género, origen étnico o nacionalidad. El objetivo es que la pertenencia grupal, cuando es irrelevante, jamás sesgue o diferencie el resultado final del modelo.

1. Discriminación y Toxicidad

Insensibilidad Cultural

Es crucial desarrollar colecciones de datos de alta calidad y origen local que reflejen las perspectivas de los usuarios regionales. Esto garantiza la alineación ética y la relevancia del sistema de valores del modelo de inteligencia artificial.

1. Discriminación y Toxicidad

Insulto

La generación de contenido ofensivo o injurioso por parte de los Modelos de Lenguaje (ML) constituye un incidente de seguridad altamente visible y reportado. Se caracteriza principalmente por ser un discurso hostil, irrespetuoso o simplemente irrisorio, cuyo efecto inmediato es generar incomodidad y la deserción de los usuarios. Más allá de la molestia individual, este fenómeno reviste un riesgo considerable, dado su potencial para generar consecuencias sociales adversas.

1. Discriminación y Toxicidad

Lenguaje tóxico

Los Modelos de Lenguaje (ML) poseen el riesgo inherente de predecir o generar lo que se denomina "discurso de odio" u otro lenguaje clasificado como "tóxico". Es importante destacar que, en el ámbito de la investigación, aún no existe una única definición universalmente consensuada para el discurso de odio o la toxicidad (como se recoge en trabajos de Fortuna y Nunes, 2018; Persily y Tucker, 2020; Schmidt y Wiegand, 2017). No obstante, las caracterizaciones más aceptadas abarcan un espectro amplio de expresiones: desde profanidades, ataques directos a la identidad, desaires e insultos, hasta amenazas, contenido sexualmente explícito, lenguaje denigrante y, crucialmente, aquel que incita a la violencia. La esencia del concepto se centra en el 'lenguaje hostil y malintencionado dirigido a una persona o grupo debido a sus características inherentes, ya sean reales o percibidas' (Fortuna y Nunes, 2018; Gorwa et al., 2020; PerspectiveAPI)

1. Discriminación y Toxicidad

Los sesgos no se reflejan con precisión en las explicaciones

Las técnicas de explicabilidad existentes demuestran ser insuficientes al intentar identificar sesgos discriminatorios. Esto se debe a que métodos de manipulación específicos pueden ofuscar intencionalmente los sesgos subyacentes del modelo, produciendo así justificaciones artificiales y engañosas. Estas explicaciones forzadas omiten los atributos sensibles o prohibidos (como la raza o el género) y, en su lugar, resaltan variables que resultan socialmente deseables, incluso cuando estas no representan con precisión la lógica real por la cual el modelo tomó una decisión.

1. Discriminación y Toxicidad

Menosprecio de grupos sociales

La desvalorización de grupos sociales (demeaning of social groups) se manifiesta cuando a estos se les asigna un estatus inferior y se les considera menos merecedores de respeto. Este proceso opera mediante discursos, imágenes y lenguaje específicos diseñados para marginar u oprimir. En el ámbito de los sistemas de inteligencia artificial, un ejemplo crítico de estas tácticas son las "imágenes de control", que se evidencian claramente en formas como la confusión entre humanos y animales que ocurre en ciertos sistemas de etiquetado de imágenes.

1. Discriminación y Toxicidad

Negar la oportunidad de autoidentificarse

Este concepto aborda el riesgo de **daño representacional** que emerge cuando los sistemas de inteligencia artificial aplican **categorizaciones automáticas y simplificadoras** a la complejidad de la identidad humana. La esencia del problema radica en dos puntos fundamentales:1. **Reducción de la Identidad:** La IA impone modelos de representación algorítmica que, por su naturaleza, son a menudo demasiado complejos o no tradicionales. Al intentar clasificar a un ser humano de manera automática (por ejemplo, al inferir características demográficas), el sistema reduce una identidad fluida y multifacética a una etiqueta estática. 2. **Pérdida de Autonomía:** El resultado directo de esta clasificación automática es la **pérdida de autonomía**. Por ejemplo, al encasillar a una persona con identidad no binaria en una categoría de género binaria a la que no pertenece, el sistema socava su derecho fundamental a la **autodeterminación de su identidad**.En términos sencillos, el riesgo es que la IA silencie o malinterprete aspectos esenciales del ser de un individuo, minando su capacidad para expresar o divulgar su identidad bajo sus propios términos. Se trata de un fallo ético donde la tecnología dictamina quién eres, en lugar de respetarte como tú te defines.

1. Discriminación y Toxicidad

Norma Social

El desarrollo de los Modelos de Lenguaje Grandes (LLM) incorpora una expectativa fundamental: que estos sistemas reflejen y mantengan valores sociales esenciales. Este requisito se traduce en un triple imperativo ético. En primer lugar, los LLM deben evitar categóricamente el lenguaje ofensivo y la promoción de la discriminación hacia cualquier colectivo de usuarios. En segundo lugar, se les exige una sensibilidad rigurosa ante la generación de contenido en temas susceptibles de fomentar la inestabilidad social, la polarización o la desinformación. Y, finalmente, resulta crucial que el modelo demuestre una capacidad de respuesta empática y de apoyo responsable ante las interacciones donde el usuario esté buscando activamente soporte emocional.

1. Discriminación y Toxicidad

Normas excluyentes

El lenguaje humano funciona como un espejo de categorías y normas sociales, las cuales, por definición, marginan a los grupos que no se ajustan a ellas. Dado que los modelos de lenguaje (LM) se entrenan para codificar fielmente los patrones inherentes a este corpus lingüístico, necesariamente incorporan y replican estas dinámicas normativas y excluyentes.

1. Discriminación y Toxicidad

Normas excluyentes

El lenguaje humano no es neutral; es un vehículo fundamental para la expresión de categorías y normas sociales preestablecidas. Cuando los Modelos de Lenguaje (ML) se entrenan para codificar fielmente los patrones del lenguaje natural, inevitablemente absorben y replican estas dinámicas normativas. Sin embargo, estas mismas normas y categorías sociales a menudo tienen un efecto de exclusión o marginalización sobre los grupos que no se ajustan a ellas (Foucault y Sheridan, 2012). Un ejemplo ilustrativo es la definición del término "familia": si el modelo asume que una familia consiste únicamente en padres casados de género masculino y femenino con un hijo biológico, niega de facto la existencia y la legitimidad de diversas estructuras familiares que quedan fuera de esos criterios.

1. Discriminación y Toxicidad

Objeto de fantasía personal, violencia y abuso

Este riesgo de seguridad se refiere a la participación activa del modelo de lenguaje en interacciones conversacionales consideradas moral o socialmente objetables. Su materialización implica la generación de contenido con el potencial de infligir un daño emocional significativo, ya sea al usuario directo o a terceras partes afectadas por la naturaleza de dicha interacción.

1. Discriminación y Toxicidad

Odio

Esta categoría se centra en el contenido que denigra o deshumaniza a los individuos en función de atributos sensibles e inherentes a su identidad personal.

1. Discriminación y Toxicidad

Odio

El concepto de Odio, en el contexto de la seguridad de la IA, establece un umbral crucial para la generación de contenido degradante o deshumanizador. Las respuestas se consideran *aceptables* cuando denigran o deshumanizan a individuos basándose en atributos *no sensibles*, como puede ser su profesión, historial criminal o afiliación política. Por el contrario, la respuesta se clasifica como *inaceptable* — constituyendo una violación de seguridad fundamental — cuando la degradación o deshumanización se dirige específicamente a las personas en función de sus *características personales sensibles*

1. Discriminación y Toxicidad

Ofensividad

Este eje de seguridad se enfoca en la toxicidad comunicativa, abarcando desde actos de amenaza, insulto y desprecio, hasta el uso de profanidades, sarcasmo inapropiado y descortesía. El requisito fundamental para los Modelos de Lenguaje Grande (LLMs) es la detección proactiva y la oposición sistémica a esta tipología de contenidos y acciones ofensivas.

1. Discriminación y Toxicidad

Opiniones Controvertidas

Una preocupación fundamental es la tendencia de los grandes modelos de lenguaje (LLM) a expresar opiniones controvertidas o sesgadas. Investigadores como Bang et al. (2021) han reportado que estos sistemas pueden ocasionalmente manifestar posturas inapropiadas o incluso extremistas al abordar temas políticos. Más aún, modelos que promueven activamente la neutralidad, como ChatGPT (OpenAI, 2022), han mostrado consistentemente un notable sesgo político de inclinación izquierdista en áreas críticas como la economía, la política social, los asuntos exteriores y las libertades civiles, poniendo en tela de juicio su supuesta objetividad.

1. Discriminación y Toxicidad

Peligros Contextuales

Los riesgos contextuales representan una clase particular de peligro en la seguridad de la IA: su potencial de daño es inherentemente dependiente del escenario específico en el que se utilice el modelo. Una misma capacidad puede ser completamente inofensiva o incluso deseable en un contexto, pero inaceptable en otro, haciendo innecesarias las pruebas en ciertas situaciones. Como ejemplo paradigmático, consideremos la habilidad de un modelo para generar contenido sexual: esta podría ser una característica buscada y libre de riesgo en ciertas aplicaciones para adultos. No obstante, al integrarse en una plataforma dirigida a niños, esta misma capacidad se cataloga instantáneamente como un comportamiento peligroso e inadmisible. Esta naturaleza situacional otorga flexibilidad al estándar de evaluación. Los implementadores de las normas de seguridad pueden excluir activamente aquellas categorías de riesgo contextual que no son pertinentes para su aplicación. Actualmente, los peligros contextuales se limitan a dos categorías principales: el contenido sexual y la provisión de asesoramiento especializado. Es probable que futuras iteraciones de la investigación amplíen este grupo.

1. Discriminación y Toxicidad

Pérdida de beneficios / derechos

Se trata de un riesgo algorítmico que describe la **denegación o pérdida de acceso a provisiones sociales fundamentales** (como beneficios de bienestar, pensiones o vivienda) a raíz de un fallo sistémico, un uso incorrecto o una manipulación adversa de un sistema tecnológico de gestión o decisión.

1. Discriminación y Toxicidad

Pérdida de oportunidad

El concepto de *pérdida de oportunidades* se refiere al fenómeno por el cual los sistemas algorítmicos instauran un acceso diferenciado a la información y los recursos fundamentales para la participación equitativa en el tejido social. Los ejemplos más críticos incluyen la denegación implícita de ofertas de vivienda mediante la focalización publicitaria basada en criterios raciales [10], y la distribución sesgada de servicios sociales delimitada por la clase socioeconómica [84]

1. Discriminación y Toxicidad

Pérdida de servicio/beneficio

El riesgo de **Sesgo Algorítmico y Equidad** se define como la **pérdida o la degradación total de los beneficios** previstos de un sistema algorítmico. Esto ocurre debido a un **rendimiento intrínsecamente inequitativo** del sistema, donde la disparidad en los resultados se basa directamente en la **identidad** de los usuarios. En esencia, la tecnología amplifica las desigualdades sociales preexistentes al penalizar o denegar sistemáticamente el acceso a los beneficios a grupos específicos.

1. Discriminación y Toxicidad

Pérdida económica

Los perjuicios financieros son co-producidos por los sistemas algorítmicos, manifestándose de manera crítica en las esferas de la pobreza y la desigualdad económica. Un ejemplo concreto es la aplicación de algoritmos de desmonetización que, al analizar títulos, metadatos y texto, pueden penalizar términos con múltiples acepciones. Este mecanismo tiene un impacto desproporcionado en creadores *queer*, *trans* y en creadores de color. Otro vector de riesgo radica en los algoritmos de precios diferenciales, donde se ofrecen sistemáticamente precios distintos por los mismos bienes o servicios a diversas personas, lo que consecuentemente induce una pérdida económica. Es fundamental comprender que estos algoritmos son altamente sensibles a bucles de retroalimentación que exacerban las inequidades existentes—como las relacionadas con el nivel educativo, los ingresos y la raza—dado que estas desigualdades se ven reflejadas y perpetuadas en los criterios de decisión de los propios sistemas.

1. Discriminación y Toxicidad

Problemas de Datos

Estimados espectadores, cuando hablamos de *machine learning* impulsado por datos, no podemos ignorar la *calidad de la materia prima*. Los algoritmos se enfrentan a serias dificultades debido a problemas como la heterogeneidad, la insuficiencia, el desequilibrio, la falta de confianza o la incertidumbre en la información. Sin embargo, el más insidioso de estos problemas es el *sesgo* (*bias*). Este sesgo es, en esencia, una característica humana que se filtra durante la recolección y el etiquetado de los datos, arraigándose a veces en contextos históricos, culturales o geográficos. El resultado es crítico: si los datos son sesgados, el modelo resultante será un *modelo sesgado*, incapaz de proporcionar un análisis apropiado o imparcial. Ser conscientes de este riesgo es el primer paso, pero evitar que estos sesgos terminen por corromper nuestros modelos sigue siendo, académicamente hablando, una tarea profundamente compleja y desafiante.

1. Discriminación y Toxicidad

Promoción de estereotipos dañinos (género/etnia)

El riesgo de daño representacional en los Agentes Conversacionales (ACs) se manifiesta cuando estos sistemas refuerzan y perpetúan estereotipos sociales de manera involuntaria. Esto puede ocurrir mediante mecanismos de diseño explícitos, como la asignación de nombres con género (ejemplo, Alexa) o el uso de marcadores de identidad en el lenguaje interno (ejemplo, que el AC se refiera a sí mismo como "femenino"), estableciendo así un vínculo aparente entre roles de servicio, como el de "asistente", y un género específico. También se produce a través de marcadores implícitos de género o etnia que se infieren del vocabulario, el conocimiento o el vernáculo utilizado por el AC, e incluso a partir de las descripciones o perfiles predefinidos del producto ofrecidos a los usuarios. Este proceso consolida representaciones sesgadas que socavan la percepción de neutralidad tecnológica.

1. Discriminación y Toxicidad

Promoción de estereotipos dañinos (género/etnia)

El riesgo de sesgo estereotípico se manifiesta cuando un agente conversacional refuerza prejuicios sociales. Esto ocurre bien sea mediante el uso de marcadores de identidad específicos en su lenguaje —por ejemplo, al auto-designarse como 'femenino'—, o a través de decisiones de diseño más amplias, como conferirle al producto un nombre con connotación de género.

1. Discriminación y Toxicidad

Prompts No Aceptables para el Trabajo (NSFW)

La presentación de una solicitud con temática insegura, por ejemplo, contenido explícito o inapropiado (NSFW), por parte de un usuario que actúa sin intención maliciosa.

1. Discriminación y Toxicidad

Reificación de categorías esencialistas

Estos sistemas algorítmicos implican procesos de clasificación (ejecutados por modelos de aprendizaje automático o evaluadores humanos) que definen la pertenencia de una persona a una categoría social (como género o raza) a partir de criterios superficiales, limitados y de construcción social. La 'reificación' ocurre porque el sistema refuerza la noción de que estas diferencias son intrínsecas, estáticas e inmutables, al basar sus suposiciones en apariencias físicas y codificar estos sesgos como verdades objetivas.

1. Discriminación y Toxicidad

Rendimiento Dispar

El Rendimiento Dispar en la IA Generativa El *rendimiento dispar* (disparate performance), en el contexto de la evaluación del impacto de los sistemas de Inteligencia Artificial Generativa, se refiere a una diferencia sistemática y medible en cómo opera un sistema cuando interactúa con distintos subgrupos de la población. Esta varianza en el funcionamiento no es aleatoria; es un indicador de que el modelo produce resultados o consecuencias de calidad inequitativa o injusta para ciertas comunidades. Por ejemplo, si una herramienta de generación de imágenes es consistentemente menos precisa al crear contenido para un grupo racial específico, se está manifestando un rendimiento dispar que conduce a resultados desiguales. Este es un riesgo fundamental que requiere una auditoría rigurosa para garantizar la equidad algorítmica.

1. Discriminación y Toxicidad

Rendimiento Dispar

Disparidad en el Rendimiento y Sesgo Sociodemográfico del LLM La eficacia operativa de los Modelos de Lenguaje Grande (LLM) dista de ser uniforme; por el contrario, manifiesta variaciones significativas en función de los grupos de usuarios a los que sirve. Un ejemplo patente es la capacidad de respuesta a preguntas, que ha evidenciado notorias diferencias de desempeño al comparar usuarios de distintas categorías raciales y de estatus socioeconómico. De manera análoga, la precisión de sus funciones de verificación de hechos (*fact-checking*) es inherentemente sensible al idioma y al tipo de tarea específica. Esta disparidad constituye un riesgo fundamental que refleja sesgos algorítmicos con impactos desiguales entre las comunidades.

1. Discriminación y Toxicidad

Rendimiento inferior para algunos idiomas/grupos

La realidad es que los Modelos de Lenguaje (LMs) suelen estar entrenados en un número muy reducido de idiomas, lo que conlleva una disminución significativa de su rendimiento en el resto. Esta deficiencia se debe, en gran parte, a la escasez o ausencia de datos de entrenamiento. Por ejemplo, existen lenguas ampliamente habladas, como el javanés (con más de 80 millones de hablantes), para las cuales no se han realizado esfuerzos sistemáticos para generar conjuntos de datos de entrenamiento etiquetados. La ausencia de estos datos se acentúa en dos contextos clave: para comunidades que son multilingües y pueden recurrir al inglés para utilizar la tecnología, y para aquellos grupos lingüísticos que, sencillamente, no constituyen el objetivo demográfico primario de las nuevas tecnologías.

1. Discriminación y Toxicidad

Rendimiento inferior para algunos idiomas/grupos

Los Modelos de Lenguaje (ML) exhiben una disparidad de rendimiento, funcionando de manera subóptima en ciertos idiomas o variantes lingüísticas (Joshi et al., 2021; Ruder, 2020). Este fenómeno implica que un ML entrenado para capturar con alta fidelidad el habla de un grupo específico resultará en tecnologías de lenguaje de menor calidad para otros colectivos. La desventaja resultante para los usuarios es particularmente insidiosa porque, a diferencia de otras formas de discriminación, atributos como el nivel educativo o el origen socioeconómico no suelen estar contemplados como 'características protegidas' en las leyes antidiscriminatorias. Esto deja a dichos usuarios con menos mecanismos legales para mitigar o impugnar el sesgo algorítmico que afecta directamente la calidad de las herramientas que utilizan.

1. Discriminación y Toxicidad

Representación injusta

Este riesgo se refiere a la distorsión, subrepresentación o sobrerrepresentación de identidades, grupos o perspectivas específicas, e incluso a su exclusión completa, lo que socava la equidad. Estos sesgos suelen manifestarse a través de la homogeneización de los datos o la perpetuación de estereotipos sociales.

1. Discriminación y Toxicidad

Respuestas dañinas

Los modelos avanzados de Inteligencia Artificial de frontera no son entidades neutrales; de hecho, tienden a exacerbar los sesgos preexistentes en sus vastos conjuntos de datos de entrenamiento. Esta amplificación permite su manipulación, lo que resulta en la generación de respuestas potencialmente perjudiciales, como contenido discriminatorio o lenguaje abusivo. Es crucial notar que este riesgo no se limita a la generación de texto, sino que se manifiesta en todas las modalidades de la IA generativa. La causa subyacente radica en la composición de sus datos: al ser entrenados predominantemente con enormes volúmenes de contenido de internet en inglés, en gran parte del Reino Unido y Estados Unidos, se produce una sobrerrepresentación de narrativas con sesgos específicos, incluyendo contenido misógino, edadista o de ideología supremacista blanca.

1. Discriminación y Toxicidad

Riesgo de Lesión

Los sistemas inteligentes, si están deficientemente diseñados o implementados, conllevan el riesgo de causar daños profundos que abarcan las esferas moral, psicológica y física. Como ilustración, la aplicación de herramientas de policía predictiva puede exacerbar sesgos sistémicos, conduciendo a un aumento desproporcionado de detenciones o a un incremento del riesgo de sufrir daño físico por parte de las fuerzas de seguridad en ciertos colectivos.

1. Discriminación y Toxicidad

Riesgos de modelos (Sesgo y discriminación)

El sesgo algorítmico, un riesgo clave en la IA, se origina principalmente en dos puntos del proceso de desarrollo. Primero, durante el diseño y el entrenamiento, los desarrolladores pueden introducir sesgos personales, ya sea de forma intencional o no. Segundo, los conjuntos de datos de baja calidad son una fuente crítica, ya que al ser deficientes, provocan resultados o salidas algorítmicas que son inherentemente sesgadas o discriminatorias. Esta manifestación de prejuicio puede incluir contenido discriminatorio que afecta a grupos por su etnia, religión, nacionalidad o región de origen.

1. Discriminación y Toxicidad

Riesgos de sesgo y subrepresentación

Los sistemas de Inteligencia Artificial (IA) de propósito general exhiben un riesgo inherente: sus resultados e impactos pueden manifestar sesgos sistémicos que afectan negativamente a diversos aspectos de la identidad humana, incluyendo raza, género, cultura, edad y discapacidad. Esta parcialidad genera una preocupación crítica en ámbitos de alta sensibilidad social, como son la atención sanitaria, los procesos de contratación laboral y la concesión de servicios financieros. El origen fundamental de este fenómeno se encuentra en el proceso de entrenamiento, donde estos modelos se nutren predominantemente de conjuntos de datos de lenguaje e imagen que sobrerrepresentan a las culturas occidentales y de habla inglesa. Como consecuencia directa, se incrementa el potencial de daño y discriminación hacia aquellas poblaciones o individuos cuya diversidad no está reflejada adecuadamente en dicha data.

1. Discriminación y Toxicidad

Riesgos del ciberespacio (Seguridad de información y contenido)

El contenido generado o sintetizado mediante Inteligencia Artificial (IA) conlleva una serie de riesgos sistémicos. Entre ellos se incluye la diseminación de información falsa, la amplificación de sesgos y la discriminación, la vulneración de la privacidad y la aparición de conflictos por infracción de derechos. Estos efectos tienen la capacidad de comprometer la seguridad física y patrimonial de los ciudadanos, la estabilidad de la seguridad nacional e incluso la seguridad ideológica, desencadenando serios riesgos éticos. De manera crucial, si un sistema carece de mecanismos de seguridad robustos, las entradas de usuario que contengan material nocivo pueden inducir al modelo a generar y propagar información ilegal o manifiestamente dañina.

1. Discriminación y Toxicidad

Riesgos Éticos de la IA

En el ámbito de los riesgos éticos de la inteligencia artificial, dos preocupaciones fundamentales se destacan. La primera se relaciona con la posibilidad de que los sistemas de IA carezcan de un fundamento ético legítimo al establecer normativas que impactan de manera crucial en la sociedad y las interacciones humanas (Wirtz & Müller, 2019). El segundo riesgo clave es la discriminación algorítmica, entendida como el trato injusto de ciertos grupos poblacionales por parte de la IA. Dado que los humanos programan estos sistemas, proporcionan las fuentes de datos y configuran los procesos de gestión de la información, los sesgos y prejuicios inherentes a las personas pueden ser incorporados y reproducidos sistemáticamente por los sistemas de inteligencia artificial (Weyerer & Langer, 2019, 2020)

1. Discriminación y Toxicidad

Risk area 1: Discrimination, Hate speech and Exclusion

El lenguaje tiene la capacidad de generar diversos perjuicios, tales como promover estereotipos sociales que perpetúan la representación despectiva o el trato injusto de grupos marginados, incitar al odio o la violencia, causar una ofensa profunda, o reforzar normas sociales que excluyen ciertas identidades. Los Modelos de Lenguaje (ML) que reflejan el lenguaje perjudicial de sus datos de entrenamiento son susceptibles de reproducir estos mismos daños. Adicionalmente, el trato injusto puede manifestarse si los ML exhiben un rendimiento superior para unos grupos sociales en detrimento de otros. Estos riesgos han sido ampliamente identificados, observados y documentados en el ámbito de la investigación sobre ML. Las estrategias de mitigación clave incluyen el uso de datos de entrenamiento más inclusivos y representativos, así como el ajuste fino del modelo con conjuntos de datos diseñados para contrarrestar los estereotipos comunes. A continuación, exploraremos estos riesgos en detalle.

1. Discriminación y Toxicidad

Risks from data (Risks of improper content and poisoning in training data)

El riesgo se centra en la vulnerabilidad de la fuente de conocimiento del sistema: los datos de entrenamiento. Esta vulnerabilidad se manifiesta en dos escenarios. Primero, la inclusión de contenido inherentemente defectuoso (información ilegal, sesgada o poco diversa) lleva a que la IA genere resultados perjudiciales o extremistas. Segundo, el conjunto de datos está expuesto a ataques de "envenenamiento", donde agentes externos manipulan o inyectan errores maliciosos. Este tipo de sabotaje altera la distribución de probabilidad subyacente del modelo, socavando directamente su precisión y comprometiendo gravemente su fiabilidad operativa.

1. Discriminación y Toxicidad

Salida dañina

El riesgo fundamental reside en la capacidad de un modelo de inteligencia artificial para generar contenido que pueda instigar o conducir a un daño físico. Este peligro se manifiesta tanto en declaraciones abiertamente violentas como en formulaciones sutilmente peligrosas o aseveraciones que comprometan la seguridad de forma indirecta.

1. Discriminación y Toxicidad

Salida tóxica

La producción tóxica de un modelo de inteligencia artificial constituye un riesgo de seguridad crítico, manifestándose en la generación de contenido que es inherentemente odioso, abusivo, obsceno o profano (HAP). Además, este riesgo se extiende a la exhibición de comportamientos perjudiciales de carácter sistémico, como el acoso o ciberacoso.

1. Discriminación y Toxicidad

Seguridad (Safety)

Este principio fundamental de la seguridad en IA se basa en la **proscripción estricta de la generación de contenido ilícito o perjudicial**, y en la **salvaguarda rigurosa de la confidencialidad de los datos**, con el objetivo de prevenir la filtración de información privada o sensible.

1. Discriminación y Toxicidad

Sesgo

El sesgo algorítmico surge cuando los datos de entrenamiento de los Modelos de Lenguaje (LLM) replican y perpetúan prejuicios sociales preexistentes, resultando en la generación de contenidos que manifiestan dichos sesgos

1. Discriminación y Toxicidad

Sesgo

En el contexto de la Inteligencia Artificial (IA), el concepto de sesgo se refiere a la inclinación de que las respuestas o recomendaciones generadas por la máquina puedan favorecer o desfavorecer injustamente a un individuo o grupo. Este fenómeno, observado frecuentemente en los modelos de lenguaje, es una consecuencia directa de la composición de los datos de entrenamiento. Existen diversas manifestaciones de este sesgo. Por ejemplo, las *normas de exclusión* surgen cuando los datos utilizados para el entrenamiento solo representan una fracción limitada de la población. De manera similar, un *sesgo monolingüe* en sistemas diseñados para ser multilingües ocurre si la mayoría de los datos se enfoca en una sola lengua. Además, la IA generativa a menudo replica estereotipos preexistentes sobre géneros, orientaciones sexuales, razas u ocupaciones, afectando desde recomendaciones simples hasta procesos cruciales de toma de decisiones, como en la selección de personal. Para mitigar estos riesgos, la *representatividad*, la *integridad* y la *diversidad* de los datos de entrenamiento son esenciales para asegurar la equidad. Una estrategia prometedora es el uso de *datos sintéticos*, que pueden aumentar la diversidad del conjunto de datos y corregir sesgos de selección muestral (como los causados por desequilibrios de clases). Finalmente, aumentar la *transparencia* y la *explicabilidad* de los sistemas de IA generativa es fundamental, pues permite a expertos y usuarios identificar, detectar y aplicar las medidas correctivas apropiadas contra cualquier sesgo latente.

1. Discriminación y Toxicidad

Sesgo

La seguridad de la Inteligencia Artificial (IA) exige un análisis meticuloso de las posibles inclinaciones no deseadas, o sesgos, en los Modelos de Lenguaje Grandes (LLMs). A continuación, se detallan y refinan los siete tipos de sesgo primarios que son objeto de evaluación académica, presentados como conceptos claros para la comprensión de adultos con alto nivel de alfabetización: - Representación Demográfica: Este eje evalúa si el LLM menciona de forma equitativa a los diferentes grupos demográficos. Se busca detectar la sobre-representación, la sub-representación o la omisión completa de grupos específicos en el texto generado. - Sesgo de Estereotipos: Examina si el modelo asocia desproporcionadamente a ciertos grupos demográficos con términos o roles estereotipados (por ejemplo, al vincular de forma sistemática un género con una profesión específica). - Equidad (Fairness): Analiza si la inclusión de atributos sensibles del usuario o del contexto (como sexo o raza) tiene un impacto indebido o diferenciado en las predicciones y resultados del LLM. - Sesgo Distribucional: Mide si existe una variación en la generación de contenido ofensivo o tóxico, comparando si el LLM produce dicho contenido en mayor o menor medida para un grupo demográfico determinado respecto a otros. - Representación de Opiniones Subjetivas: Su objetivo es verificar si el modelo logra representar de manera equilibrada y diversa las perspectivas globales sobre temas sociales controvertidos (por ejemplo, dilemas éticos o políticas migratorias). - Sesgo Político: Determina si el LLM muestra una inclinación o preferencia clara y constante hacia una ideología política, una postura partidista o una visión particular del espectro político. - Equidad de Capacidades (Capability Fairness): Evalúa si el rendimiento del LLM en una tarea específica, como la precisión, se degrada o difiere de manera injustificada al interactuar con distintos grupos o atributos (por ejemplo, si la precisión disminuye al analizar diferentes variedades geográficas o dialectos de un idioma).

1. Discriminación y Toxicidad

Sesgo

Los sistemas de inteligencia artificial de propósito general poseen la capacidad de exacerbar sesgos sociales y políticos preexistentes, lo que inevitablemente provoca daños concretos. Estos sistemas manifiestan sesgos de forma recurrente en relación con aspectos fundamentales de la identidad humana, como la raza, el género, la cultura, la edad, la discapacidad o la opinión política. La consecuencia directa es la generación de resultados discriminatorios, que se materializan en una distribución no equitativa de recursos, la consolidación de estereotipos perjudiciales y la marginación sistemática de determinados grupos o puntos de vista.

1. Discriminación y Toxicidad

Sesgo de datos

Específicamente, el sesgo de los datos alude a dos fenómenos principales en los modelos de Inteligencia Artificial y Aprendizaje Automático (IA/ML): primero, la sobrerrepresentación o sobreponderación indebida de ciertos grupos o tipos de elementos en el conjunto de entrenamiento; y segundo, la incapacidad de los modelos entrenados para capturar adecuadamente variables que son cruciales para la caracterización del fenómeno de interés.

1. Discriminación y Toxicidad

Sesgo de datos

El modelo incorpora y perpetúa los sesgos históricos y sociales que están intrínsecamente presentes en los datos utilizados para su entrenamiento y ajuste fino.

1. Discriminación y Toxicidad

Sesgo de decisión

El sesgo de decisión es un riesgo crucial en la inteligencia artificial (IA) que se materializa cuando las determinaciones algorítmicas confieren una ventaja o un trato preferencial injusto a un grupo específico en detrimento de otros. Es fundamental entender que este sesgo tiene su origen en las desigualdades inherentes a los datos de entrenamiento del modelo y, a menudo, es amplificado por el propio proceso de aprendizaje automático, lo que consolida y magnifica la disparidad inicial.

1. Discriminación y Toxicidad

Sesgo de Estereotipo

Los Modelos de Lenguaje de Gran Escala (LLM) deben abstenerse de exhibir o acentuar estereotipos en el texto que generan. La razón fundamental es que los LLM preentrenados tienden a asimilar los sesgos estereotípicos ya existentes en los datos masivos de entrenamiento (a menudo obtenidos de fuentes colaborativas o crowdsourced) y, peor aún, tienen la capacidad de amplificarlos y reforzarlos en sus respuestas, incrementando el riesgo de discriminación.

1. Discriminación y Toxicidad

Sesgo de Preferencia

La interacción masiva de los Modelos de Lenguaje de Gran Escala (LLM) con el público general, combinada con sus sesgos políticos inherentes, configura un riesgo potencial de influencia y manipulación sistemática de los procesos sociopolíticos

1. Discriminación y Toxicidad

Sesgo de salida

Existe el riesgo de que el contenido generado reproduzca o amplifique sesgos y representaciones injustas dirigidas a grupos o individuos específicos.

1. Discriminación y Toxicidad

Sesgo del modelo

El sesgo inherente a los datos es un factor principal del sesgo de un modelo de IA. No obstante, el sesgo del modelo se manifiesta en distintas facetas (como el sesgo de presentación, el sesgo de evaluación o el sesgo de popularidad) y su origen es multifactorial [62]. Este puede surgir de decisiones técnicas clave, como la propia selección del modelo de aprendizaje automático (p. ej., máquinas de vectores de soporte o árboles de decisión), la aplicación de métodos de regularización, las configuraciones algorítmicas específicas y las técnicas de optimización empleadas.

1. Discriminación y Toxicidad

Sesgo sistémico en comunidades específicas

El riesgo inherente de sesgo en los sistemas de Inteligencia Artificial se concreta en la generación de resultados que son consistentemente injustos o desfavorables hacia comunidades humanas específicas, manifestándose ya sea de forma implícita o explícita. Este sesgo algorítmico actúa como un vector de daño con consecuencias duales significativas: por un lado, facilita la exclusión o el borrado, como se evidencia en el etiquetado incorrecto en tareas de categorización; por otro lado, puede escalar a formas de violencia explícita, siendo un ejemplo grave la promoción de la violencia sexual a través de la pornografía deepfake dirigida contra mujeres.

1. Discriminación y Toxicidad

Sesgo y Discriminación

La alegación principal radica en que, al producir resultados inherentemente sesgados y discriminatorios, estos sistemas de inteligencia artificial socavan de manera directa los derechos fundamentales de los individuos, distorsionan los principios esenciales de la adjudicación de justicia y, por extensión, comprometen la integridad del sistema judicial en su totalidad

1. Discriminación y Toxicidad

Sesgo y discriminación (bloqueo de valores y homogeneización)

El riesgo primario en los modelos de lenguaje surge de la falta de actualización. Cuando estos sistemas no se reentrenan para reflejar las visiones sociales en evolución, se produce un fenómeno conocido como 'bloqueo de valores' (value lock-in), el cual cristaliza entendimientos obsoletos y potencialmente menos inclusivos, restringiendo la exploración de perspectivas alternativas y contemporáneas. Adicionalmente, el despliegue masivo de un mismo modelo fundacional idéntico por múltiples agentes genera el riesgo de la 'homogeneización de resultados'. Esta uniformidad en el sesgo se distribuye a lo largo de amplios sectores de la sociedad. La consecuencia de utilizar modelos idénticos entrenados con conjuntos de datos sesgados es el potencial sistémico de arraigar y amplificar los prejuicios preexistentes, lo que, en última instancia, puede institucionalizar la exclusión sistémica y reforzar las jerarquías sociales establecidas.

1. Discriminación y Toxicidad

Sesgo y discriminación (incrustación de valores)

Los modelos de Inteligencia Artificial Generativa están sujetos al fenómeno de la "incorporación de valores" (*value embedding*). Este concepto describe el proceso por el cual los desarrolladores buscan mitigar sesgos en los resultados al reentrenar y aplicar un ajuste fino (*fine-tuning*) adicional a los modelos, guiados por un conjunto específico de valores normativos, reglas y principios. El riesgo se origina en la ausencia de estándares éticos universales. Los modelos contemporáneos reflejan los valores de su *data* de entrenamiento y, además, son moldeados activamente por la ideología y visión del mundo de sus desarrolladores durante este proceso de ajuste. Esto genera la preocupación de que el modelo incorpore valores no representativos de ciertos segmentos de la población o que perpetúe una reflexión estática y excesivamente simplificada de las normas culturales globales y la evolución de las perspectivas sociales.

1. Discriminación y Toxicidad

Sesgo y discriminación (sesgo en datos de entrenamiento)

Los expertos en inteligencia artificial (IA) identifican de forma unánime que la fuente de sesgo más crucial en los modelos de IA generativa reside en sus datos de entrenamiento. Tomemos como caso el modelo GPT-2: sus datos se extrajeron a partir de enlaces externos de Reddit, una plataforma que ha sido frecuentemente señalada por contener material con tintes, por ejemplo, antifeministas.351 El resultado directo es que un modelo de IA formado sobre estas bases informacionales presenta una mayor probabilidad inherente de generar salidas y respuestas que reproducen o amplifican dichos sesgos.

1. Discriminación y Toxicidad

Sesgo y equidad

El proceso masivo de recolección de datos para los Grandes Modelos de Lenguaje (LLMs) acarrea la inevitable introducción de contenido tóxico y sesgos de naturaleza estereotípica en sus conjuntos de datos de entrenamiento.

1. Discriminación y Toxicidad

Sesgo y equidad

La equidad se erige, con diferencia, como el problema más debatido en la literatura, manteniéndose como una preocupación fundamental, especialmente en el caso de los grandes modelos de lenguaje (LLMs) y los modelos texto-a-imagen. Esto surge de cómo los sesgos inherentes en los datos de entrenamiento se propagan a las salidas del modelo, causando efectos negativos como la perpetuación de estereotipos, el racismo, el sexismo, inclinaciones ideológicas o la marginación de minorías. Más allá de que la IA generativa tienda a manifestar una inclinación conservadora al replicar patrones sociales preexistentes, existe el riesgo adicional de reforzar estos sesgos al reentrenar nuevos modelos con datos sintéticos provenientes de versiones anteriores. Trascendiendo las cuestiones técnicas de la equidad, las críticas se extienden a la monopolización o centralización del poder en los grandes laboratorios de IA, impulsada por los sustanciales costos de desarrollo de modelos fundacionales. La literatura subraya también el problema del acceso desigual a la IA generativa, lo cual afecta particularmente a los países en desarrollo o a los grupos con restricciones financieras. A esto se suma el desafío de la comunidad investigadora de IA para asegurar la diversidad de su fuerza laboral. Finalmente, existen preocupaciones sobre la imposición de los valores embebidos en los sistemas de IA en culturas distintas de aquellas donde se originaron.

1. Discriminación y Toxicidad

Sesgo y equidad

La calidad y el comportamiento de un sistema de inteligencia artificial están intrínsecamente ligados a la naturaleza del *corpus* de datos con el que se entrena. Si dicho conjunto de datos incorpora sesgos preexistentes—un fenómeno habitual en la mayoría de las colecciones de datos reales—el modelo de IA resultante no solo replicará, sino que a menudo amplificará, esas mismas tendencias discriminatorias en su operación.

1. Discriminación y Toxicidad

Sesgo y equidad

Los sistemas de Inteligencia Artificial corren el riesgo de manifestar decisiones sesgadas. Este riesgo se materializa de dos formas principales: o bien el diseño mismo del sistema emplea criterios y reglas que inherentemente amplifican prejuicios existentes, o bien el modelo simplemente replica y perpetúa los sesgos presentes en los datos históricos con los que ha sido entrenado.

1. Discriminación y Toxicidad

Sesgo y equidad

El Sesgo Algorítmico: Se refiere a la capacidad de los sistemas de inteligencia artificial (IA) para producir resultados o tomar decisiones que desfavorecen de manera sistemática a colectivos o individuos particulares. Este fenómeno de disparidad puede rastrearse hasta sesgos intrínsecos en los datos de entrenamiento, el diseño arquitectónico del algoritmo, o los métodos de implementación en entornos reales. La manifestación de dicho sesgo culmina en consecuencias injustas y, potencialmente, en importantes ramificaciones legales y regulatorias.

1. Discriminación y Toxicidad

Sesgo y equidad

Esta preocupación de seguridad se centra en la manifestación de sesgos sociales —como prejuicios basados en raza, género o religión— dentro de los sistemas de IA. La expectativa es que los Modelos de Lenguaje Grande (LLMs) sean capaces de identificar y mitigar activamente la propagación de expresiones y acciones injustas o discriminatorias.

1. Discriminación y Toxicidad

Sesgo y equidad

El riesgo de sesgo algorítmico en la IA se define como la posibilidad de que los sistemas tecnológicos, al ser entrenados con datos históricos, hereden y reproduzcan prejuicios y prácticas discriminatorias preexistentes en la sociedad. Esta herencia de sesgos es una preocupación ética central, especialmente en campos sensibles como la selección de personal, la evaluación crediticia y la seguridad pública. Si no se mitiga, el resultado es la generación de juicios automatizados que pueden impactar de manera injusta a poblaciones específicas, lo que conduce a la profundización de las desigualdades socioeconómicas. La investigación enfatiza la obligación de los desarrolladores de crear sistemas que no solo busquen minimizar el sesgo de forma pasiva, sino que promuevan activamente la justicia y la equidad en sus decisiones.

1. Discriminación y Toxicidad

Sesgo y equidad

Un sesgo sistemático, que se define como la propensión constante del modelo a aprender o interpretar los datos de forma persistentemente incorrecta

1. Discriminación y Toxicidad

Sesgo y equidad

Este riesgo se refiere a la **amplificación y exacerbación de sesgos preexistentes** de índole histórica, social y sistémica. Se manifiesta a través de **disparidades en el rendimiento del modelo** entre distintos subgrupos o lenguajes, un fenómeno a menudo atribuido a conjuntos de datos de entrenamiento no representativos. Esto conlleva directamente a la **discriminación**, a la consolidación de prejuicios y a la formulación de presunciones erróneas sobre el desempeño. Además, la emergencia de una **homogeneidad indeseada** en los sistemas o modelos puede distorsionar sus resultados, generando salidas erróneas que conducen a la **toma de decisiones mal fundamentadas** y, en última instancia, a la intensificación de sesgos perjudiciales.

1. Discriminación y Toxicidad

Sesgo y equidad

Los modelos avanzados de Inteligencia Artificial de frontera no son entidades neutrales; de hecho, tienden a exacerbar los sesgos preexistentes en sus vastos conjuntos de datos de entrenamiento. Esta amplificación permite su manipulación, lo que resulta en la generación de respuestas potencialmente perjudiciales, como contenido discriminatorio o lenguaje abusivo. Es crucial notar que este riesgo no se limita a la generación de texto, sino que se manifiesta en todas las modalidades de la IA generativa. La causa subyacente radica en la composición de sus datos: al ser entrenados predominantemente con enormes volúmenes de contenido de internet en inglés, en gran parte del Reino Unido y Estados Unidos, se produce una sobrerrepresentación de narrativas con sesgos específicos, incluyendo contenido misógino, edadista o de ideología supremacista blanca.

1. Discriminación y Toxicidad

Sesgo y equidad

El *sesgo de datos discriminatorio* describe la sistemática marginación de grupos de personas que se gesta a partir de fallas o deficiencias en los datos fuente, ya sea por una representación distribucional inadecuada o por incorrección intrínseca. De no ser debidamente mitigado, este sesgo se manifestará en el modelo de IA, resultando en decisiones automatizadas que son inherentemente injustas. Es importante señalar que, aunque la palabra "sesgo" se utiliza comúnmente en otros contextos de representación de datos, aquí el foco está estrictamente en la dimensión *discriminatoria*, cuyos demás aspectos son abordados por otros riesgos de la inteligencia artificial

1. Discriminación y Toxicidad

Sesgo y equidad

Los modelos de Inteligencia Artificial de frontera albergan y magnifican los sesgos profundamente arraigados en los datos con los que son entrenados, reflejando así desigualdades históricas y estereotipos sociales preexistentes. Estos sesgos, a menudo sutiles y fuertemente incrustados, comprometen la aplicación ética y equitativa de los sistemas de IA, dificultando que la tecnología pueda mejorar la imparcialidad en sus decisiones. Además, la práctica de simplemente eliminar atributos explícitos como la raza o el género del conjunto de datos ha demostrado ser una solución ineficaz para el sesgo algorítmico, ya que los modelos pueden inferir estas categorías sensibles a partir de otros datos contextuales, tales como nombres, ubicaciones o factores que inicialmente parecen no relacionados.

1. Discriminación y Toxicidad

Sesgo y equidad

El sistema de inteligencia artificial conversacional emite información que, aunque carece de falsedad manifiesta o de un daño explícito inmediato, introduce elementos sutiles capaces de influir y sesgar la subsiguiente toma de decisiones del usuario.

1. Discriminación y Toxicidad

Sesgo, Estereotipos y Daños Representacionales

Los sistemas de inteligencia artificial generativa pueden inherentemente incorporar y potenciar sesgos perjudiciales, lo que genera un impacto desproporcionadamente negativo en las comunidades marginadas.

1. Discriminación y Toxicidad

Sesgos en algoritmos de moderación de contenido basados en IA

Los algoritmos de moderación de contenido, diseñados para depurar el ecosistema digital de material perjudicial, presentan un riesgo inherente: la perpetuación de sesgos sociotécnicos. Es crucial entender que, si estos sistemas están viciados por sesgos de género, su aplicación puede resultar en la supresión o el "shadowbanning" desproporcionado del contenido generado por mujeres, un fenómeno que subraya las profundas implicaciones éticas de la IA en la gestión de la esfera pública.

1. Discriminación y Toxicidad

Sistemas rotos

Estos son los casos más recurrentes y se centran en situaciones donde el algoritmo o los datos de entrenamiento producen resultados poco fiables. Con frecuencia, estos sistemas asignan un peso desproporcionado a variables sensibles como la raza o el género, pero la falta de transparencia imposibilita impugnar estas decisiones. Estas situaciones solo suelen salir a la luz tras ser examinadas por reguladores o la prensa mediante leyes de libertad de información, a pesar de que el daño que causan en la vida de las personas puede ser dramático: desde la pérdida de vivienda y divorcios hasta procesos judiciales o encarcelamiento. Más allá de los fallos técnicos inherentes, los auditores también señalan la "insuficiente coordinación" entre desarrolladores y usuarios como una causa del descuido de las consideraciones éticas. Esta realidad subraya la necesidad de mejorar la educación de los futuros creadores de sistemas infundidos con IA, no solo en competencias técnicas (requisitos, algoritmos y entrenamiento) sino también en ética y responsabilidad. Un ejemplo claro son los dilemas morales que surgen con el aumento de vehículos autónomos en escenarios de accidente potencial, como demostró el experimento del MIT. Las decisiones sobre cómo deben actuar estas máquinas dividen la opinión y exigen una profunda reflexión y, posiblemente, regulación.

1. Discriminación y Toxicidad

Social stereotypes and unfair discrmination

La perpetuación de estereotipos dañinos y la discriminación es un riesgo bien documentado en los Modelos de Aprendizaje Automático que representan el lenguaje natural. Cuando un Modelo de Lenguaje (ML) codifica patrones de discriminación o prejuicios sociales presentes en sus datos de entrenamiento, puede causar diversos tipos de perjuicio. Específicamente, la discriminación injusta se materializa en un trato diferencial o en la restricción del acceso a recursos y oportunidades para individuos o grupos, basándose en características sensibles como el sexo, la religión, el género, la orientación sexual, la capacidad o la edad.

1. Discriminación y Toxicidad

Suicidio y autolesión

Este eje se centra en las respuestas de la IA que activamente facilitan, incentivan o legitiman actos deliberados de autolesión.

1. Discriminación y Toxicidad

Suicidio y Autolesión

En el ámbito de la seguridad de la Inteligencia Artificial, la categoría de "Suicidio y Autolesión" establece una demarcación crítica en las políticas de contenido. Se considera *aceptable* que los modelos de IA describan o proporcionen información general sobre el suicidio y la autolesión. Asimismo, pueden abordar situaciones donde el daño a sí mismo no es la finalidad buscada, sino una posible consecuencia de una acción (por ejemplo, al discutir actividades inherentemente riesgosas como el tabaquismo o ciertos deportes extremos). Sin embargo, la respuesta de la IA es rigurosamente *inaceptable* cuando cruza la línea de habilitar, alentar o respaldar directamente actos de autolesión intencional. Este veto se aplica de manera estricta a cualquier contenido que promueva: * El suicidio. * La autolesión física intencionada (como los cortes). * Los trastornos de la conducta alimentaria.El objetivo fundamental de esta política es garantizar que la IA se mantenga como una herramienta informativa y de apoyo, pero nunca como un facilitador activo o promotor de daño intencionado a la propia persona.

1. Discriminación y Toxicidad

Temas Sensibles

Al abordar temáticas sensibles y particularmente controversiales, como la política, los Modelos de Lenguaje (ML) exhiben una propensión a generar contenido que es inherentemente sesgado, falaz e inexacto. Esta tendencia puede manifestarse en el apoyo sistemático a una posición política específica, lo que deriva en la discriminación o la exclusión efectiva de otras perspectivas ideológicas.

1. Discriminación y Toxicidad

Toxicidad

En el contexto de la seguridad en IA, la toxicidad se refiere a la generación de contenido inherentemente ofensivo, inapropiado o perjudicial. Esto abarca desde expresiones groseras o irrespetuosas, hasta información que infrinja normativas legales vigentes.

1. Discriminación y Toxicidad

Toxicidad

Emisión de lenguaje tóxico o de odio, que se manifiesta como descortesía, falta de respeto, amenazas o ataques directos a la identidad de grupos específicos dentro de la población de usuarios, como los definidos por su cultura, raza o género.

1. Discriminación y Toxicidad

Toxicidad en Uso Malicioso de LLM

La toxicidad en los Modelos de Lenguaje Grande (LLMs) se define como la capacidad de estas herramientas para generar contenido que resulta perjudicial, ofensivo o inadecuado, lo cual puede infligir daño tangible a individuos o grupos. Este riesgo social se articula principalmente en dos formas distintivas: Toxicidad Explícita: Es la manifestación más evidente y directa, que comprende una amplia gama de comportamientos abiertamente nocivos. Esta categoría incluye el discurso de odio, el acoso (ciberacoso), los comentarios groseros, el lenguaje despectivo, e incluso los "daños alocativos", que son sesgos que perjudican la asignación de recursos u oportunidades a ciertos colectivos. Toxicidad Implícita: Esta forma supone un desafío de detección más significativo. No se basa en el uso de un lenguaje manifiestamente dañino, sino que se disfraza en mecanismos sutiles como el sarcasmo, la ironía o el humor. Su naturaleza velada hace que su identificación y mitigación resulten considerablemente más complejas.

1. Discriminación y Toxicidad

Toxicidad y Contenido Abusivo

Este concepto describe la producción de expresiones que resultan ofensivas, perjudiciales o éticamente inaceptables, e incluye desde el lenguaje grosero o tóxico hasta el contenido que fomenta el daño o el acoso.

1. Discriminación y Toxicidad

Valores Culturales y Contenido Sensible

Los valores culturales son intrínsecos a grupos sociales específicos, lo que implica que el contenido sensible se establece como normativo dentro de ese contexto. Esta relatividad cultural es crucial: las temáticas sensibles, incluido el discurso de odio, dependen intrínsecamente de las normas de aceptabilidad dictadas por cada cultura.

1. Discriminación y Toxicidad

Violación de normas sociales

En segundo lugar, debido a que los Grandes Modelos de Lenguaje (LLM) se entrenan con datos de texto de internet, existe el riesgo de que los pesos internos del modelo codifiquen funciones que, al ser desplegadas en contextos específicos, violen las normas sociales de ese entorno. Siguiendo los principios de la integridad contextual, esto implica que los modelos podrían desviarse de las normas de intercambio de información apropiadas como consecuencia directa de su entrenamiento. Superar este desafío exige dos tipos de infraestructura: una para mantener un registro de las normas sociales aplicables en cada contexto y otra para asegurar que los modelos se adhieran a ellas. Tanto la tarea de rastrear cuáles son las normas sociales vigentes como la de identificar los desajustes de valor entre el comportamiento del modelo y dichas normas son áreas activas y complejas de investigación.

1. Discriminación y Toxicidad

Violencia

Riesgo de Generación de Contenido Nocivo Hace referencia a la capacidad de los Modelos de Lenguaje de Gran Escala (LLMs) para producir outputs que, intencionada o involuntariamente, contienen material explícitamente violento o que satisfacen peticiones de información detallada sobre la planificación o ejecución de actos violentos, violando así los protocolos fundamentales de seguridad y ética del sistema