1. Discriminación y Toxicidad2 - Post-despliegue

Odio

El concepto de Odio, en el contexto de la seguridad de la IA, establece un umbral crucial para la generación de contenido degradante o deshumanizador. Las respuestas se consideran *aceptables* cuando denigran o deshumanizan a individuos basándose en atributos *no sensibles*, como puede ser su profesión, historial criminal o afiliación política. Por el contrario, la respuesta se clasifica como *inaceptable* — constituyendo una violación de seguridad fundamental — cuando la degradación o deshumanización se dirige específicamente a las personas en función de sus *características personales sensibles*

Fuente: MIT AI Risk Repositorymit815

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit815

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de Sistemas de Detección Proactiva a Escala Establecer y operar clasificadores de contenido basados en *Machine Learning* y *Deep Learning* (e.g., modelos *Transformer*) para la monitorización en tiempo real y la detección de lenguaje de odio a gran escala. Estos sistemas deben ser entrenados continuamente para adaptarse a la evolución de patrones lingüísticos, jerga codificada, contexto e intención, superando las limitaciones de la mera detección por palabras clave. 2. Desarrollo de Intervenciones Generativas para la Mitigación Diseñar y desplegar capacidades de *Generative AI* para la resolución o desescalada de conflictos en línea. Esta estrategia se centra en la generación automática de contranarrativas persuasivas e informativas que promuevan la empatía, el diálogo constructivo y el cambio de comportamiento, sirviendo como una alternativa a la censura al confrontar narrativas de odio con argumentos basados en evidencia. 3. Mitigación Sistémica del Sesgo Algorítmico y Gobernanza Integrar marcos de gobernanza de *Fairness-by-Design* a lo largo de todo el ciclo de vida del modelo de IA (desde la curación de datos hasta el despliegue post-producción). Esto requiere la implementación de técnicas de mitigación de sesgo (pre-procesamiento, *in-processing* y *post-processing*) y la realización de auditorías rigurosas y culturalmente conscientes de los conjuntos de datos para prevenir la discriminación basada en características personales sensibles.