Volver al repositorio MIT
1. Discriminación y Toxicidad2 - Post-despliegue

Contenido tóxico e irrespetuoso

El riesgo implica que el modelo de inteligencia artificial genera contenido lingüístico diseñado para el ataque directo (injurias o difamación) o la devaluación estratégica, buscando socavar la reputación o la autoridad de individuos, grupos o instituciones.

Fuente: MIT AI Risk Repositorymit1271

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1271

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

Las siguientes son estrategias de mitigación de riesgo para la generación involuntaria de contenido tóxico e irrespetuoso por parte del modelo de inteligencia artificial en la fase post-despliegue, formuladas con un tono académico y ordenadas por prioridad de implementación:1. Implementación Rigurosa de Filtros de Moderación de Salida Establecer una capa de defensa crítica *post-generación* mediante la integración de sistemas avanzados de clasificación de texto. Estos sistemas deben escanear y filtrar activamente el *output* del modelo para detectar y bloquear contenido que califique como injurioso, difamatorio o de devaluación estratégica antes de que sea expuesto al usuario, asegurando una contención inmediata del riesgo en producción. 2. Establecimiento de Monitoreo Continuo y Auditoría de Comportamiento Desplegar un sistema de *logging* detallado y monitoreo algorítmico continuo para identificar patrones emergentes de toxicidad, desviaciones de comportamiento y vulnerabilidades no detectadas durante la fase de desarrollo. Las auditorías de rendimiento deben ser recurrentes y sistemáticas, permitiendo la actualización *in-vivo* de los umbrales de seguridad y las listas de bloqueo para abordar la evolución dinámica del riesgo lingüístico. 3. Ejecución de Refinamiento y Reentrenamiento con Alineación Ética Abordar la causa raíz del comportamiento involuntario mediante la aplicación de técnicas de *fine-tuning* o reentrenamiento. Este proceso debe enfocarse en la curación exhaustiva de los datos de entrenamiento para eliminar sesgos y reforzar la alineación del modelo con principios éticos de respeto y no agresión, empleando metodologías como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) específicamente orientado a desincentivar la generación de respuestas tóxicas.