Volver al repositorio MIT
6. Socioeconómico y Ambiental2 - Post-despliegue

Violación de derechos de autor

El riesgo de infracción de derechos de autor por parte de los Modelos de Lenguaje Grande (LLM) surge cuando el contenido generado exhibe una semejanza sustancial con obras preexistentes de su corpus de entrenamiento

Fuente: MIT AI Risk Repositorymit16

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit16

Linea de dominio

6. Socioeconómico y Ambiental

262 riesgos mapeados

6.3 > Devaluación económica y cultural del esfuerzo humano

Estrategia de mitigacion

1. Implementación de técnicas rigurosas de curación de *datasets* y limpieza de datos, incluyendo la deduplicación y el filtrado preventivo de contenido protegido por derechos de autor, para mitigar la exposición del modelo durante la fase de entrenamiento 2. Aplicación de métodos avanzados de post-entrenamiento, como la Optimización de Preferencias de Paráfrasis (ParaPO) o el Desaprendizaje Selectivo para datos Verbatim (SUV), con el fin de reducir la memorización y la regurgitación literal del contenido 3. Integración de sistemas de mitigación en la fase de inferencia (*decoding-time*) y agentes de verificación en línea que utilicen cotejo de N-gramas o búsqueda en tiempo real para detectar y suprimir la generación de texto sustancialmente similar al protegido