Derechos de autor
El efecto de memorización inherente a los Modelos de Lenguaje de Gran Escala (LLM) permite la extracción de contenidos específicos protegidos por derechos de autor, originalmente presentes en su *corpus* de entrenamiento. Este mecanismo constituye un riesgo directo de exposición y potencial vulneración de la propiedad intelectual.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit464
Linea de dominio
6. Socioeconómico y Ambiental
6.3 > Devaluación económica y cultural del esfuerzo humano
Estrategia de mitigacion
1. Curación y Redacción Preventiva del Corpus de Datos Implementar procesos rigurosos de auditoría y curación del *corpus* de entrenamiento para identificar y *redactar* (eliminar o enmascarar) secuencias protegidas por derechos de autor o de alta sensibilidad, minimizando la exposición del modelo a contenidos sujetos a propiedad intelectual antes de la fase de preentrenamiento. 2. Aplicación de Regularización Avanzada y Criterios de Parada Óptimos Aplicar técnicas de regularización especializadas, como la *regularización de la norma espectral* o un *regularizador de pérdida consciente de n-gramas*, durante el entrenamiento para reducir el sobreajuste. Complementariamente, utilizar criterios de *parada óptima* (*early-stopping*) basados en métricas de memorización (e.g., puntuación de n-gramas) para evitar que el modelo incurra en una memorización excesiva. 3. Intervención Neuronal y Mitigación en Tiempo de Inferencia Desarrollar y aplicar métodos de mitigación post-despliegue, tales como la *dirección de activación* (*activation steering*) o el *borrado selectivo* (*neural surgery*), que permiten manipular las activaciones internas o editar componentes neuronales específicos para inhibir la regurgitación literal de datos memorizados en el momento de la generación de la respuesta.
EVIDENCIA ADICIONAL
Los Modelos de Lenguaje Grande (LLM) no solo replican texto con derechos de autor, sino que también pueden generar fragmentos de código muy similares a los programas licenciados que se encuentran en repositorios como GitHub