4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Finetuning (Finetuning dañino de modelos abiertos)

El riesgo fundamental reside en la *democratización del acceso al potencial dañino*. La publicación de los *pesos* de modelos de inteligencia artificial permite que *actores maliciosos* realicen un *ajuste fino* (fine-tuning) sobre dichos sistemas para *fines perjudiciales*, incurriendo en una inversión de *recursos* (tanto *económicos* como de *tiempo*) notablemente inferior a la requerida para el *entrenamiento original* del modelo. Esto minimiza la *barrera de entrada* para la explotación de la tecnología, acelerando la proliferación de capacidades peligrosas a nivel global.

Fuente: MIT AI Risk Repositorymit983

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit983

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.2 > Ciberataques, desarrollo o uso de armas y daño masivo

Estrategia de mitigacion

1. Implementar mecanismos técnicos robustos que dificulten significativamente la capacidad de actores maliciosos para realizar un ajuste fino (fine-tuning) sobre modelos con pesos abiertos con fines perjudiciales. Esto incluye investigar y desplegar estrategias que hagan que el ajuste fino para tareas dañinas sea tan ineficiente o costoso como el entrenamiento del modelo desde cero, preservando la estabilidad de los alineamientos de seguridad preexistentes 2. Desarrollar y aplicar metodologías de evaluación conductual (red-teaming) y pruebas de seguridad *post-ajuste fino* que excedan la mera evaluación de la tarea específica. Esto es crucial para detectar la *desalineación emergente* y la degradación involuntaria de las salvaguardas, comprobando la respuesta del modelo ante peticiones maliciosas o fuera del dominio previsto 3. Establecer un proceso de filtrado de datos riguroso en dos etapas: primero, en la curación de los datos de preentrenamiento para eliminar información que pueda ser explotada (e.g., síntesis química), y segundo, mediante la detección activa y el filtrado de cualquier dato de ajuste fino proporcionado por terceros que contenga patrones explícitos o sutiles para la generación de contenido dañino