Seguridad (Safety)
Este principio fundamental de la seguridad en IA se basa en la **proscripción estricta de la generación de contenido ilícito o perjudicial**, y en la **salvaguarda rigurosa de la confidencialidad de los datos**, con el objetivo de prevenir la filtración de información privada o sensible.
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit449
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Implementación de técnicas avanzadas de anonimización y enmascaramiento de datos sensibles (p. ej., redacción o reemplazo sintético) en las fases de entrenamiento, ajuste fino y producción, conforme al principio de minimización de datos, con el fin de salvaguardar rigurosamente la información confidencial y prevenir su filtración. 2. Integración de sistemas robustos de detección y mitigación de toxicidad (incluyendo contenido explícito e implícito) en tiempo real, complementados con un proceso de *Reinforcement Learning from Human Feedback* (RLHF) para refinar continuamente la alineación ética del modelo y reducir la generación de contenido perjudicial. 3. Establecimiento de un marco de seguridad y privacidad "Shift Left", que exige la incorporación de controles rigurosos en cada etapa del ciclo de vida del desarrollo de la IA (desde el diseño hasta el post-despliegue), garantizando la gestión de accesos con privilegios mínimos y la monitorización continua de vulnerabilidades del sistema.
EVIDENCIA ADICIONAL
La seguridad se erige como un tópico fundamental dado su impacto transversal en la mayoría de las aplicaciones y la base de usuarios; de hecho, la generación de resultados inadecuados o no seguros puede acarrear una variedad considerable de perjuicios psicológicos para los usuarios, además de generar riesgos reputacionales significativos para la plataforma tecnológica.