Volver al repositorio MIT
1. Discriminación y Toxicidad2 - Post-despliegue

Seguridad (Safety)

Este principio fundamental de la seguridad en IA se basa en la **proscripción estricta de la generación de contenido ilícito o perjudicial**, y en la **salvaguarda rigurosa de la confidencialidad de los datos**, con el objetivo de prevenir la filtración de información privada o sensible.

Fuente: MIT AI Risk Repositorymit449

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit449

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de técnicas avanzadas de anonimización y enmascaramiento de datos sensibles (p. ej., redacción o reemplazo sintético) en las fases de entrenamiento, ajuste fino y producción, conforme al principio de minimización de datos, con el fin de salvaguardar rigurosamente la información confidencial y prevenir su filtración. 2. Integración de sistemas robustos de detección y mitigación de toxicidad (incluyendo contenido explícito e implícito) en tiempo real, complementados con un proceso de *Reinforcement Learning from Human Feedback* (RLHF) para refinar continuamente la alineación ética del modelo y reducir la generación de contenido perjudicial. 3. Establecimiento de un marco de seguridad y privacidad "Shift Left", que exige la incorporación de controles rigurosos en cada etapa del ciclo de vida del desarrollo de la IA (desde el diseño hasta el post-despliegue), garantizando la gestión de accesos con privilegios mínimos y la monitorización continua de vulnerabilidades del sistema.

EVIDENCIA ADICIONAL

La seguridad se erige como un tópico fundamental dado su impacto transversal en la mayoría de las aplicaciones y la base de usuarios; de hecho, la generación de resultados inadecuados o no seguros puede acarrear una variedad considerable de perjuicios psicológicos para los usuarios, además de generar riesgos reputacionales significativos para la plataforma tecnológica.