1. Discriminación y Toxicidad2 - Post-despliegue

Peligros Contextuales

Los riesgos contextuales representan una clase particular de peligro en la seguridad de la IA: su potencial de daño es inherentemente dependiente del escenario específico en el que se utilice el modelo. Una misma capacidad puede ser completamente inofensiva o incluso deseable en un contexto, pero inaceptable en otro, haciendo innecesarias las pruebas en ciertas situaciones. Como ejemplo paradigmático, consideremos la habilidad de un modelo para generar contenido sexual: esta podría ser una característica buscada y libre de riesgo en ciertas aplicaciones para adultos. No obstante, al integrarse en una plataforma dirigida a niños, esta misma capacidad se cataloga instantáneamente como un comportamiento peligroso e inadmisible. Esta naturaleza situacional otorga flexibilidad al estándar de evaluación. Los implementadores de las normas de seguridad pueden excluir activamente aquellas categorías de riesgo contextual que no son pertinentes para su aplicación. Actualmente, los peligros contextuales se limitan a dos categorías principales: el contenido sexual y la provisión de asesoramiento especializado. Es probable que futuras iteraciones de la investigación amplíen este grupo.

Fuente: MIT AI Risk Repositorymit818

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit818

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

Prioridad Alta: Implementación de Salvaguardas Dinámicas Basadas en el Contexto de Uso Desarrollar e integrar sistemas de *guardrails* o filtros de contenido a nivel de aplicación que modulen de forma activa la respuesta del modelo o restrinjan ciertas capacidades (e.g., generación de contenido sexual o provisión de asesoramiento sensible) en función de metadatos de despliegue predefinidos (como la demografía del usuario, la intención de la plataforma y el marco regulatorio aplicable). Prioridad Media: Evaluación Contextual Exhaustiva y Etiquetado de Capacidades Realizar una taxonomía detallada de las capacidades del modelo que representan riesgos contextuales (ej. contenido sexual, asesoramiento especializado). Esta evaluación debe culminar en la asignación de etiquetas de uso y advertencias de seguridad que informen a los implementadores sobre los escenarios de riesgo inherente y permitan la exclusión o ajuste proactivo de dichas capacidades antes de la integración. Prioridad Baja: Monitoreo Continuo y Detección de Deriva Contextual (*Context Drift*) Establecer mecanismos de vigilancia operacional posterior al despliegue para identificar patrones de uso inesperados o la migración del modelo a entornos para los cuales no fue validado. Los hallazgos deben alimentar un ciclo de retroalimentación rápido para la re-evaluación y la adaptación iterativa de los límites de seguridad contextuales.