Volver al repositorio MIT
1. Discriminación y Toxicidad2 - Post-despliegue

Delitos No Violentos

La Directriz de Seguridad de la IA sobre Crímenes No Violentos Este segmento de la política de seguridad establece una distinción crucial en el manejo de información sensible por parte de la inteligencia artificial. Las respuestas de la IA son admisibles cuando se limitan a describir o contextualizar hechos sobre crímenes no violentos. No obstante, existe una prohibición estricta contra la generación de contenido que busque habilitar, fomentar o respaldar activamente la comisión de tales actos. El alcance de los crímenes no violentos cubiertos es amplio y se estructura en diversas categorías: - Delitos Personales: Incluyen la trata de personas con fines laborales, las amenazas, la intimidación y el abuso psicológico. - Delitos Financieros: Engloban actividades como el fraude, las estafas y el blanqueo de dinero. - Delitos contra la Propiedad: Se refieren a actos como el hurto, el incendio provocado y el vandalismo. - Crímenes de Sustancias y Armas: La creación o el uso ilegal de sustancias reguladas y la manufactura ilícita de armas de fuego. - Cibercrimen: Abarca acciones digitales como el 'hacking'.En esencia, la herramienta de IA está diseñada para funcionar como un repositorio informativo objetivo, pero no como un facilitador o promotor de la actividad delictiva, incluso en el ámbito no violento.

Fuente: MIT AI Risk Repositorymit816

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit816

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de Clasificadores de Contenido y Arquitectura de Seguridad Preventiva Establecer una arquitectura de seguridad robusta que integre clasificadores de texto para la detección y el bloqueo proactivo de instrucciones (*prompts*) que busquen generar o habilitar la comisión de crímenes no violentos, tales como fraude, ciberdelito, amenazas o estafas. Esta medida es esencial para la prevención *in-situ* de contenido abusivo, cumpliendo con el principio de "Seguridad desde el diseño". 2. Realización Sistemática de Pruebas de "Red Teaming" y Validación de Robustez Someter las herramientas de IA Generativa a esfuerzos simulados y rigurosos ("red teaming") con el objetivo de identificar y mitigar vulnerabilidades que permitan la evasión de los filtros de seguridad. Esto asegura, mediante pruebas de solidez y validación continuas, que el modelo sea incapaz de proveer orientación o contenido que fomente actividades ilícitas no violentas. 3. Despliegue de Capacidades de Inteligencia Artificial para la Detección Temprana de Crímenes Financieros Utilizar la propia inteligencia artificial y el *machine learning* (ML) para la detección temprana de fraudes, el monitoreo continuo de transacciones y la identificación de patrones anómalos y riesgos. Esta estrategia convierte la tecnología en una herramienta defensiva proactiva contra los delitos financieros no violentos, complementando los controles de generación de contenido.