7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Por Error - Post-Despliegue

Aún después de su despliegue operativo, un sistema de IA arrastra riesgos residuales: fallos de diseño, errores de código no detectados, metas internas desalineadas o capacidades subdesarrolladas. Estas deficiencias colectivas tienen el potencial de desencadenar resultados altamente indeseables. Un riesgo específico y canónico es la dificultad intrínseca de la IA para manejar la ambigüedad del lenguaje humano, lo que lleva a la máquina a malinterpretar comandos debido a fenómenos fonéticos como la coarticulación, la segmentación errónea o el uso de homófonos y dobles sentidos. El ejemplo clásico es la confusión entre una frase con sentido, como "recognize speech using common sense", y su gemelo fonético sin significado, "wreck a nice beach you sing calm incense".

Fuente: MIT AI Risk Repositorymit578

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit578

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. **Establecimiento de Monitoreo Continuo Post-Despliegue y Alerta Temprana** Se debe implementar un sistema robusto de monitoreo continuo de los sistemas de IA en producción para detectar desviaciones en el desempeño, *drift* del modelo y la manifestación de resultados no deseados. Este proceso implica la medición en tiempo real de métricas de confianza y la emisión de alertas automáticas ante fallos de segmentación, coarticulación o interpretación semántica para mitigar rápidamente el riesgo de una malinterpretación que conduzca a una consecuencia operativa negativa. 2. **Integración de Mecanismos de IA Explicable (XAI) y *Human-in-the-Loop*** Incorporar herramientas de XAI para proporcionar trazabilidad y transparencia en las decisiones del sistema. Complementariamente, se debe formalizar un protocolo de "Humano en el Bucle" (*Human-in-the-Loop*) que obligue a la intervención y revisión de expertos en aquellos comandos o resultados clasificados con un bajo índice de confianza o que involucren un alto riesgo potencial. Esto permite diagnosticar la causa raíz de la ambigüedad (como el uso de homófonos) y evitar la ejecución de comandos basados en una interpretación errónea. 3. **Ejecución de Pruebas Adversarias Dirigidas y Reforzamiento de la Robustez** Realizar periódicamente ejercicios de pruebas adversarias (*Red Teaming*) específicamente diseñados para desafiar la robustez del modelo ante entradas ambiguas, complejas o fonéticamente similares al lenguaje humano (ej. el ejemplo de homófonos). Los fallos detectados deben alimentar ciclos de reentrenamiento con conjuntos de datos de desambiguación enriquecidos para aumentar la resiliencia del sistema ante las limitaciones inherentes a la complejidad del lenguaje. 4. **Marco de Gestión de Cambios y Gobernanza para Corrección de Defectos** Implementar un marco de gobernanza estricto para el manejo de versiones y actualizaciones. Cualquier corrección de errores de código o fallos de diseño residuales debe seguir un proceso formal que incluya análisis de impacto, validación exhaustiva en entornos de preproducción y una evaluación de riesgos completa antes de la re-implementación. Esto previene la introducción de nuevos defectos o la desalineación de capacidades durante el proceso de corrección.