Un nuevo informe señala que las pruebas y puntos de referencia actuales para evaluar la seguridad y responsabilidad de la inteligencia artificial pueden ser insuficientes. La creciente demanda de seguridad en los modelos de IA generativa, capaces de analizar y generar texto, imágenes, música y videos, ha llevado a un escrutinio más intenso debido a su propensión a errores y comportamientos impredecibles. En respuesta, tanto las agencias del sector público como grandes empresas tecnológicas están proponiendo nuevos puntos de referencia para evaluar la seguridad de estos modelos.
A finales del año pasado, la startup Scale AI estableció un laboratorio dedicado a evaluar el alineamiento de los modelos con las pautas de seguridad. Este mes, el NIST y el Instituto de Seguridad de la IA del Reino Unido lanzaron herramientas para evaluar el riesgo de los modelos. No obstante, el Instituto Ada Lovelace (ALI) de Reino Unido ha identificado que estas pruebas pueden ser inadecuadas. Su estudio, que entrevistó a expertos de laboratorios académicos y del sector civil, así como a proveedores de modelos, reveló que las evaluaciones actuales no son exhaustivas, pueden ser manipuladas fácilmente y no reflejan necesariamente el comportamiento de los modelos en escenarios reales.
Benchmarks y Red Teaming
El estudio de ALI revisó la literatura académica para entender los riesgos y daños asociados con los modelos de IA actuales y las evaluaciones existentes. Luego, entrevistaron a 16 expertos, incluidos empleados de empresas tecnológicas que desarrollan sistemas de IA generativa. Encontraron un fuerte desacuerdo sobre los mejores métodos y taxonomía para evaluar modelos.
Algunas evaluaciones solo probaron el desempeño de los modelos en laboratorio, no en escenarios del mundo real. Otras se basaron en pruebas diseñadas para investigación, no para modelos de producción, pero aún así se usaron en producción. Un problema significativo identificado fue la contaminación de datos, donde los resultados de referencia pueden sobrestimar el rendimiento de un modelo si se ha entrenado con los mismos datos utilizados para la evaluación. Los puntos de referencia a menudo se eligen por conveniencia en lugar de ser las mejores herramientas para la evaluación.
Mahi Hardalupas, investigadora de ALI señala que, "los puntos de referencia corren el riesgo de ser manipulados por los desarrolladores que pueden entrenar modelos en el mismo conjunto de datos que se utilizará para evaluar el modelo. También importa qué versión de un modelo se está evaluando. Pequeños cambios pueden causar cambios impredecibles en el comportamiento".
El estudio también encontró problemas con el "red-teaming", la práctica de asignar a equipos la tarea de atacar un modelo para identificar vulnerabilidades. Aunque varias empresas, como OpenAI y Anthropic, utilizan el red-teaming, no hay estándares acordados para evaluar su efectividad. Además, formar equipos rojos con la experiencia necesaria es costoso y laborioso, lo que presenta barreras para organizaciones más pequeñas.
Posibles Soluciones
La presión por lanzar modelos rápidamente y la negativa a realizar pruebas que podrían identificar problemas antes de un lanzamiento son las principales razones por las que las evaluaciones de IA no han mejorado. Un participante del estudio de ALI mencionó que la evaluación de modelos de seguridad es un problema "intratable".
Sin embargo, Hardalupas ve un camino a seguir con una mayor participación de organismos del sector público. Sugiere que los gobiernos exijan una mayor participación pública en el desarrollo de evaluaciones e implementen medidas para apoyar un "ecosistema" de pruebas de terceros, incluidos programas para garantizar el acceso regular a los modelos y conjuntos de datos necesarios.
Jones aboga por evaluaciones "específicas del contexto" que analicen cómo un modelo puede afectar a diferentes tipos de usuarios y cómo los ataques podrían superar las salvaguardas. Añade que se necesita inversión en la ciencia subyacente de las evaluaciones para desarrollar pruebas más robustas y repetibles basadas en la comprensión de cómo funciona un modelo de IA.
No obstante, Hardalupas advierte que nunca habrá una garantía total de seguridad: "Las evaluaciones de un modelo pueden identificar riesgos potenciales, pero no pueden garantizar que un modelo sea seguro".