Um novo relatório afirma que os testes e benchmarks atuais para avaliar a segurança e a responsabilidade da inteligência artificial podem ser insuficientes. A crescente demanda por segurança em modelos de IA generativa, capazes de analisar e gerar textos, imagens, músicas e vídeos, levou a um escrutínio mais intenso devido à sua propensão a erros e comportamento imprevisível. Em resposta, tanto as agências do setor público quanto as grandes empresas de tecnologia estão propondo novos padrões de referência para avaliar a segurança desses modelos.

No final do ano passado, a startup Scale AI criou um laboratório dedicado a avaliar o alinhamento dos modelos com as diretrizes de segurança. Este mês, o NIST e o AI Safety Institute do Reino Unido lançaram ferramentas para avaliar o risco dos modelos. No entanto, o Ada Lovelace Institute (ALI) do Reino Unido identificou que esses testes podem ser inadequados. Seu estudo, que entrevistou especialistas de laboratórios acadêmicos e do setor civil, bem como fornecedores de modelos, descobriu que as avaliações atuais não são abrangentes, podem ser facilmente manipuladas e não refletem necessariamente o comportamento dos modelos em cenários do mundo real.

Benchmarks e Red Teaming

O estudo da ALI analisou a literatura acadêmica para entender os riscos e danos associados aos modelos atuais de IA e às avaliações existentes. Em seguida, entrevistaram 16 especialistas, incluindo funcionários de empresas de tecnologia que desenvolvem sistemas de IA generativa. Eles encontraram uma grande discordância sobre os melhores métodos e taxonomia para avaliar modelos.

Algumas avaliações testaram apenas o desempenho dos modelos em laboratório, não em cenários do mundo real. Outras se basearam em testes projetados para pesquisa, não em modelos de produção, mas ainda assim foram usadas na produção. Um problema significativo identificado foi a contaminação de dados, em que os resultados de benchmark podem superestimar o desempenho de um modelo se ele tiver sido treinado com os mesmos dados usados na avaliação. Os benchmarks são frequentemente escolhidos por conveniência, em vez de serem as melhores ferramentas de avaliação.

Mahi Hardalupas, pesquisador da ALI ressalta que "os benchmarks correm o risco de serem manipulados por desenvolvedores que podem treinar modelos no mesmo conjunto de dados que será usado para avaliar o modelo. Também é importante qual versão de um modelo está sendo avaliada. Pequenas alterações podem causar mudanças imprevisíveis no comportamento".

O estudo também encontrou problemas com o "red-teaming", a prática de atribuir às equipes a tarefa de atacar um modelo para identificar vulnerabilidades. Embora várias empresas, como a OpenAI e a Anthropic, usem o red-teaming, não há padrões acordados para avaliar sua eficácia. Além disso, formar equipes vermelhas com o conhecimento necessário é caro e demorado, o que apresenta barreiras para organizações menores.

Soluções possíveis

A pressão para liberar modelos rapidamente e a recusa em realizar testes que poderiam identificar problemas antes de um lançamento são os principais motivos pelos quais as avaliações de IA não melhoraram. Um participante do estudo da ALI mencionou que a avaliação de modelos de segurança é um problema "intratável".

No entanto, Hardalupas vê um caminho a seguir com maior envolvimento dos órgãos do setor público. Ele sugere que os governos exijam maior participação pública no desenvolvimento de avaliações e implementem medidas para apoiar um "ecossistema" de testes de terceiros, incluindo programas para garantir o acesso regular aos modelos e conjuntos de dados necessários.

Jones defende avaliações específicas do contexto que analisem como um modelo pode afetar diferentes tipos de usuários e como os ataques podem superar as proteções. Ele acrescenta que é necessário investir na ciência subjacente das avaliações para desenvolver testes mais robustos e repetíveis com base em uma compreensão de como um modelo de IA funciona.

No entanto, Hardalupas adverte que nunca haverá uma garantia total de segurança: "As avaliações de um modelo podem identificar possíveis riscos, mas não podem garantir que um modelo seja seguro".