Em um esforço pioneiro, pesquisadores da Universidade de Michigan, do Instituto Nacional de Astrofísica do México e do Instituto de Óptica e Eletrônica do México empregaram modelos de inteligência artificial treinados na fala humana para tentar desvendar a linguagem dos cães. Os resultados, apresentados na semana passada em uma conferência internacional, sugerem que os modelos de IA poderiam fornecer chaves valiosas para entender melhor as linguagens dos animais, embora de forma limitada. "Há muito que ainda não sabemos sobre os animais que compartilham este mundo conosco", comentou Rada Mihalcea, diretora do Laboratório de IA da Universidade de Michigan, em um comunicado à imprensa. "Os avanços na IA podem revolucionar nossa compreensão da comunicação animal, e nossas descobertas indicam que não precisamos necessariamente começar do zero."
Uso de modelos de voz de IA
O estudo concentra-se no uso doWav2Vec2, um modelo de voz de IA de última geração, para identificar a emoção, o gênero e a raça dos cães a partir de seus latidos. Para treinar e validar o modelo, os pesquisadores usaram dois conjuntos de dados diferentes. Um deles consistia em um modelo treinado exclusivamente com latidos de cães, enquanto o outro era um modelo previamente treinado com quase 1.000 horas de fala humana e posteriormente ajustado com latidos. Essa abordagem permitiu que os cientistas comparassem a eficácia dos dois modelos. Os resultados mostraram que o modelo de IA que incluiu o treinamento de fala humana teve um desempenho melhor, conseguindo identificar a emoção de um cão com 62% de precisão, a raça com 62% de precisão e o gênero com 69% de precisão. Além disso, o modelo conseguiu identificar um cão específico dentro de um grupo com 50% de precisão, superando assim o modelo treinado somente com dados de cães.
Os pesquisadores exploraram como as vocalizações dos cães podem estar vinculadas a contextos específicos. Estudos anteriores mostraram que os sons emitidos por macacos e cães da pradaria podem ser previstos pelo contexto da situação. Nesse estudo, foi feita uma tentativa de classificar as vocalizações caninas em categorias como latido agressivo, latido normal, guincho e rosnado negativo, com a intenção de compreender melhor as emoções expressas pelos cães. Embora o estudo não abranja todas as emoções caninas possíveis, foram selecionadas as vocalizações mais predominantes no conjunto de dados disponível.
Mihalcea destacou a importância do uso de modelos de processamento de fala treinados por humanos para abrir novas possibilidades de compreensão dos latidos dos cães. No futuro, a equipe de pesquisa planeja expandir o estudo para incluir uma gama maior de raças, emoções e espécies, com o objetivo de aprofundar o escopo dessa tecnologia. Embora os resultados atuais não sejam definitivos em termos da interpretação completa do latido, eles representam um passo promissor em direção a uma maior compreensão da linguagem animal.