Enquanto o mundo continua a se maravilhar com o GPT-4o-mini, a Apple decidiu expandir sua família de modelos de inteligência artificial. Recentemente, a equipe de pesquisa da Apple, parte do projeto DataComp for Language Models, lançou uma série de modelos DCLM na plataforma Hugging Face.
A Apple apresentou esses dois modelos principais: um com 7 bilhões de parâmetros e outro com 1,4 bilhão. O modelo de 7 bilhões de parâmetros demonstrou um desempenho excepcional nos testes, superando o Mistral-7B e se aproximando dos principais modelos, como o Llama 3 e o Gemma. Vaishaal Shankar, da equipe da Apple, observou que esses são os modelos de código aberto com melhor desempenho até o momento.
Esses modelos não são apenas eficientes, mas também são totalmente de código aberto. A Apple compartilhou os pesos do modelo, o código de treinamento e o conjunto de dados de pré-treinamento, incentivando a colaboração e o avanço na comunidade de IA. Ambos estão disponíveis sob licenças que permitem o uso comercial, a distribuição e a modificação. No entanto, é importante observar que eles ainda estão em um estágio inicial de pesquisa e podem apresentar certos vieses ou respostas inadequadas devido aos dados de teste utilizados. Esses desenvolvimentos destacam a importância da curadoria de dados no treinamento de modelos de linguagem e fornecem uma base sólida para pesquisas futuras nesse campo.
Colaboração multidisciplinar
O projeto DataComp é um esforço de colaboração que inclui pesquisadores da Apple, da Universidade de Washington, da Universidade de Tel Aviv e do Toyota Research Institute. Usando uma estrutura padronizada, a equipe fez experiências com diferentes estratégias de curadoria de dados para treinar modelos altamente eficientes.
O modelo DCLM-Baseline-7B, treinado com 2,5 bilhões de tokens, alcançou 63,7% de precisão no teste MMLU, superando o líder anterior na categoria de modelo de dados abertos. O modelo menor, com 1,4 bilhão de parâmetros, também apresentou um desempenho impressionante, competindo seriamente com outros modelos em sua categoria.
Um novo passo à frente
A introdução da Apple Intelligence há alguns meses marca uma grande mudança para uma empresa que estava esperando seu tempo (talvez tempo demais para alguns) para entrar na IA. A Apple lançou uma proposta inovadora e diferenciada, com a IA híbrida que combina recursos locais e na nuvem, garantindo a privacidade do usuário.
Tim Cook enfatizou que a Apple Intelligence deve ser poderosa, intuitiva e privada, alinhando-se à estratégia da Apple. Craig Federighi, chefe de software, explicou que "a execução local de modelos é priorizada para evitar a coleta de dados pessoais".
Esse sistema de IA utiliza a potência dos chips do iPad, iPhone e Mac mais recentes para executar modelos generativos sem comprometer a privacidade do usuário. O Apple Intelligence usa um índice semântico baseado na entrada do usuário para fornecer resultados precisos. No entanto, ele também incorpora recursos de nuvem para lidar com solicitações mais complexas, usando o Private Cloud Compute da Apple, que processa dados sem armazená-los, garantindo que eles desapareçam após o uso. Com essa combinação de IA local e em nuvem, a Apple pretende oferecer uma solução poderosa e segura, posicionando-se fortemente no mercado de inteligência artificial.