O Mistral-NeMo-Minitron 8B, uma versão miniaturizada do modelo Mistral NeMo 12B desenvolvido pela Mistral AI e Nvidia, se destaca em vários benchmarks para chatbots alimentados por IA, assistentes virtuais, geradores de conteúdo e ferramentas educacionais. Apesar de seu tamanho pequeno, o modelo opera com eficiência em estações de trabalho com NVIDIA RTX, tornando-o acessível para organizações com recursos limitados. Esse tamanho compacto também melhora a eficiência operacional e a segurança, pois pode ser executado localmente em dispositivos de borda sem a necessidade de enviar dados para servidores externos.

O desempenho do modelo é obtido por meio de uma combinação de poda e destilação. A puning reduz o tamanho do modelo removendo parâmetros desnecessários do Mistral NeMo 12B para 8 bilhões, enquanto a destilação melhora a precisão treinando novamente o modelo podado com um conjunto de dados menor. Essa otimização permite que o Mistral-NeMo-Minitron 8B iguale a precisão de modelos maiores a um custo computacional menor.

Ao contrário dos modelos maiores, o Mistral-NeMo-Minitron 8B pode operar em tempo real em PCs e laptops, facilitando a implementação de recursos de IA generativa por organizações menores. Ele está disponível como um microsserviço com uma API, e os desenvolvedores podem implantá-lo rapidamente em qualquer sistema acelerado por GPU.

Modelos personalizados

Os desenvolvedores que precisam de um modelo ainda menor para dispositivos como smartphones ou sistemas incorporados podem reduzir e destilar o Mistral-NeMo-Minitron 8B usando a plataforma da Nvidia. A plataforma AI Foundry oferece uma solução completa para a criação de modelos personalizados, fornecendo acesso a modelos básicos populares, à plataforma Nvidia NeMo e aos recursos do Nvidia DGX Cloud. Esse processo resulta em modelos menores e mais precisos que exigem menos dados de treinamento e recursos computacionais, reduzindo os custos em até 40 vezes em comparação com modelos de treinamento do zero.

A poda e a destilação possibilitam a criação de um modelo menor e mais eficiente com alta precisão de previsão. Ao remover pesos menos essenciais do modelo durante a poda e ao refinar o modelo podado por meio da destilação, o modelo mantém um alto nível de precisão e reduz significativamente os custos computacionais. Essa técnica também permite que modelos adicionais da mesma família sejam treinados usando apenas uma fração do conjunto de dados original, o que a torna uma estratégia econômica para o desenvolvimento de modelos relacionados.

O sucesso do Mistral-NeMo-Minitron 8B em nove benchmarks de modelos de linguagem populares destaca seus recursos em tarefas como compreensão de linguagem, raciocínio de senso comum, raciocínio matemático, resumo, codificação e geração de respostas verdadeiras. A baixa latência e a alta taxa de transferência do modelo melhoram ainda mais seu desempenho, fornecendo respostas rápidas e eficientes em ambientes de produção.

Em resumo, o Mistral-NeMo-Minitron 8B da Nvidia representa um avanço significativo ao tornar os modelos de IA de alto desempenho mais acessíveis e práticos para uma ampla gama de aplicações, especialmente para organizações com recursos limitados.