A Meta compartilhou os resultados de um estudo de treinamento abrangente de seu modelo de inteligência artificial Llama 3 405B em um cluster de 16.384 GPUs NVIDIA H100 de 80 GB com memória HBM3. O processo de treinamento, que durou 54 dias, foi afetado por várias falhas de hardware, destacando os desafios enfrentados pela computação em supercomputadores dessa escala. Este artigo detalha as principais descobertas do estudo e o impacto das falhas no desempenho e na eficiência do modelo.
Durante o período de treinamento, a equipe do Meta registrou um total de 419 falhas inesperadas de componentes, o que equivale a uma taxa de aproximadamente uma falha a cada três horas. Em um sistema tão complexo, que consiste em vários elementos, como CPUs, placas-mãe, RAM, SSDs, GPUs e sistemas de energia e resfriamento, esses problemas são inevitáveis. No entanto, metade dessas falhas se deveu especificamente a problemas com as GPUs H100 ou com sua memória HBM3 integrada, destacando a fragilidade dos componentes mais avançados sob cargas de trabalho intensas.
Desafios na manutenção e no diagnóstico do sistema
O gerenciamento de um cluster de 16.384 GPUs representa um desafio significativo, em que até mesmo a falha de uma única GPU pode interromper todo o processo de treinamento. Apesar desses obstáculos, a equipe do Meta conseguiu manter um tempo de treinamento efetivo de mais de 90%. Isso se deveu, em parte, ao uso de ferramentas internas avançadas, como o gravador de voo NCCL do PyTorch, que foi crucial para a rápida identificação e resolução de problemas, especialmente aqueles relacionados ao NCCLX, uma ferramenta que captura metadados e rastreamentos de pilha.
As interrupções planejadas, que totalizaram 47, foram devidas principalmente à manutenção automatizada. Essas interrupções foram complementadas por interrupções não planejadas, que totalizaram 419, 58,7% das quais foram atribuídas a problemas de GPU, incluindo erros de NVLink. Além disso, as falhas de memória HBM3 foram responsáveis por 17,2% dos problemas, refletindo o estresse térmico significativo e o alto consumo de energia (cerca de 700W por GPU) que essas unidades experimentam durante operações prolongadas.
Comparações com outras plataformas
O estudo também revelou que as flutuações de temperatura, especialmente durante o meio-dia, afetaram o desempenho do sistema, causando uma variação de 1-2%. Esse impacto, embora relativamente pequeno, deveu-se aos ajustes dinâmicos de tensão e ao dimensionamento da frequência da GPU. Apesar dessas dificuldades, a equipe conseguiu manter a eficiência geral do treinamento.
Em comparação, Elon Musk desenvolveu um cluster com 100.000 GPUs H100 AI, ressaltando a escala desses sistemas e os desafios associados à sua manutenção. Essa escala de operação sugere que o número de falhas pode ser consideravelmente maior, destacando a necessidade de soluções robustas de hardware e gerenciamento de energia em data centers dessa escala.
O treinamento do modelo Llama 3 405B da Meta destaca os avanços e os desafios no campo da inteligência artificial em grande escala. À medida que as empresas continuam a expandir os limites da tecnologia, a necessidade de hardware confiável e ferramentas avançadas para diagnóstico e solução de problemas torna-se cada vez mais crítica. O trabalho da Meta com o Llama 3 não apenas demonstra seu compromisso com o desenvolvimento aberto de IA, mas também fornece lições valiosas para a comunidade tecnológica mais ampla.
O trabalho da Meta com o Llama 3 não apenas demonstra seu compromisso com o desenvolvimento aberto de IA, mas também fornece lições valiosas para a comunidade tecnológica mais ampla.