NVIDIA acelera inferência no Meta Llama 3

  • Sexta, 19th Abril, 2024
  • 08:43am

O mais recente modelo de linguagem aberta da Meta — desenvolvido com tecnologia NVIDIA — é otimizado para rodar em GPUs NVIDIA, desde a nuvem e o data center até a borda e o PC.

 NVIDIA anunciou hoje otimizações em todas as suas plataformas para acelerar o Meta Llama 3 , a última geração do modelo de linguagem grande ( LLM ).

O modelo aberto combinado com a computação acelerada da NVIDIA capacita desenvolvedores, pesquisadores e empresas para inovar de forma responsável em uma ampla variedade de aplicações.

Treinado em NVIDIA AI

Meta engenheiros treinaram o Llama 3 em um cluster de computadores com 24.576 GPUs NVIDIA H100 Tensor Core , conectadas a uma rede NVIDIA Quantum-2 InfiniBand . Com o suporte da NVIDIA, a Meta ajustou sua rede, software e arquiteturas de modelo para seu carro-chefe LLM.

Para avançar ainda mais no estado da arte em IA generativa , a Meta descreveu recentemente planos para dimensionar sua infraestrutura para 350.000 GPUs H100.

Colocando o Lhama 3 para funcionar

Versões do Llama 3, aceleradas em GPUs NVIDIA, estão disponíveis hoje para uso na nuvem, data center, edge e PC.

Em um navegador, os desenvolvedores podem experimentar o Llama 3 em ai.nvidia.com . Ele é fornecido como um microsserviço NVIDIA NIM com uma interface de programação de aplicativos padrão que pode ser implantada em qualquer lugar.

As empresas podem ajustar o Llama 3 com seus dados usando NVIDIA NeMo , uma estrutura de código aberto para LLMs que faz parte da plataforma NVIDIA AI Enterprise segura e suportada. Modelos personalizados podem ser otimizados para inferência com NVIDIA TensorRT-LLM e implantados com NVIDIA Triton Inference Server .

Levando Llama 3 para dispositivos e PCs

O Llama 3 também roda em NVIDIA Jetson Orin para robótica e dispositivos de computação de ponta, criando agentes interativos como os do Jetson AI Lab .

Além do mais, as GPUs NVIDIA RTX e GeForce RTX para estações de trabalho e PCs aceleram a inferência no Llama 3. Esses sistemas oferecem aos desenvolvedores uma meta de mais de 100 milhões de sistemas acelerados pela NVIDIA em todo o mundo.

Obtenha desempenho ideal com Llama 3

As melhores práticas na implantação de um LLM para um chatbot envolvem um equilíbrio entre baixa latência, boa velocidade de leitura e uso ideal de GPU para reduzir custos.

Tal serviço precisa entregar tokens – o equivalente aproximado de palavras para um LLM – a cerca de duas vezes a velocidade de leitura do usuário, que é cerca de 10 tokens/segundo.

Aplicando essas métricas, uma única GPU NVIDIA H200 Tensor Core gerou cerca de 3.000 tokens/segundo — o suficiente para atender cerca de 300 usuários simultâneos — em um teste inicial usando a versão do Llama 3 com 70 bilhões de parâmetros.

Isso significa que um único servidor NVIDIA HGX com oito GPUs H200 poderia fornecer 24.000 tokens/segundo, otimizando ainda mais os custos ao oferecer suporte a mais de 2.400 usuários ao mesmo tempo.

Para dispositivos de ponta, a versão do Llama 3 com oito bilhões de parâmetros gerou até 40 tokens/segundo no Jetson AGX Orin e 15 tokens/segundo no Jetson Orin Nano.

Avançando Modelos Comunitários

Contribuidora ativa de código aberto, a NVIDIA está comprometida em otimizar o software comunitário que ajuda os usuários a enfrentar seus desafios mais difíceis. Os modelos de código aberto também promovem a transparência da IA ​​e permitem que os utilizadores partilhem amplamente o trabalho sobre segurança e resiliência da IA.

Saiba mais sobre como a plataforma de inferência de IA da NVIDIA, incluindo como NIM, TensorRT-LLM e Triton usam técnicas de última geração, como adaptação de baixa classificação, para acelerar os LLMs mais recentes.

Fonte: blogs.nvidia.com

« Retornar

ico-whatsapp
Dúvidas por WhatsApp
ico-chat
Dúvidas por Web Chat
ico-ticket.png
Abrir ticket Suporte