| Especificações da NVIDIA L4 | |
|---|---|
| FP 32 | 30,3 teraFLOPs |
| Tensor Core TF32 | 60 teraFLOPs |
| Tensor Core FP16 | 121 teraFLOPs |
| Tensor Core BFLOAT16 | 121 teraFLOPs |
| Tensor Core FP8 | 242,5 teraFLOPs |
| Tensor Core INT8 | 242,5 TOPs |
| Memória da GPU | 24GB GDDR6 |
| Largura de Banda da Memória da GPU | 300GB/s |
| Potência Máxima de Design Térmico (TDP) | 72W |
| Fator de Forma | PCIe de perfil baixo de 1 slot |
| Interconexão | PCIe Gen4 x16 |
| Tabela de Especificações | L4 |
Claro, com a L4 custando cerca de US$ 2.500, a A2 custando aproximadamente metade do preço e a antiga (mas ainda bastante capaz) T4 disponível por menos de US$ 1.000 usada, a pergunta óbvia é qual a diferença entre essas três GPUs de inferência.
| Especificações da NVIDIA L4, A2 e T4 | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| FP 32 | 30,3 teraFLOPs | 4,5 teraFLOPs | 8,1 teraFLOPs |
| Tensor Core TF32 | 60 teraFLOPs | 9 teraFLOPs | N/A |
| Tensor Core FP16 | 121 teraFLOPs | 18 teraFLOPs | N/A |
| Tensor Core BFLOAT16 | 121 teraFLOPs | 18 teraFLOPs | N/A |
| Tensor Core FP8 | 242,5 teraFLOPs | N/A | N/A |
| Tensor Core INT8 | 242,5 TOPs | 36 TOPS | 130 TOPS |
| Memória da GPU | 24GB GDDR6 | 16GB GDDR6 | 16GB GDDR6 |
| Largura de Banda da Memória da GPU | 300GB/s | 200GB/s | 320+ GB/s |
| Potência Máxima de Design Térmico (TDP) | 72W | 40-60W | 70W |
| Fator de Forma | PCIe de perfil baixo de 1 slot | ||
| Interconexão | PCIe Gen4 x16 | PCIe Gen4 x8 | PCIe Gen3 x16 |
| Tabela de Especificações | L4 | A2 | T4 |
Uma coisa a entender ao olhar para essas três placas é que elas não são exatamente substituições geracionais um para um, o que explica por que a T4 ainda permanece, muitos anos depois, uma escolha popular para alguns casos de uso. A A2 foi lançada como substituta da T4 como uma opção de baixo consumo de energia e mais compatível (x8 vs x16 mecânico). Tecnicamente, a L4 é então uma substituta da T4, com a A2 ocupando um espaço intermediário que pode ou não ser atualizado em algum momento no futuro.
Desempenho MLPerf Inference 3.1
MLPerf é um consórcio de líderes de IA de academia, pesquisa e indústria estabelecido para fornecer benchmarks justos e relevantes de hardware e software de IA. Esses benchmarks são projetados para medir o desempenho de hardware, software e serviços de aprendizado de máquina em várias tarefas e cenários.
Nossos testes se concentram em dois benchmarks MLPerf específicos: Resnet50 e BERT.
- Resnet50: Esta é uma rede neural convolucional usada principalmente para classificação de imagens. É um bom indicador de quão bem um sistema pode lidar com tarefas de aprendizado profundo relacionadas ao processamento de imagens.
- BERT (Bidirectional Encoder Representations from Transformers): Este benchmark se concentra em tarefas de processamento de linguagem natural, oferecendo insights sobre o desempenho de um sistema na compreensão e processamento da linguagem humana.
Ambos os testes são cruciais para avaliar as capacidades de hardware de IA em cenários do mundo real envolvendo processamento de imagem e linguagem.
Avaliar a NVIDIA L4 com esses benchmarks é fundamental para ajudar a entender as capacidades da GPU L4 em tarefas específicas de IA. Ele também oferece insights sobre como diferentes configurações (configurações únicas, duplas e quádruplas) influenciam o desempenho. Essas informações são vitais para profissionais e organizações que buscam otimizar sua infraestrutura de IA.
Os modelos são executados em dois modos principais: Servidor e Offline.
- Modo Offline: Este modo mede o desempenho de um sistema quando todos os dados estão disponíveis para processamento simultaneamente. É semelhante ao processamento em lote, onde o sistema processa um grande conjunto de dados em um único lote. O modo offline é crucial para cenários onde a latência não é uma preocupação primária, mas o throughput e a eficiência são.
- Modo Servidor: Em contraste, o modo servidor avalia o desempenho do sistema em um cenário que imita um ambiente de servidor do mundo real, onde as solicitações chegam uma por vez. Este modo é sensível à latência, medindo a rapidez com que o sistema pode responder a cada solicitação. É essencial para aplicações em tempo real, como servidores web ou aplicações interativas, onde uma resposta imediata é necessária.
1 x NVIDIA L4 – Dell PowerEdge XR7620
Como parte de nossa recente análise do Dell PowerEdge XR7620, equipado com uma única NVIDIA L4, levamos-o para a borda para executar várias tarefas, incluindo MLPerf.
Nossa configuração de sistema de teste incluiu os seguintes componentes:
- 2 x Xeon Gold 6426Y – 16 núcleos 2,5 GHz
- 1 x NVIDIA L4
- 8 x 16 GB DDR5
- 480 GB BOSS RAID1
- Ubuntu Server 22.04
- Driver NVIDIA 535
| Dell PowerEdge XR7620 1x NVIDIA L4 | Pontuação |
|---|---|
| Resnet50 – Servidor | 12.204,40 |
| Resnet50 – Offline | 13.010,20 |
| BERT K99 – Servidor | 898,945 |
| BERT K99 – Offline | 973,435 |
O desempenho em cenários de servidor e offline para Resnet50 e BERT K99 é quase idêntico, indicando que a L4 mantém um desempenho consistente em diferentes modelos de servidor.
1, 2 e 4 NVIDIA L4 – Dell PowerEdge T560
Nossa unidade de revisão incluía os seguintes componentes:
- 2 x Intel Xeon Gold 6448Y (32 núcleos/64 threads cada, 225 watts TDP, 2,1-4,1 GHz)
- 8 x SSDs Solidigm P5520 de 1,6 TB com placa RAID PERC 12
- 1-4x GPUs NVIDIA L4
- 8 x RDIMMs de 64 GB
- Ubuntu Server 22.04
- Driver NVIDIA 535
| Dell PowerEdge T560 1x NVIDIA L4 | Pontuação |
|---|---|
| Resnet50 – Servidor | 12.204,40 |
| Resnet50 – Offline | 12.872,10 |
| Bert K99 – Servidor | 898,945 |
| Bert K99 – Offline | 945,146 |
Em nossos testes com duas L4s no Dell T560, observamos essa escalabilidade quase linear no desempenho para os benchmarks Resnet50 e BERT K99. Essa escalabilidade é uma prova da eficiência das GPUs L4 e sua capacidade de trabalhar em conjunto sem perdas significativas devido a sobrecarga ou ineficiência.
| Dell PowerEdge T560 2x NVIDIA L4 | Pontuação |
|---|---|
| Resnet50 – Servidor | 24.407,50 |
| Resnet50 – Offline | 25.463,20 |
| BERT K99 – Servidor | 1.801,28 |
| BERT K99 – Offline | 1.904,10 |
A escalabilidade linear consistente que testemunhamos com duas GPUs NVIDIA L4 se estende impressionantemente a configurações com quatro unidades L4. Essa escalabilidade é particularmente notável, pois manter ganhos de desempenho lineares torna-se cada vez mais desafiador a cada GPU adicionada devido às complexidades do processamento paralelo e gerenciamento de recursos.
| Dell PowerEdge T560 4x NVIDIA L4 | Pontuação |
|---|---|
| Resnet50 – Servidor | 48.818,30 |
| Resnet50 – Offline | 51.381,70 |
| BERT K99 – Servidor | 3.604,96 |
| BERT K99 – Offline | 3.821,46 |
Esses resultados são apenas para fins ilustrativos e não resultados competitivos ou oficiais do MLPerf. Para uma lista completa de resultados oficiais, visite a Página de Resultados do MLPerf.
Além de validar a escalabilidade linear das GPUs NVIDIA L4, nossos testes em laboratório lançam luz sobre as implicações práticas da implantação dessas unidades em diferentes cenários operacionais. Por exemplo, a consistência de desempenho entre os modos servidor e offline em todas as configurações com as GPUs L4 revela sua confiabilidade e versatilidade.
Esse aspecto é particularmente relevante para empresas e instituições de pesquisa onde os contextos operacionais variam significativamente. Além disso, nossas observações sobre o impacto mínimo de gargalos de interconexão e a eficiência da sincronização de GPU em configurações multi-GPU fornecem insights valiosos para aqueles que buscam escalar sua infraestrutura de IA. Esses insights vão além de meros números de benchmark, oferecendo uma compreensão mais profunda de como tal hardware pode ser otimamente utilizado em cenários do mundo real, guiando melhores decisões arquitetônicas e estratégias de investimento em infraestrutura de IA e HPC.
NVIDIA L4 – Desempenho de Aplicação
Comparamos o desempenho da nova NVIDIA L4 com as NVIDIA A2 e NVIDIA T4 que a precederam. Para demonstrar essa atualização de desempenho em relação aos modelos anteriores, implantamos os três modelos dentro de um servidor em nosso laboratório, com Windows Server 2022 e os drivers NVIDIA mais recentes, utilizando nosso conjunto completo de testes de GPU.
Essas placas foram testadas em um Dell Poweredge R760 com a seguinte configuração:
- 2 x Intel Xeon Gold 6430 (32 núcleos, 2,1 GHz)
- Windows Server 2022
- Driver NVIDIA 538.15
- ECC desativado em todas as placas para amostragem 1x
Ao iniciarmos os testes de desempenho entre este grupo de três GPUs corporativas, é importante notar as diferenças de desempenho únicas entre os modelos A2 e T4 anteriores. Quando a A2 foi lançada, ela ofereceu algumas melhorias notáveis, como menor consumo de energia e operação em um slot PCIe Gen4 x8 menor, em vez do slot PCIe Gen3 x16 maior que a T4 antiga exigia. De imediato, permitiu que ela fosse instalada em mais sistemas, especialmente com a menor pegada necessária.
Blender OptiX 4.0
Blender OptiX é um aplicativo de modelagem 3D de código aberto. Este teste pode ser executado para CPU e GPU, mas fizemos apenas GPU, como a maioria dos outros testes aqui. Este benchmark foi executado usando a utilidade CLI do Blender Benchmark. A pontuação é de amostras por minuto, com valores mais altos sendo melhores.
| Blender 4.0 (Mais alto é melhor) |
NVIDIA L4 | NVIDIA A2 | Nvidia T4 |
|---|---|---|---|
| GPU Blender CLI – Monstro | 2.207,765 | 458,692 | 850,076 |
| GPU Blender CLI – Lixo | 1.127,829 | 292,553 | 517,243 |
| GPU Blender CLI – Sala de Aula | 1.111,753 | 262,387 | 478,786 |
Blackmagic RAW Speed Test
Testamos CPUs e GPUs com o RAW Speed Test da Blackmagic, que testa velocidades de reprodução de vídeo. Este é mais um teste híbrido que inclui desempenho de CPU e GPU para decodificação RAW do mundo real. Estes são exibidos como resultados separados, mas estamos focando apenas nas GPUs aqui, então os resultados da CPU são omitidos.
| Blackmagic RAW Speed Test (Mais alto é melhor) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| 8K CUDA | 95 FPS | 38 FPS | 53 FPS |
Cinebench 2024 GPU
O Cinebench 2024 da Maxon é um benchmark de renderização de CPU e GPU que utiliza todos os núcleos e threads da CPU. Novamente, como estamos focando nos resultados da GPU, não executamos as partes da CPU do teste. Pontuações mais altas são melhores.
| Cinebench 2024 (Mais alto é melhor) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPU | 15.263 | 4.006 | 5.644 |
GPU PI
GPUPI 3.3.3 é uma versão da utilidade de benchmark leve projetada para calcular π (pi) para bilhões de decimais usando aceleração de hardware através de GPUs e CPUs. Ele aproveita o poder de computação do OpenCL e CUDA, que inclui unidades de processamento central e gráfico. Executamos apenas CUDA em todas as 3 GPUs e os números aqui são o tempo de cálculo sem tempo de redução adicionado. Menor é melhor.
| Tempo de Cálculo da GPU PI em segundos (Menor é melhor) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPUPI v3.3 – 1B | 3,732s | 19,799s | 7,504s |
| GPUPI v3.3 – 32B | 244,380s | 1.210,801s | 486,231s |
Embora os resultados anteriores tenham analisado apenas uma única iteração de cada placa, também tivemos a oportunidade de analisar uma implantação de 5x NVIDIA L4 dentro do Dell PowerEdge T560.
| Tempo de Cálculo da GPU PI em segundos (Menor é melhor) |
Dell PowerEdge T560 (2x Xeon Gold 6448Y) com 5x NVIDIA L4 |
|---|---|
| GPUPI v3.3 – 1B | 0s 850ms |
| GPUPI v3.3 – 32B | 50s 361ms |
Octanebench
OctaneBench é uma utilidade de benchmark para OctaneRender, outro renderizador 3D com suporte RTX semelhante ao V-Ray.
| Octane (Mais alto é melhor) | ||||
| Cena | Kernel | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
| Interior | Canais de informação | 15,59 | 4,49 | 6,39 |
| Iluminação direta | 50,85 | 14,32 | 21,76 | |
| Rastreamento de raios | 64,02 | 18,46 | 25,76 | |
| Ideia | Canais de informação | 9,30 | 2,77 | 3,93 |
| Iluminação direta | 39,34 | 11,53 | 16,79 | |
| Rastreamento de raios | 48,24 | 14,21 | 20,32 | |
| ATV | Canais de informação | 24,38 | 6,83 | 9,50 |
| Iluminação direta | 54,86 | 16,05 | 21,98 | |
| Rastreamento de raios | 68,98 | 20,06 | 27,50 | |
| Caixa | Canais de informação | 12,89 | 3,88 | 5,42 |
| Iluminação direta | 48,80 | 14,59 | 21,36 | |
| Rastreamento de raios | 54,56 | 16,51 | 23,85 | |
| Pontuação Total | 491,83 | 143,71 | 204,56 | |
Geekbench 6 GPU
Geekbench 6 é um benchmark multiplataforma que mede o desempenho geral do sistema. Existem opções de teste para benchmarking de CPU e GPU. Pontuações mais altas são melhores. Novamente, analisamos apenas os resultados da GPU.
Você pode encontrar comparações com qualquer sistema que desejar no Geekbench Browser.
| Geekbench 6.1.0 (Mais alto é melhor) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Geekbench GPU OpenCL | 156.224 | 35.835 | 83.046 |
Luxmark
LuxMark é uma ferramenta de benchmark multiplataforma OpenCL daqueles que mantêm o motor de renderização 3D de código aberto LuxRender. Esta ferramenta analisa o desempenho da GPU em modelagem 3D, iluminação e trabalho de vídeo. Para esta análise, usamos a versão mais recente, v4alpha0. No LuxMark, valores mais altos são melhores quando se trata da pontuação.
| Luxmark v4.0alpha0 GPUs OpenCL (Mais alto é melhor) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Hall Bench | 14.328 | 3.759 | 5.893 |
| Food Bench | 5.330 | 1.258 | 2.033 |
GROMACS CUDA
Também fornecemos GROMACS compilado, um software de dinâmica molecular, especificamente para CUDA. Esta compilação personalizada foi para alavancar as capacidades de processamento paralelo das 5 GPUs NVIDIA L4, essenciais para acelerar simulações computacionais.
O processo envolveu a utilização do nvcc, o compilador CUDA da NVIDIA, juntamente com muitas iterações das flags de otimização apropriadas para garantir que os binários fossem devidamente ajustados à arquitetura do servidor. A inclusão de suporte CUDA na compilação GROMACS permite que o software interaja diretamente com o hardware da GPU, o que pode melhorar drasticamente os tempos de computação para simulações complexas.
O Teste: Interação de Proteína Personalizada em Gromacs
Utilizando um arquivo de entrada fornecido pela comunidade do nosso diversificado Discord, que continha parâmetros e estruturas adaptados para um estudo específico de interação de proteínas, iniciamos uma simulação de dinâmica molecular. Os resultados foram notáveis — o sistema atingiu uma taxa de simulação de 170,268 nanosegundos por dia.
| GPU | Sistema | ns/dia | tempo de núcleo (s) |
|---|---|---|---|
| NVIDIA A4000 | Whitebox AMD Ryzen 5950x | 84,415 | 163.763 |
| RTX NVIDIA 4070 | Whitebox AMD Ryzen 7950x3d | 131,85 | 209.692,3 |
| 5x NVIDIA L4 | Dell T560 com 2x Intel Xeon Gold 6448Y | 170,268 | 608.912,7 |
Mais do que IA
Sandy Yang/Diretor de Estratégia Global
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Foco de Negócios:
Distribuição de Produtos TIC/Integração de Sistemas e Serviços/Soluções de Infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parceria com as principais marcas globais para fornecer produtos confiáveis e serviços profissionais.
“Usando a Tecnologia para Construir um Mundo Inteligente”Seu Provedor Confiável de Serviços de Produtos TIC!



