Duas características definidoras se destacam no NVIDIA DGX Spark: 128 GB de memória unificada em uma unidade de desktop de US$ 4.000 e uma rede integrada de nível de datacenter de 200 Gb. A malha de alta velocidade o diferencia das estações de trabalho normais, permitindo clustering de vários nós, antes exclusivo para servidores montados em rack. Esta análise compara a inferência distribuída nas variantes Dell, GIGABYTE e HP Spark em clusters de 200 GbE de dois nós em diversos modelos e cargas de trabalho. Ele também analisa o paralelismo de pipeline (PP), um método de divisão alternativo que supera o paralelismo de tensor padrão (TP) da NVIDIA.
Malha de rede de 200 Gb
Cada Spark equipa duas gaiolas QSFP56 emparelhadas com um ConnectX-7 SmartNIC integrado. Limitada pela largura de banda PCIe Gen5 x4, a velocidade de rede utilizável é limitada a 200 Gb, com uma porta suficiente para largura de banda total; a segunda porta oferece flexibilidade de topologia. Três configurações comuns estão disponíveis: links diretos Spark-to-Spark de 200 Gb, topologia em anel sem switch por meio de portas duplas de 100 Gb e clustering híbrido com acesso de armazenamento de alta velocidade NVMe-oF. A NVIDIA vende desktops de unidade única, clusters validados de dois nós e configurações de quatro nós recém-lançadas. A configuração dual-Spark é a mais prática para inferência de estilo de produção e o foco deste teste.
Justificativa para clustering Spark
O principal benefício é expandir a capacidade do modelo: dois Sparks vinculados podem executar modelos de 120B de parâmetros que excedem os limites de memória de uma única unidade. Mais importante ainda, a plataforma serve como uma ferramenta educacional acessível. A NVIDIA projeta o Spark para iniciantes aprenderem fluxos de trabalho de IA, com guias oficiais que cobrem implantação de modelo, ajuste fino e desenvolvimento PyTorch/JAX. Os clusters de nós duplos ensinam ainda o paralelismo de vários nós e a análise de gargalos de rede sem hardware caro de datacenter. Notavelmente, o Spark não está otimizado para inferência de produção. Restrito pela largura de banda da memória e pela latência entre nós, seu link de 200 GbE é mais lento que as conexões PCIe internas. Clusters maiores sofrem grave degradação de desempenho, com baixa taxa de transferência de tokens, limitando-os ao uso educacional em vez de servir comercialmente.
Teste de desempenho: PP vs TP
Seleção de Estratégia de Paralelismo
O padrão da NVIDIA é TP, que divide cada camada do transformador em duas GPUs com trocas frequentes de dados totalmente reduzidas. Por outro lado, o PP divide os modelos por camada, transferindo ativações apenas uma vez entre os nós. Em links de 200 GbE, o PP minimiza a comunicação entre nós. Para modelos grandes em lotes grandes, o PP supera amplamente o TP; O TP só se destaca em cenários de chat de solicitação única e baixa latência.
Os testes no GPT-OSS-120B confirmam esta lacuna. No tamanho de lote 128, o PP atinge 554,69 tok/s (2,20× mais rápido que o TP) em cargas de trabalho balanceadas, 310,63 tok/s vs 164,99 tok/s em tarefas pesadas de pré-preenchimento. O TP lidera apenas no tamanho de lote 1. Para modelos pequenos como Llama-3.1-8B, o TP domina a maioria dos tamanhos de lote devido à computação de camada leve, com o PP ultrapassando o TP apenas em alta simultaneidade.
Resultados de benchmark multimodelo (PP = 2)
Série GPT-OSS
Para GPT-OSS-120B, a HP superou o pico de produtividade em cargas de trabalho balanceadas (504,88 tok/s) e com pré-preenchimento pesado (441,63 tok/s); A GIGABYTE liderou testes pesados de decodificação (494,37 tok/s). Para GPT-OSS-20B, a Dell dominou cenários balanceados (976,77 tok/s) e com pré-preenchimento pesado (852,39 tok/s), enquanto a GIGABYTE liderou tarefas de decodificação (945,55 tok/s).
Lhama 3.1 8B Variantes
Na precisão do BF16, a Dell liderou cargas de trabalho balanceadas (689,53 tok/s) e com muita decodificação (581,43 tok/s); A GIGABYTE venceu testes pesados de pré-preenchimento (539,27 tok/s). A otimização do FP4 aumentou drasticamente o rendimento: a GIGABYTE liderou tarefas balanceadas (1458,86 tok/s) e com pré-preenchimento pesado (954,23 tok/s). Para o FP8, a Dell manteve uma liderança estreita em cenários equilibrados (1.105,42 tok/s) e com muita decodificação (862,33 tok/s).
Modelos Mistral e Qwen
Mistral Small 3.1 24B apresentou lacunas mínimas: a GIGABYTE atingiu o pico de 255,09 tok/s em cargas de trabalho balanceadas. Para Qwen3 Coder 30B (A3B Base), a GIGABYTE liderou tarefas pesadas de pré-preenchimento (1862,40 tok/s); A Dell se destacou em cenários de decodificação. Na quantização FB8, a GIGABYTE superou o rendimento pesado de pré-preenchimento (3.088,62 tok/s), enquanto a Dell liderou as tarefas de decodificação (705,77 tok/s).
Resumo de pico de produção dos sistemas Dual Spark
|
Modelo
|
Cenário (BS – 64)
|
Saída de pico da Dell
|
Saída de pico GIGABYTE
|
Saída de pico HP
|
|---|---|---|---|---|
|
GPT-OSS-120B
|
ISL/OSL iguais
|
463,97 tok/s
|
497,26 tok/s
|
504,88 tok/s
|
|
GPT-OSS-120B
|
Pré-preenchimento Pesado
|
419,56 tok/s
|
417,34 tok/s
|
441,63 tok/s
|
|
GPT-OSS-120B
|
Decodificar Pesado
|
451,18 tok/s
|
494,37 tok/s
|
474,85 tok/s
|
|
GPT-OSS-20B
|
ISL/OSL iguais
|
976,77 tok/s
|
952,31 tok/s
|
915,72 tok/s
|
|
GPT-OSS-20B
|
Pré-preenchimento Pesado
|
852,39 tok/s
|
802,37 tok/s
|
757,05 tok/s
|
|
GPT-OSS-20B
|
Decodificar Pesado
|
938,65 tok/s
|
945,55 tok/s
|
865,78 tok/s
|
|
Lhama-3.1-8B-Instrução
|
ISL/OSL iguais
|
689,53 tok/s
|
687,48 tok/s
|
618,87 tok/s
|
|
Lhama-3.1-8B-Instrução
|
Pré-preenchimento Pesado
|
515,45 tok/s
|
539,27 tok/s
|
463,39 tok/s
|
|
Lhama-3.1-8B-Instrução
|
Decodificar Pesado
|
581,43 tok/s
|
576,91 tok/s
|
531,07 tok/s
|
|
Lhama-3.1-8B-FP4
|
ISL/OSL iguais
|
1.427,39 tok/s
|
1.458,86 tok/s
|
1.413,51 tok/s
|
|
Lhama-3.1-8B-FP4
|
Pré-preenchimento Pesado
|
884,22 tok/s
|
954,23 tok/s
|
843,57 tok/s
|
|
Lhama-3.1-8B-FP4
|
Decodificar Pesado
|
1.008,98 tok/s
|
1.007,23 tok/s
|
943,73 tok/s
|
|
Lhama-3.1-8B-FP8
|
ISL/OSL iguais
|
1.105,42 tok/s
|
1.089,85 tok/s
|
1.076,68 tok/s
|
|
Lhama-3.1-8B-FP8
|
Pré-preenchimento Pesado
|
759,50 tok/s
|
827,40 tok/s
|
725,51 tok/s
|
|
Lhama-3.1-8B-FP8
|
Decodificar Pesado
|
862,33 tok/s
|
855,81 tok/s
|
800,78 tok/s
|
|
Mistral-Pequeno-3.1-24B
|
ISL/OSL iguais
|
249,77 tok/s
|
255,09 tok/s
|
239,09 tok/s
|
|
Mistral-Pequeno-3.1-24B
|
Pré-preenchimento Pesado
|
216,01 tok/s
|
214,38 tok/s
|
197,92 tok/s
|
|
Mistral-Pequeno-3.1-24B
|
Decodificar Pesado
|
238,44 tok/s
|
237,97 tok/s
|
221,41 tok/s
|
Conclusão
As unidades Dell, GIGABYTE e HP Spark oferecem lacunas de desempenho insignificantes, com pequenas vantagens específicas de lote. As decisões de compra devem priorizar o design do chassi, o desempenho térmico, a garantia e o suporte pós-venda em detrimento de diferenças triviais de benchmark. A estratégia de paralelismo exerce um impacto muito maior do que as variações OEM: o PP supera o TP para inferência em lote, enquanto o TP é adequado para interação de fluxo único e baixa latência. A recomendação TP da NVIDIA se alinha ao posicionamento do Spark como um dispositivo de aprendizagem interativo, em vez de infraestrutura de produção. Um cluster Spark de nó duplo serve como uma plataforma de ensino acessível para IA distribuída. Os testes futuros cobrirão clusters maiores e treinamento completo em modelos pequenos, enquanto se aguarda a implantação do switch de 800 Gb em laboratório.
Pequim Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Diretora de Estratégia Global
WhatsApp/WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Site: www.qianxingdata.com/www.storagesserver.com
Foco de negócios:
Distribuição de produtos de TIC/integração de sistemas e serviços/soluções de infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parcerias com marcas líderes globais para fornecer produtos confiáveis e serviços profissionais.
“Usando a tecnologia para construir um mundo inteligente”Seu provedor confiável de serviços de produtos de TIC!
Sandy Yang/Diretora de Estratégia Global
WhatsApp/WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Site: www.qianxingdata.com/www.storagesserver.com
Foco de negócios:
Distribuição de produtos de TIC/integração de sistemas e serviços/soluções de infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parcerias com marcas líderes globais para fornecer produtos confiáveis e serviços profissionais.
“Usando a tecnologia para construir um mundo inteligente”Seu provedor confiável de serviços de produtos de TIC!



