logo
Casa Casos

NVIDIA DGX Spark Cluster Review: Inferência Distribuída em Dell, GIGABYTE e HP

Certificado
China Beijing Qianxing Jietong Technology Co., Ltd. Certificações
China Beijing Qianxing Jietong Technology Co., Ltd. Certificações
Revisões do cliente
A equipe de vendas da tecnologia Co. de Qianxing Jietong do Pequim, Ltd é muito profissional e paciente. Podem fornecer cotações rapidamente. A qualidade e o empacotamento dos produtos são igualmente muito bons. Nossa cooperação é muito lisa.

—— LLC do》 de Festfing DV do 《

Quando eu procurava o processador central de intel e o SSD de Toshiba urgentemente, Sandy da tecnologia Co. de Qianxing Jietong do Pequim, Ltd deu-me muita ajuda e obteve-me os produtos que eu precisei rapidamente. Eu aprecio-a realmente.

—— Kitty Yen

Sandy da tecnologia Co. de Qianxing Jietong do Pequim, Ltd é um vendedor muito cuidadoso, que possa me lembrar de erros da configuração a tempo quando eu compro um servidor. Os coordenadores são igualmente muito profissionais e podem rapidamente terminar o processo de teste.

—— Strelkin Mikhail Vladimirovich

Estamos muito satisfeitos com a nossa experiência de trabalho com a Beijing Qianxing Jietong. A qualidade do produto é excelente e a entrega é sempre pontual. A equipe de vendas é profissional, paciente e muito prestativa com todas as nossas perguntas. Agradecemos muito o seu apoio e esperamos uma parceria de longo prazo. Altamente recomendado!

—— Ahmad Navid

Qualidade: Ótima experiência com o meu fornecedor. O MikroTik RB3011 já estava usado, mas estava em muito bom estado e tudo funcionava perfeitamente.E todas as minhas preocupações foram resolvidas rapidamente.Fornecedor muito fiável, altamente recomendado.

—— Geran Colesio

Estou Chat Online Agora

NVIDIA DGX Spark Cluster Review: Inferência Distribuída em Dell, GIGABYTE e HP

May 15, 2026
Duas características definidoras se destacam no NVIDIA DGX Spark: 128 GB de memória unificada em uma unidade de desktop de US$ 4.000 e uma rede integrada de nível de datacenter de 200 Gb. A malha de alta velocidade o diferencia das estações de trabalho normais, permitindo clustering de vários nós, antes exclusivo para servidores montados em rack. Esta análise compara a inferência distribuída nas variantes Dell, GIGABYTE e HP Spark em clusters de 200 GbE de dois nós em diversos modelos e cargas de trabalho. Ele também analisa o paralelismo de pipeline (PP), um método de divisão alternativo que supera o paralelismo de tensor padrão (TP) da NVIDIA.

mais recente caso da empresa sobre NVIDIA DGX Spark Cluster Review: Inferência Distribuída em Dell, GIGABYTE e HP  0

Malha de rede de 200 Gb


Cada Spark equipa duas gaiolas QSFP56 emparelhadas com um ConnectX-7 SmartNIC integrado. Limitada pela largura de banda PCIe Gen5 x4, a velocidade de rede utilizável é limitada a 200 Gb, com uma porta suficiente para largura de banda total; a segunda porta oferece flexibilidade de topologia. Três configurações comuns estão disponíveis: links diretos Spark-to-Spark de 200 Gb, topologia em anel sem switch por meio de portas duplas de 100 Gb e clustering híbrido com acesso de armazenamento de alta velocidade NVMe-oF. A NVIDIA vende desktops de unidade única, clusters validados de dois nós e configurações de quatro nós recém-lançadas. A configuração dual-Spark é a mais prática para inferência de estilo de produção e o foco deste teste.

mais recente caso da empresa sobre NVIDIA DGX Spark Cluster Review: Inferência Distribuída em Dell, GIGABYTE e HP  1

Justificativa para clustering Spark


O principal benefício é expandir a capacidade do modelo: dois Sparks vinculados podem executar modelos de 120B de parâmetros que excedem os limites de memória de uma única unidade. Mais importante ainda, a plataforma serve como uma ferramenta educacional acessível. A NVIDIA projeta o Spark para iniciantes aprenderem fluxos de trabalho de IA, com guias oficiais que cobrem implantação de modelo, ajuste fino e desenvolvimento PyTorch/JAX. Os clusters de nós duplos ensinam ainda o paralelismo de vários nós e a análise de gargalos de rede sem hardware caro de datacenter. Notavelmente, o Spark não está otimizado para inferência de produção. Restrito pela largura de banda da memória e pela latência entre nós, seu link de 200 GbE é mais lento que as conexões PCIe internas. Clusters maiores sofrem grave degradação de desempenho, com baixa taxa de transferência de tokens, limitando-os ao uso educacional em vez de servir comercialmente.

Teste de desempenho: PP vs TP


Seleção de Estratégia de Paralelismo


O padrão da NVIDIA é TP, que divide cada camada do transformador em duas GPUs com trocas frequentes de dados totalmente reduzidas. Por outro lado, o PP divide os modelos por camada, transferindo ativações apenas uma vez entre os nós. Em links de 200 GbE, o PP minimiza a comunicação entre nós. Para modelos grandes em lotes grandes, o PP supera amplamente o TP; O TP só se destaca em cenários de chat de solicitação única e baixa latência.
Os testes no GPT-OSS-120B confirmam esta lacuna. No tamanho de lote 128, o PP atinge 554,69 tok/s (2,20× mais rápido que o TP) em cargas de trabalho balanceadas, 310,63 tok/s vs 164,99 tok/s em tarefas pesadas de pré-preenchimento. O TP lidera apenas no tamanho de lote 1. Para modelos pequenos como Llama-3.1-8B, o TP domina a maioria dos tamanhos de lote devido à computação de camada leve, com o PP ultrapassando o TP apenas em alta simultaneidade.

Resultados de benchmark multimodelo (PP = 2)


Série GPT-OSS


Para GPT-OSS-120B, a HP superou o pico de produtividade em cargas de trabalho balanceadas (504,88 tok/s) e com pré-preenchimento pesado (441,63 tok/s); A GIGABYTE liderou testes pesados ​​de decodificação (494,37 tok/s). Para GPT-OSS-20B, a Dell dominou cenários balanceados (976,77 tok/s) e com pré-preenchimento pesado (852,39 tok/s), enquanto a GIGABYTE liderou tarefas de decodificação (945,55 tok/s).

Lhama 3.1 8B Variantes


Na precisão do BF16, a Dell liderou cargas de trabalho balanceadas (689,53 tok/s) e com muita decodificação (581,43 tok/s); A GIGABYTE venceu testes pesados ​​de pré-preenchimento (539,27 tok/s). A otimização do FP4 aumentou drasticamente o rendimento: a GIGABYTE liderou tarefas balanceadas (1458,86 tok/s) e com pré-preenchimento pesado (954,23 tok/s). Para o FP8, a Dell manteve uma liderança estreita em cenários equilibrados (1.105,42 tok/s) e com muita decodificação (862,33 tok/s).

Modelos Mistral e Qwen


Mistral Small 3.1 24B apresentou lacunas mínimas: a GIGABYTE atingiu o pico de 255,09 tok/s em cargas de trabalho balanceadas. Para Qwen3 Coder 30B (A3B Base), a GIGABYTE liderou tarefas pesadas de pré-preenchimento (1862,40 tok/s); A Dell se destacou em cenários de decodificação. Na quantização FB8, a GIGABYTE superou o rendimento pesado de pré-preenchimento (3.088,62 tok/s), enquanto a Dell liderou as tarefas de decodificação (705,77 tok/s).

Resumo de pico de produção dos sistemas Dual Spark


Modelo
Cenário (BS – 64)
Saída de pico da Dell
Saída de pico GIGABYTE
Saída de pico HP
GPT-OSS-120B
ISL/OSL iguais
463,97 tok/s
497,26 tok/s
504,88 tok/s
GPT-OSS-120B
Pré-preenchimento Pesado
419,56 tok/s
417,34 tok/s
441,63 tok/s
GPT-OSS-120B
Decodificar Pesado
451,18 tok/s
494,37 tok/s
474,85 tok/s
GPT-OSS-20B
ISL/OSL iguais
976,77 tok/s
952,31 tok/s
915,72 tok/s
GPT-OSS-20B
Pré-preenchimento Pesado
852,39 tok/s
802,37 tok/s
757,05 tok/s
GPT-OSS-20B
Decodificar Pesado
938,65 tok/s
945,55 tok/s
865,78 tok/s
Lhama-3.1-8B-Instrução
ISL/OSL iguais
689,53 tok/s
687,48 tok/s
618,87 tok/s
Lhama-3.1-8B-Instrução
Pré-preenchimento Pesado
515,45 tok/s
539,27 tok/s
463,39 tok/s
Lhama-3.1-8B-Instrução
Decodificar Pesado
581,43 tok/s
576,91 tok/s
531,07 tok/s
Lhama-3.1-8B-FP4
ISL/OSL iguais
1.427,39 tok/s
1.458,86 tok/s
1.413,51 tok/s
Lhama-3.1-8B-FP4
Pré-preenchimento Pesado
884,22 tok/s
954,23 tok/s
843,57 tok/s
Lhama-3.1-8B-FP4
Decodificar Pesado
1.008,98 tok/s
1.007,23 tok/s
943,73 tok/s
Lhama-3.1-8B-FP8
ISL/OSL iguais
1.105,42 tok/s
1.089,85 tok/s
1.076,68 tok/s
Lhama-3.1-8B-FP8
Pré-preenchimento Pesado
759,50 tok/s
827,40 tok/s
725,51 tok/s
Lhama-3.1-8B-FP8
Decodificar Pesado
862,33 tok/s
855,81 tok/s
800,78 tok/s
Mistral-Pequeno-3.1-24B
ISL/OSL iguais
249,77 tok/s
255,09 tok/s
239,09 tok/s
Mistral-Pequeno-3.1-24B
Pré-preenchimento Pesado
216,01 tok/s
214,38 tok/s
197,92 tok/s
Mistral-Pequeno-3.1-24B
Decodificar Pesado
238,44 tok/s
237,97 tok/s
221,41 tok/s


Conclusão


As unidades Dell, GIGABYTE e HP Spark oferecem lacunas de desempenho insignificantes, com pequenas vantagens específicas de lote. As decisões de compra devem priorizar o design do chassi, o desempenho térmico, a garantia e o suporte pós-venda em detrimento de diferenças triviais de benchmark. A estratégia de paralelismo exerce um impacto muito maior do que as variações OEM: o PP supera o TP para inferência em lote, enquanto o TP é adequado para interação de fluxo único e baixa latência. A recomendação TP da NVIDIA se alinha ao posicionamento do Spark como um dispositivo de aprendizagem interativo, em vez de infraestrutura de produção. Um cluster Spark de nó duplo serve como uma plataforma de ensino acessível para IA distribuída. Os testes futuros cobrirão clusters maiores e treinamento completo em modelos pequenos, enquanto se aguarda a implantação do switch de 800 Gb em laboratório.

Pequim Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Diretora de Estratégia Global
WhatsApp/WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Site: www.qianxingdata.com/www.storagesserver.com
Foco de negócios:
Distribuição de produtos de TIC/integração de sistemas e serviços/soluções de infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parcerias com marcas líderes globais para fornecer produtos confiáveis ​​e serviços profissionais.
“Usando a tecnologia para construir um mundo inteligente”Seu provedor confiável de serviços de produtos de TIC!
Contacto
Beijing Qianxing Jietong Technology Co., Ltd.

Pessoa de Contato: Ms. Sandy Yang

Telefone: 13426366826

Envie sua pergunta diretamente para nós (0 / 3000)