Casa Casos

NVIDIA DGX Spark Cluster Review: Inferência Distribuída em Dell, GIGABYTE e HP

Todos os Produtos

Servidor do armazenamento de cremalheira
(165)

Servidor da fusão de Huawei
(31)

Dell Poweredge Server
(59)

Servidor de H3C
(31)

Interruptores do Datacom
(96)

Dispositivo de WLAN
(21)

Router sem fio esperto
(10)

Disco rígido HDD
(78)

SSD interno do disco rígido
(16)

Cartão gráfico de Geforce
(27)

Processador do processador central de INTEL
(20)

Memória RAM do servidor
(6)

Servidor recondicionado do armazenamento
(6)

Módulo do transceptor de SFP
(4)

Interruptor de canal da fibra
(42)

Certificado

China Beijing Qianxing Jietong Technology Co., Ltd. Certificações

Revisões do cliente

A equipe de vendas da tecnologia Co. de Qianxing Jietong do Pequim, Ltd é muito profissional e paciente. Podem fornecer cotações rapidamente. A qualidade e o empacotamento dos produtos são igualmente muito bons. Nossa cooperação é muito lisa.

—— LLC do》 de Festfing DV do 《

Quando eu procurava o processador central de intel e o SSD de Toshiba urgentemente, Sandy da tecnologia Co. de Qianxing Jietong do Pequim, Ltd deu-me muita ajuda e obteve-me os produtos que eu precisei rapidamente. Eu aprecio-a realmente.

—— Kitty Yen

Sandy da tecnologia Co. de Qianxing Jietong do Pequim, Ltd é um vendedor muito cuidadoso, que possa me lembrar de erros da configuração a tempo quando eu compro um servidor. Os coordenadores são igualmente muito profissionais e podem rapidamente terminar o processo de teste.

—— Strelkin Mikhail Vladimirovich

Estamos muito satisfeitos com a nossa experiência de trabalho com a Beijing Qianxing Jietong. A qualidade do produto é excelente e a entrega é sempre pontual. A equipe de vendas é profissional, paciente e muito prestativa com todas as nossas perguntas. Agradecemos muito o seu apoio e esperamos uma parceria de longo prazo. Altamente recomendado!

—— Ahmad Navid

Qualidade: Ótima experiência com o meu fornecedor. O MikroTik RB3011 já estava usado, mas estava em muito bom estado e tudo funcionava perfeitamente.E todas as minhas preocupações foram resolvidas rapidamente.Fornecedor muito fiável, altamente recomendado.

—— Geran Colesio

Estou Chat Online Agora

NVIDIA DGX Spark Cluster Review: Inferência Distribuída em Dell, GIGABYTE e HP

May 15, 2026

Duas características definidoras se destacam no NVIDIA DGX Spark: 128 GB de memória unificada em uma unidade de desktop de US$ 4.000 e uma rede integrada de nível de datacenter de 200 Gb. A malha de alta velocidade o diferencia das estações de trabalho normais, permitindo clustering de vários nós, antes exclusivo para servidores montados em rack. Esta análise compara a inferência distribuída nas variantes Dell, GIGABYTE e HP Spark em clusters de 200 GbE de dois nós em diversos modelos e cargas de trabalho. Ele também analisa o paralelismo de pipeline (PP), um método de divisão alternativo que supera o paralelismo de tensor padrão (TP) da NVIDIA.

Malha de rede de 200 Gb

Cada Spark equipa duas gaiolas QSFP56 emparelhadas com um ConnectX-7 SmartNIC integrado. Limitada pela largura de banda PCIe Gen5 x4, a velocidade de rede utilizável é limitada a 200 Gb, com uma porta suficiente para largura de banda total; a segunda porta oferece flexibilidade de topologia. Três configurações comuns estão disponíveis: links diretos Spark-to-Spark de 200 Gb, topologia em anel sem switch por meio de portas duplas de 100 Gb e clustering híbrido com acesso de armazenamento de alta velocidade NVMe-oF. A NVIDIA vende desktops de unidade única, clusters validados de dois nós e configurações de quatro nós recém-lançadas. A configuração dual-Spark é a mais prática para inferência de estilo de produção e o foco deste teste.

Justificativa para clustering Spark

O principal benefício é expandir a capacidade do modelo: dois Sparks vinculados podem executar modelos de 120B de parâmetros que excedem os limites de memória de uma única unidade. Mais importante ainda, a plataforma serve como uma ferramenta educacional acessível. A NVIDIA projeta o Spark para iniciantes aprenderem fluxos de trabalho de IA, com guias oficiais que cobrem implantação de modelo, ajuste fino e desenvolvimento PyTorch/JAX. Os clusters de nós duplos ensinam ainda o paralelismo de vários nós e a análise de gargalos de rede sem hardware caro de datacenter. Notavelmente, o Spark não está otimizado para inferência de produção. Restrito pela largura de banda da memória e pela latência entre nós, seu link de 200 GbE é mais lento que as conexões PCIe internas. Clusters maiores sofrem grave degradação de desempenho, com baixa taxa de transferência de tokens, limitando-os ao uso educacional em vez de servir comercialmente.

Teste de desempenho: PP vs TP

Seleção de Estratégia de Paralelismo

O padrão da NVIDIA é TP, que divide cada camada do transformador em duas GPUs com trocas frequentes de dados totalmente reduzidas. Por outro lado, o PP divide os modelos por camada, transferindo ativações apenas uma vez entre os nós. Em links de 200 GbE, o PP minimiza a comunicação entre nós. Para modelos grandes em lotes grandes, o PP supera amplamente o TP; O TP só se destaca em cenários de chat de solicitação única e baixa latência.

Os testes no GPT-OSS-120B confirmam esta lacuna. No tamanho de lote 128, o PP atinge 554,69 tok/s (2,20× mais rápido que o TP) em cargas de trabalho balanceadas, 310,63 tok/s vs 164,99 tok/s em tarefas pesadas de pré-preenchimento. O TP lidera apenas no tamanho de lote 1. Para modelos pequenos como Llama-3.1-8B, o TP domina a maioria dos tamanhos de lote devido à computação de camada leve, com o PP ultrapassando o TP apenas em alta simultaneidade.

Resultados de benchmark multimodelo (PP = 2)

Série GPT-OSS

Para GPT-OSS-120B, a HP superou o pico de produtividade em cargas de trabalho balanceadas (504,88 tok/s) e com pré-preenchimento pesado (441,63 tok/s); A GIGABYTE liderou testes pesados de decodificação (494,37 tok/s). Para GPT-OSS-20B, a Dell dominou cenários balanceados (976,77 tok/s) e com pré-preenchimento pesado (852,39 tok/s), enquanto a GIGABYTE liderou tarefas de decodificação (945,55 tok/s).

Lhama 3.1 8B Variantes

Na precisão do BF16, a Dell liderou cargas de trabalho balanceadas (689,53 tok/s) e com muita decodificação (581,43 tok/s); A GIGABYTE venceu testes pesados de pré-preenchimento (539,27 tok/s). A otimização do FP4 aumentou drasticamente o rendimento: a GIGABYTE liderou tarefas balanceadas (1458,86 tok/s) e com pré-preenchimento pesado (954,23 tok/s). Para o FP8, a Dell manteve uma liderança estreita em cenários equilibrados (1.105,42 tok/s) e com muita decodificação (862,33 tok/s).

Modelos Mistral e Qwen

Mistral Small 3.1 24B apresentou lacunas mínimas: a GIGABYTE atingiu o pico de 255,09 tok/s em cargas de trabalho balanceadas. Para Qwen3 Coder 30B (A3B Base), a GIGABYTE liderou tarefas pesadas de pré-preenchimento (1862,40 tok/s); A Dell se destacou em cenários de decodificação. Na quantização FB8, a GIGABYTE superou o rendimento pesado de pré-preenchimento (3.088,62 tok/s), enquanto a Dell liderou as tarefas de decodificação (705,77 tok/s).

Resumo de pico de produção dos sistemas Dual Spark

Modelo	Cenário (BS – 64)	Saída de pico da Dell	Saída de pico GIGABYTE	Saída de pico HP
GPT-OSS-120B	ISL/OSL iguais	463,97 tok/s	497,26 tok/s	504,88 tok/s
GPT-OSS-120B	Pré-preenchimento Pesado	419,56 tok/s	417,34 tok/s	441,63 tok/s
GPT-OSS-120B	Decodificar Pesado	451,18 tok/s	494,37 tok/s	474,85 tok/s
GPT-OSS-20B	ISL/OSL iguais	976,77 tok/s	952,31 tok/s	915,72 tok/s
GPT-OSS-20B	Pré-preenchimento Pesado	852,39 tok/s	802,37 tok/s	757,05 tok/s
GPT-OSS-20B	Decodificar Pesado	938,65 tok/s	945,55 tok/s	865,78 tok/s
Lhama-3.1-8B-Instrução	ISL/OSL iguais	689,53 tok/s	687,48 tok/s	618,87 tok/s
Lhama-3.1-8B-Instrução	Pré-preenchimento Pesado	515,45 tok/s	539,27 tok/s	463,39 tok/s
Lhama-3.1-8B-Instrução	Decodificar Pesado	581,43 tok/s	576,91 tok/s	531,07 tok/s
Lhama-3.1-8B-FP4	ISL/OSL iguais	1.427,39 tok/s	1.458,86 tok/s	1.413,51 tok/s
Lhama-3.1-8B-FP4	Pré-preenchimento Pesado	884,22 tok/s	954,23 tok/s	843,57 tok/s
Lhama-3.1-8B-FP4	Decodificar Pesado	1.008,98 tok/s	1.007,23 tok/s	943,73 tok/s
Lhama-3.1-8B-FP8	ISL/OSL iguais	1.105,42 tok/s	1.089,85 tok/s	1.076,68 tok/s
Lhama-3.1-8B-FP8	Pré-preenchimento Pesado	759,50 tok/s	827,40 tok/s	725,51 tok/s
Lhama-3.1-8B-FP8	Decodificar Pesado	862,33 tok/s	855,81 tok/s	800,78 tok/s
Mistral-Pequeno-3.1-24B	ISL/OSL iguais	249,77 tok/s	255,09 tok/s	239,09 tok/s
Mistral-Pequeno-3.1-24B	Pré-preenchimento Pesado	216,01 tok/s	214,38 tok/s	197,92 tok/s
Mistral-Pequeno-3.1-24B	Decodificar Pesado	238,44 tok/s	237,97 tok/s	221,41 tok/s

Conclusão

As unidades Dell, GIGABYTE e HP Spark oferecem lacunas de desempenho insignificantes, com pequenas vantagens específicas de lote. As decisões de compra devem priorizar o design do chassi, o desempenho térmico, a garantia e o suporte pós-venda em detrimento de diferenças triviais de benchmark. A estratégia de paralelismo exerce um impacto muito maior do que as variações OEM: o PP supera o TP para inferência em lote, enquanto o TP é adequado para interação de fluxo único e baixa latência. A recomendação TP da NVIDIA se alinha ao posicionamento do Spark como um dispositivo de aprendizagem interativo, em vez de infraestrutura de produção. Um cluster Spark de nó duplo serve como uma plataforma de ensino acessível para IA distribuída. Os testes futuros cobrirão clusters maiores e treinamento completo em modelos pequenos, enquanto se aguarda a implantação do switch de 800 Gb em laboratório.

Pequim Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Diretora de Estratégia Global
WhatsApp/WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Site: www.qianxingdata.com/www.storagesserver.com
Foco de negócios:
Distribuição de produtos de TIC/integração de sistemas e serviços/soluções de infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parcerias com marcas líderes globais para fornecer produtos confiáveis e serviços profissionais.
“Usando a tecnologia para construir um mundo inteligente”Seu provedor confiável de serviços de produtos de TIC!

PREV: ORICO X50 Revisão: Thunderbolt 5 Velocidade em um SSD portátil

NEXT: Análise do Seagate IronWolf Pro 32 TB: capacidade máxima para NAS multi-bay

Contacto

Beijing Qianxing Jietong Technology Co., Ltd.

Pessoa de Contato: Ms. Sandy Yang

Telefone: 13426366826

NVIDIA DGX Spark Cluster Review: Inferência Distribuída em Dell, GIGABYTE e HP

Servidor do armazenamento de cremalheira

Servidor da fusão de Huawei

Dell Poweredge Server

Servidor de H3C

Interruptores do Datacom

Dispositivo de WLAN

Router sem fio esperto

Disco rígido HDD

SSD interno do disco rígido

Cartão gráfico de Geforce

Processador do processador central de INTEL

Memória RAM do servidor

Servidor recondicionado do armazenamento

Módulo do transceptor de SFP

Interruptor de canal da fibra

NVIDIA DGX Spark Cluster Review: Inferência Distribuída em Dell, GIGABYTE e HP

Malha de rede de 200 Gb

Justificativa para clustering Spark

Teste de desempenho: PP vs TP

Seleção de Estratégia de Paralelismo

Resultados de benchmark multimodelo (PP = 2)

Série GPT-OSS

Lhama 3.1 8B Variantes

Modelos Mistral e Qwen

Resumo de pico de produção dos sistemas Dual Spark

Conclusão

Servidor do armazenamento de cremalheira

12 servidor Rackmount da cremalheira de Lenovo ThinkSystem SR630 do servidor das baías 1U

Processador de Intel Xeon E-2378G do servidor do armazenamento de cremalheira de ThinkSystem SR250 V2 4SFF

Servidor da montagem em rack de Inspur NF5180M6 1U do servidor do armazenamento de cremalheira de Intel C621A

Servidor da fusão de Huawei

Servidor 32 DDR4 DIMMs da cremalheira de FusionServer 5288 V6 4U 44 discos rígidos de 3,5 polegadas

Ultra servidor 1288H V5 do armazenamento da rede do servidor 1U da fusão de Huawei do alto densidade

Armazenamento instantâneo híbrido do servidor novo da cremalheira de Gen OceanStor 5310 Huawei