Casa Casos

300 GB/s em 2U: O Dell PowerEdge R7725xd redefine as expectativas de desempenho de armazenamento

Todos os Produtos

Servidor do armazenamento de cremalheira
(165)

Servidor da fusão de Huawei
(31)

Dell Poweredge Server
(59)

Servidor de H3C
(30)

Interruptores do Datacom
(97)

Dispositivo de WLAN
(21)

Router sem fio esperto
(10)

Disco rígido HDD
(24)

SSD interno do disco rígido
(16)

Cartão gráfico de Geforce
(27)

Processador do processador central de INTEL
(20)

Memória RAM do servidor
(6)

Servidor recondicionado do armazenamento
(6)

Módulo do transceptor de SFP
(4)

Interruptor de canal da fibra
(42)

Certificado

China Beijing Qianxing Jietong Technology Co., Ltd. Certificações

Revisões do cliente

A equipe de vendas da tecnologia Co. de Qianxing Jietong do Pequim, Ltd é muito profissional e paciente. Podem fornecer cotações rapidamente. A qualidade e o empacotamento dos produtos são igualmente muito bons. Nossa cooperação é muito lisa.

—— LLC do》 de Festfing DV do 《

Quando eu procurava o processador central de intel e o SSD de Toshiba urgentemente, Sandy da tecnologia Co. de Qianxing Jietong do Pequim, Ltd deu-me muita ajuda e obteve-me os produtos que eu precisei rapidamente. Eu aprecio-a realmente.

—— Kitty Yen

Sandy da tecnologia Co. de Qianxing Jietong do Pequim, Ltd é um vendedor muito cuidadoso, que possa me lembrar de erros da configuração a tempo quando eu compro um servidor. Os coordenadores são igualmente muito profissionais e podem rapidamente terminar o processo de teste.

—— Strelkin Mikhail Vladimirovich

Estamos muito satisfeitos com a nossa experiência de trabalho com a Beijing Qianxing Jietong. A qualidade do produto é excelente e a entrega é sempre pontual. A equipe de vendas é profissional, paciente e muito prestativa com todas as nossas perguntas. Agradecemos muito o seu apoio e esperamos uma parceria de longo prazo. Altamente recomendado!

—— Ahmad Navid

Qualidade: Ótima experiência com o meu fornecedor. O MikroTik RB3011 já estava usado, mas estava em muito bom estado e tudo funcionava perfeitamente.E todas as minhas preocupações foram resolvidas rapidamente.Fornecedor muito fiável, altamente recomendado.

—— Geran Colesio

Estou Chat Online Agora

300 GB/s em 2U: O Dell PowerEdge R7725xd redefine as expectativas de desempenho de armazenamento

March 12, 2026

Alguns servidores apenas aprimoram as capacidades existentes, enquanto outros redefinem completamente o que é possível — e o Dell PowerEdge R7725xd se enquadra firmemente nesta última categoria. Durante nossos testes recentes, quando equipado com 24 SSDs NVMe Micron 9550 PRO PCIe Gen5 e quatro placas de interface de rede (NICs) de 2x 200GbE, este servidor 2U atingiu uma taxa de transferência de armazenamento bruta maior do que qualquer sistema que já avaliamos. Internamente, a plataforma manteve mais de 300 GB/s de taxa de transferência em seu pool de armazenamento NVMe e, pela rede, entregou 160 GB/s usando tecnologia RDMA padrão — tudo sem adicionar complexidade desnecessária.

Dell PowerEdge R7725xd

Isso é muito mais do que apenas um servidor de armazenamento mais rápido; é um sistema que transforma a arquitetura da computação intensiva em dados. Os pipelines de treinamento e inferência de IA de hoje são frequentemente limitados não pelo poder de processamento da GPU, mas pela velocidade com que os dados podem ser preparados, transmitidos, embaralhados e salvos. Nós de GPU de alto desempenho ficarão ociosos se os sistemas de armazenamento não conseguirem acompanhar suas demandas de dados. Para superar essas limitações, as equipes geralmente dependem de caches, hardware superprovisionado e estratégias complexas de segmentação para garantir que os aceleradores recebam dados rápido o suficiente para justificar seu investimento.

O Dell PowerEdge R7725xd aborda esse gargalo em sua raiz. O servidor é construído em torno de um backplane de 24 baias U.2, com cada unidade recebendo um link PCIe Gen5 x4 dedicado que se conecta diretamente ao complexo de CPU AMD EPYC. Não há estrangulamento de largura de banda de designs de fan-out, e nenhum expansor de midplane é usado para reduzir a concorrência. O desempenho escala suavemente porque o hardware é projetado para agregar taxa de transferência sem contenção de recursos. Em uma configuração típica de 2 soquetes, as CPUs são conectadas por 4 conexões XGMI para comunicação inter-soquetes. No R7725xd, um desses links é reaproveitado para adicionar 16 pistas PCIe Gen5 extras por CPU, dando ao servidor um total de 160 pistas PCIe Gen5 — 96 alocadas para as baias SSD frontais e 64 reservadas para os quatro slots PCIe traseiros. Quando emparelhado com os SSDs 9550 PRO da Micron — projetados para cargas de trabalho de gravação sustentadas e alta resistência — o sistema se torna um motor de dados de alta taxa de transferência capaz de suportar cargas de trabalho com muitos checkpoints e streaming contínuo.

Implementamos o PEAK:AIO sobre essa arquitetura para alavancar caminhos de submissão paralelos e manter a eficiência à medida que a concorrência aumentava. O resultado não foi apenas um desempenho de pico impressionante, mas também um desempenho sustentado consistente sob carga pesada. A plataforma pode funcionar como um nó de execução local para pré-processamento, treinamento ou transformação de dados, ou pode fornecer armazenamento de alta largura de banda para vários sistemas de GPU pela rede. Para aqueles que buscam ultrapassar os limites, ele pode até lidar com ambas as tarefas simultaneamente.

Principais Conclusões

Taxa de Transferência sem Precedentes em um Único Nó: O R7725xd sustentou mais de 300 GB/s de largura de banda interna e 160 GB/s via NVMe-oF RDMA, rivalizando com clusters de armazenamento multi-nó dentro de um chassi 2U.
Arquitetura Gen5 Verdadeira, Sem Switches, Sem Fan-Out: Todos os 24 SSDs Micron 9550 PRO recebem pistas PCIe Gen5 x4 dedicadas diretamente do complexo da CPU, permitindo escalonamento na taxa de linha sem contenção.
Alimentado por AMD EPYC Série 9005: Processadores duplos AMD EPYC 9575F fornecem a contagem de pistas, largura de banda de memória e topologia NUMA necessárias para E/S de alta concorrência sustentada.
Projetado para IA, Análise e Cargas de Trabalho com Muitos Checkpoints: O sistema elimina os gargalos de E/S que paralisam os pipelines modernos de GPU, permitindo a entrega contínua de dados de alta largura de banda.
PEAK:AIO Desbloqueia Paralelismo Total: A pilha de software do PEAK:AIO mantém as estruturas de fila saturadas sob carga, entregando desempenho empresarial a uma relação custo-por-GB atraente.

Projetado para Taxa de Transferência NVMe

Entre a última geração de servidores, a Dell se afastou da incorporação de switches PCIe em configurações de servidores densos em armazenamento. Modelos como o PowerEdge R770 e R7725 apresentam baias PCIe Gen5 x4, suportando configurações com até 16 SSDs, e mudam para baias x2 ao usar configurações de backplane de armazenamento maiores. Servidores da geração anterior — como o PowerEdge R760 — incluíam um switch PCIe em configurações NVMe de 24 baias. Para simplificar as construções e eliminar a complexidade trazida pelos switches PCIe, servidores mais novos adotaram uma abordagem de reduzir o número de pistas PCIe em configurações densas em armazenamento. Isso mudou, no entanto, com a chegada do R7725xd.

A principal diferença entre o R7725 padrão e o R7725xd reside em como as plataformas alocam recursos do complexo raiz PCIe. O R7725 base distribui as pistas PCIe entre armazenamento, expansão de GPU e E/S de propósito geral. A variante 'xd' realoca esse orçamento de recursos para tornar o subsistema NVMe o principal consumidor de largura de banda PCIe. As 24 baias U.2 são conectadas diretamente às raízes PCIe Gen5 da CPU, com cada SSD recebendo seu próprio endpoint x4 — em vez de um uplink compartilhado disponibilizado através de um switch PCIe ou árvore de retemporizador. Isso concede a cada unidade estruturas de fila independentes e caminhos DMA independentes de volta ao controlador de memória.

A topologia do backplane e do riser reflete esse foco no desempenho NVMe. A Dell distribui os conectores NVMe e os slots PCIe em ambos os soquetes AMD EPYC, para que cada processador tenha controle direto sobre uma parte do conjunto de unidades. Na prática, isso cria dois domínios NVMe simétricos, cada um com características de latência local e concorrência total de leitura/gravação. Quando instalamos quatro NICs Broadcom dual-port 200GbE como placas de expansão, a colocação de seus slots permitiu que cada NIC residisse em um domínio PCIe alinhado com o grupo NVMe correspondente. Sob NVMe-over-RDMA, isso significou que o tráfego de rede permaneceu local ao soquete que lida com a E/S da unidade associada, evitando o salto Infinity Fabric inter-soquetes que geralmente adiciona latência e consome largura de banda sob carga pesada.

O desempenho térmico também suporta taxa de transferência sustentada. U.2 continua sendo uma escolha notável em configurações Gen5 densas porque fornece um canal de fluxo de ar definido e uma área de superfície de dissipador de calor previsível para cada dispositivo. Os módulos de ventoinha de alta pressão estática do R7725xd e o duto do chassi mantêm um fluxo de ar constante em todas as 24 baias, permitindo que cargas de trabalho de gravação em disco completo sejam executadas continuamente sem estrangulamento. O design mecânico complementa a arquitetura elétrica: cada unidade pode sustentar desempenho em taxa total porque a plataforma é projetada para resfriar 24 dispositivos Gen5 concorrentes sob carga.

Essa combinação de alinhamento do complexo raiz, layout consistente de pistas de acesso não uniforme à memória (NUMA), colocação de NIC ciente do soquete e embalagem U.2 termicamente estável permite que o sistema atinja E/S na taxa de linha em escala. A arquitetura elimina gargalos e maximiza o potencial de desempenho.

Visão Geral do Dell PowerEdge R7725xd iDRAC 10

Como muitas outras plataformas de 17ª Geração que testamos, esta geração do R7725xd apresenta a nova plataforma iDRAC 10 da Dell — servindo como o hub central para gerenciamento remoto, monitoramento de saúde e controle fora de banda. A visualização do painel oferece uma visão geral imediata da saúde geral do sistema, status do armazenamento e atividade recente. Para nossa unidade de teste, o relatório de saúde do sistema e do armazenamento mostra um status verde, confirmando que o servidor está operando conforme o esperado. Detalhes chave do sistema — incluindo modelo, nome do host, versão do BIOS, nível de firmware do iDRAC, endereço IP e informações de licenciamento — são exibidos no lado direito da interface.

O painel também inclui um painel de resumo de tarefas que mostra operações concluídas, pendentes e em andamento. Abaixo disso, um log de eventos recentes captura alertas de intrusão do chassi e mensagens de fonte de alimentação, fornecendo visibilidade rápida das mudanças de estado do hardware sem a necessidade de navegar para menus mais profundos. O painel do console virtual está localizado no canto inferior direito, permitindo controle KVM remoto completo.

A seção de armazenamento do iDRAC 10 apresenta uma visão geral completa de todos os discos físicos instalados no R7725xd. O painel de resumo exibe uma contagem de alto nível de todas as unidades conectadas, acompanhada por um gráfico de pizza visual que ilustra os estados das unidades. Nesta configuração, 24 SSDs NVMe estão ativos e relatando como prontos, com dois dispositivos de inicialização adicionais presentes no sistema, separados do banco NVMe frontal principal.

À direita, o Resumo de Unidades detalha essas unidades em discos físicos e quaisquer discos virtuais associados. Como o R7725xd usa uma arquitetura NVMe direta sem controladores RAID tradicionais, todas as unidades são relatadas como Não-RAID e individualmente endereçáveis, alinhando-se com o design do sistema para grandes pools NVMe e plataformas SDS.

Abaixo do resumo de status, a área de Eventos de Armazenamento Registrados Recentemente lista logs de inserção para cada SSD PCIe, organizados por baia e slot. Este registro confirma a detecção adequada em todas as baias de unidade e ajuda a identificar quaisquer problemas com encaixe, cabeamento ou atividade de hot-swap. Para implantações grandes, esses logs são úteis ao rastrear o provisionamento de unidades ou verificar se a capacidade foi populada conforme o esperado.

A captura de tela final mostra a visualização detalhada do dispositivo NVMe dentro do iDRAC10. Cada unidade NVMe instalada no sistema é listada com seu status, capacidade e localização na baia. Selecionar uma unidade individual abre um detalhamento completo de suas características.

Neste exemplo, o painel de informações da unidade exibe a string completa do modelo, protocolo do dispositivo, fator de forma e configurações PCIe negociadas. Os dispositivos NVMe estão rodando a uma velocidade de link de 32 GT/s com uma conexão x4 negociada, confirmando que as unidades estão operando com largura de banda total no backplane PCIe Gen5 do sistema. A seção de informações também relata a porcentagem de resistência, o status do espaço livre disponível e o tipo de protocolo, ajudando os administradores a monitorar a saúde da unidade e as expectativas de ciclo de vida.

Este relatório granular de unidades é valioso em configurações NVMe de alta densidade onde a largura do link, a velocidade negociada e a saúde da mídia influenciam diretamente o comportamento da carga de trabalho e o desempenho do armazenamento.

No geral, a interface iDRAC 10 fornece uma visão clara e centrada no hardware da arquitetura de armazenamento NVMe do R7725xd, permitindo a validação fácil da saúde do link, status da unidade e integridade do sistema em um relance.

Desempenho do Dell PowerEdge R7725xd

Antes dos testes, nosso sistema foi configurado com uma carga equilibrada, porém de alto desempenho. O sistema está equipado com dois processadores AMD EPYC 9575F, cada um com 64 núcleos de alta frequência, e emparelhado com 24 DIMMs DDR5 de 32 GB operando a 6400 MT/s. Para armazenamento, o chassi é totalmente populado com 24 SSDs NVMe U.2 Micron 9550 PRO de 15,36 TB, cada um conectado através de um link PCIe Gen5 x4 dedicado. Isso fornece uma capacidade bruta total de 368,64 TB, e as unidades Micron 9550 PRO oferecem velocidades de leitura sequencial de até 14.000 MB/s e velocidades de gravação sequencial de até 10.000 MB/s. A rede é gerenciada por quatro adaptadores Broadcom BCM57608 que fornecem um total de oito portas de 200 Gb, juntamente com uma NIC OCP BCM57412 oferecendo duas portas adicionais de 10 gigabits.

Especificações do Sistema de Teste

CPU: 2x Processadores AMD EPYC 9575F de 64 núcleos de alta frequência
Memória: 24x 32 GB DDR5 @ 6400 MT/s
Armazenamento: 24x unidades Micron 9550 PRO U.2 de 15,36 TB (conectadas a 4 pistas de PCIe Gen5 cada); suporta até unidades de 128 TB hoje com capacidades maiores no horizonte
Rede: 4x NICs Broadcom BCM57608 2x200G, 1x NIC OCP BCM57412 2x10Gb
Switch: Dell PowerSwitch Z9664

Benchmark de Desempenho FIO

Para medir o desempenho de armazenamento do PowerEdge R7725xd, usamos métricas padrão da indústria e a ferramenta FIO. Nesta seção, focamos nos seguintes benchmarks FIO:

4K Aleatório – 1M
4K Sequencial – 1M

FIO – Local – Largura de Banda

Ao testar o acesso local às 24 unidades NVMe PCIe Gen5 dentro do Dell PowerEdge R7725xd, o sistema mostra exatamente o que você esperaria de uma plataforma onde cada unidade está conectada às CPUs usando um link PCIe Gen5 x4 completo. Sem camada de rede envolvida, esta é a taxa de transferência pura e interna do layout de armazenamento Gen5 da Dell e a largura de banda PCIe da plataforma AMD EPYC funcionando sem restrições.

As leituras sequenciais começam em 184 GB/s com blocos de 4K e escalam rapidamente à medida que o tamanho do bloco aumenta. De 512K a 1M, o servidor mantém um consistente de 312 a 314 GB/s, o que é uma forte indicação de quão bem o sistema pode agregar todas as 24 pistas Gen5 de 4x em largura de banda de leitura sustentada sem gargalos de estágio do controlador.

As gravações sequenciais seguem uma curva diferente, mas permanecem firmemente na faixa esperada. Começando em 149 GB/s, os resultados sobem pelos meados dos anos 100 e atingem 182 GB/s a 1 milhão. Isso se alinha com o comportamento de gravação dos SSDs Micron 9550 PRO e a sobrecarga inerente às gravações NVMe de alta paralelismo em tantos dispositivos independentes.

O desempenho de leitura aleatória é outro destaque. O sistema atinge velocidades de quase 300 GB/s nos menores tamanhos de bloco, cai ligeiramente na faixa intermediária e, em seguida, recupera-se para os 200s superiores e 300s inferiores em tamanhos de bloco maiores. Em 1M, as leituras aleatórias atingem um máximo de 318 GB/s, demonstrando a capacidade da plataforma de distribuir operações mistas uniformemente por todas as 24 unidades.

As gravações aleatórias vêm em uma taxa menor, o que é típico para metadados dispersos e tarefas de alocação de gravação em um amplo conjunto NVMe. Os resultados permanecem na faixa de 140 a 160 GB/s durante a maior parte do teste e diminuem para pouco menos de 100 GB/s em 1 M.

FIO – Local – IOPS

Ao examinar o lado IOPS, o R7725xd demonstra um desempenho robusto de blocos pequenos, com taxas de solicitação atingindo bem mais de dezenas de milhões antes que tamanhos de bloco maiores mudem a carga de trabalho para um perfil impulsionado pela largura de banda.

Em 4K, as leituras atingem 44,9 milhões de IOPS e as gravações chegam a 36,3 milhões. As leituras aleatórias atingem níveis ainda mais altos em 71,4 milhões de IOPS, demonstrando a capacidade do sistema de distribuir eficientemente cargas de trabalho de alta fila por todas as unidades. Esses valores diminuem naturalmente à medida que o tamanho do bloco aumenta, mas a progressão permanece consistente nas faixas de 8K, 16K e 32K.

Por blocos de 16K e 32K, as leituras se estabilizam em 17,4 milhões e 8,35 milhões de IOPS, com leituras aleatórias correspondendo de perto em 16,5 milhões e 8,15 milhões. As gravações seguem o padrão esperado, rastreando mais baixo, mas permanecendo estáveis em padrões de acesso sequencial e aleatório.

À medida que avançamos para 64K e acima, o teste muda de IOPS puro para um cenário mais limitado pela largura de banda. Os IOPS caem para a faixa de poucos milhões e, eventualmente, para centenas de milhares. Em um tamanho de bloco de 1M, os IOPS de leitura ficam em torno de 300K, as gravações em cerca de 174K, e as operações aleatórias terminam na mesma vizinhança.

No geral, os resultados de IOPS locais mostram claramente a capacidade do sistema de sustentar cargas de trabalho de profundidade de fila muito altas em blocos pequenos, com escalonamento previsível à medida que as transferências crescem e a largura de banda se torna o fator dominante.

PEAK:AIO: Por que o Dell PowerEdge R7725xd se Adapta a Esta Carga de Trabalho

O PEAK:AIO é projetado para ambientes que exigem acesso extremamente rápido e de baixa latência a grandes conjuntos de dados, tipicamente para treinamento de IA, pipelines de inferência, modelagem financeira e análise em tempo real. A plataforma prospera em armazenamento NVMe denso, largura de banda PCIe balanceada e latência previsível em escala. Para atender a esses requisitos, o hardware subjacente deve entregar taxa de transferência sustentada, mantendo desempenho consistente e repetível sob cargas pesadas concorrentes.

É aqui que o Dell PowerEdge R7725xd se alinha naturalmente com o PEAK:AIO. A arquitetura do sistema é projetada para maximizar os recursos PCIe Gen5, expondo toda a largura de banda de suas 24 baias NVMe U.2 montadas na frente diretamente às CPUs, sem depender de controladores RAID tradicionais. Esse layout dá ao PEAK:AIO o paralelismo e o perfil de latência que ele espera de pipelines de dados modernos baseados em NVMe. A configuração do sistema dividiu os SSDs NVMe em dois grupos RAID0.

No cenário testado, usamos dois sistemas cliente conectados ao R7725xd, cada um equipado com NICs Broadcom BCM57608 2x 200G. Isso criou um total de quatro uplinks de 200G alimentando cada cliente, empurrando o R7725xd para uma configuração realista de alto desempenho que espelha o que as implantações PEAK:AIO veem em produção. Esse nível de largura de banda de rede nos deu a margem para estressar totalmente o subsistema NVMe, a topologia PCIe e as interconexões da CPU sem gargalos na camada NIC.

O resultado é uma plataforma que se alinha efetivamente com as cargas de trabalho PEAK:AIO. O R7725xd fornece capacidade NVMe densa, taxa de transferência PCIe Gen5, processadores duplos AMD EPYC 9005 para paralelismo e a capacidade de rede para sustentar ingestão de dados multi-cliente em centenas de gigabits por cliente. Todas essas características são fundamentais para atingir as expectativas de desempenho do PEAK:AIO.

PEAK:AIO – NVMe-oF RDMA – Largura de Banda

Examinando os resultados de largura de banda NVMe-oF RDMA no PowerEdge R7725xd com PEAK:AIO, a tendência geral é precisamente o que esperamos de um sistema com tanta largura de banda PCIe e de rede. À medida que o tamanho do bloco aumenta, a taxa de transferência sobe rapidamente até se estabilizar perto do limite prático da plataforma.

Nos tamanhos de bloco pequenos, o desempenho começa na faixa de 20 GB/s para leituras e gravações, o que é normal porque transferências de 4K e 8K exigem mais do caminho IOPS do que do caminho de taxa de transferência. Assim que entramos nos blocos de 16K e 32K, o pipeline se abre. As leituras saltam para cerca de 154 GB/s em 32K e continuam subindo para a faixa de 160 GB/s, que é exatamente onde esperaríamos que uma configuração de cliente duplo sobre quatro links de 200 Gb/s se estabelecesse.

O desempenho de leitura aleatória espelha o sequencial quase perfeitamente. O PEAK:AIO faz um bom trabalho em manter as filas de comando alimentadas, então a largura de banda de leitura aleatória essencialmente rastreia a largura de banda de leitura sequencial até o fim, estabilizando-se em aproximadamente 159 a 161 GB/s de 32K a 1M. Isso indica que a pilha de armazenamento não está gargalando sob padrões de acesso mistos, e a topologia PCIe do R7725xd está distribuindo a carga uniformemente pelas 24 unidades NVMe Gen5.

O desempenho de gravação segue uma curva semelhante, embora atinja um pico ligeiramente menor do que as leituras. As gravações sequenciais permanecem na faixa de 140 a 148 GB/s através dos blocos de tamanho médio, diminuindo para aproximadamente 117 GB/s em 128K, mas se recuperando à medida que o tamanho do bloco aumenta. As gravações aleatórias se comportam de forma diferente e se estabilizam mais perto de 110-117 GB/s, o que é normal para cargas de trabalho de fila mista que introduzem sobrecarga adicional.

O principal ponto a ser observado nesta seção é que o R7725xd não tem problemas em sustentar uma taxa de transferência extremamente alta via NVMe-oF, mesmo com vários clientes impulsionando o sistema aos seus limites. Uma vez que os tamanhos de bloco atingem 32K ou mais, o servidor satura consistentemente sua largura de banda de rede e armazenamento disponível. Este é exatamente o tipo de desempenho que o PEAK:AIO foi projetado para extrair, tornando esses resultados uma forte validação da capacidade da plataforma de escalar em condições do mundo real.

PEAK AIO – NVMe-oF RDMA IOPS

No lado IOPS, o PowerEdge R7725xd exibe um forte desempenho de blocos pequenos, embora inicialmente tenhamos observado números abaixo do esperado; espera-se que esse problema seja resolvido com suporte aprimorado de driver de rede no futuro. Mesmo com isso em jogo, a tendência geral de escalonamento parece exatamente como o NVMe-oF RDMA se comporta tipicamente quando o tamanho do bloco aumenta.

No menor tamanho de bloco, o sistema pode entregar mais de 6 milhões de IOPS em cargas de trabalho sequenciais e aleatórias. Leitura, gravação, leitura aleatória e gravação aleatória estão aproximadamente na mesma faixa em 4K e 8K, indicando que os clientes frontais, a infraestrutura PCIe e as próprias unidades NVMe não têm problemas em acompanhar a taxa de solicitação.

À medida que os tamanhos de bloco crescem, a queda esperada em IOPS começa. Em 32K, as leituras ficam em torno de 4,7 milhões de IOPS, enquanto as gravações ficam ligeiramente atrás em cerca de 4,4 milhões. As gravações aleatórias sofrem o maior impacto aqui, caindo para aproximadamente 3,3 milhões de IOPS, o que se alinha com a sobrecarga adicional de fila e CPU introduzida por padrões de acesso misto.

Avançando para os blocos grandes, os IOPS continuam a diminuir de forma previsível e linear. Quando chegamos a transferências de 256K e 512K, a taxa de transferência se torna a métrica dominante, e os IOPS caem naturalmente para centenas de milhares. Em um tamanho de bloco de 1M, todas as cargas de trabalho convergem para 140K-153K IOPS, consistente com os números de largura de banda que vimos na seção anterior.

Desempenho do GPUDirect Storage

Um dos testes que realizamos no R7725xd foi o teste Magnum IO GPUDirect Storage (GDS). GDS é um recurso desenvolvido pela NVIDIA que permite que as GPUs ignorem a CPU ao acessar dados armazenados em unidades NVMe ou outros dispositivos de armazenamento de alta velocidade. Em vez de rotear dados através da CPU e da memória do sistema, o GDS permite a comunicação direta entre a GPU e o dispositivo de armazenamento, reduzindo significativamente a latência e melhorando a taxa de transferência de dados.

Como Funciona o GPUDirect Storage

Tradicionalmente, quando uma GPU processa dados armazenados em uma unidade NVMe, os dados devem primeiro passar pela CPU e pela memória do sistema antes de chegar à GPU. Esse processo introduz gargalos, pois a CPU se torna um intermediário, adicionando latência e consumindo recursos valiosos do sistema. O GPUDirect Storage elimina essa ineficiência, permitindo que a GPU acesse dados diretamente do dispositivo de armazenamento via barramento PCIe. Esse caminho direto reduz a sobrecarga de movimentação de dados, permitindo transferências de dados mais rápidas e eficientes.

Cargas de trabalho de IA, especialmente aquelas que envolvem aprendizado profundo, são altamente intensivas em dados. O treinamento de grandes redes neurais requer o processamento de terabytes de dados, e qualquer atraso na transferência de dados pode levar a GPUs subutilizadas e tempos de treinamento mais longos. O GPUDirect Storage aborda esse desafio garantindo que os dados sejam entregues à GPU o mais rápido possível, minimizando o tempo ocioso e maximizando a eficiência computacional.

Além disso, o GDS é particularmente benéfico para cargas de trabalho que envolvem streaming de grandes conjuntos de dados, como processamento de vídeo, processamento de linguagem natural ou inferência em tempo real. Ao reduzir a dependência da CPU, o GDS acelera a movimentação de dados e libera recursos da CPU para outras tarefas, aumentando ainda mais o desempenho geral do sistema.

Além da largura de banda bruta, o GPUDirect com NVMe-oF (TCP/RDMA) também oferece E/S de latência ultrabaixa. Isso garante que as GPUs nunca fiquem sem dados, tornando o sistema ideal para inferência de IA em tempo real, pipelines de análise e reprodução de vídeo.

GDSIO Leitura Sequencial

Ao examinar o PEAK:AIO com um cliente usando GDSIO, a taxa de transferência de leitura exibe um padrão de escalonamento claro à medida que o tamanho do bloco e a contagem de threads aumentam. Este único cliente estava conectado via dois links de 400G, limitando seu potencial total a 90 GB/s.

Nos menores tamanhos de bloco e baixas contagens de threads, o desempenho é modesto, com leituras de 4K começando em torno de 189 MiB/s com um único thread. Assim que aumentamos o paralelismo de threads, o sistema responde imediatamente, empurrando 691 MiB/s com quatro threads e entrando na faixa de múltiplos GiB/s à medida que avançamos para blocos maiores.

Os tamanhos de bloco intermediários mostram a maior sensibilidade à contagem de threads. Em 32K, a taxa de transferência cresce de 1,3 GiB/s com um único thread para quase 20 GiB/s com 64 threads, com apenas uma leve diminuição além disso. Um padrão semelhante aparece em 64K e 128K, onde o sistema transita de baixos GiB/s de um dígito com baixo paralelismo para mais de 30 GiB/s à medida que a carga de trabalho escala.

Assim que atingimos os tamanhos de bloco maiores, a taxa de transferência começa a se estabilizar à medida que o sistema se aproxima de seu teto de desempenho para um único cliente. Em 1 MiB, o desempenho sobe de 11 GiB/s com um thread para cerca de 88 GiB/s com altas contagens de threads. As transferências de 5 MiB e 10 MiB mostram o mesmo platô, atingindo cerca de 89–90 GiB/s, independentemente de o teste estar sendo executado com 64, 128 ou 256 threads.

GDSIO Gravação Sequencial

No lado da gravação, o comportamento de escalonamento segue um padrão semelhante ao das leituras, mas com desempenho ligeiramente inferior na maioria dos tamanhos de bloco, o que é esperado para cargas de trabalho de gravação sequencial. Nos menores tamanhos de bloco, a taxa de transferência começa em 165 MiB/s para um único thread em 4K e aumenta constantemente à medida que o paralelismo aumenta. Com quatro threads, isso cresce para pouco mais de 619 MiB/s antes de ultrapassar 1 GiB/s com oito threads.

Os tamanhos de bloco intermediários mostram ganhos mais fortes à medida que as contagens de threads aumentam. Em 32K, a taxa de transferência começa em pouco menos de 1 GiB/s e escala para mais de 21 GiB/s em níveis de thread mais altos. As faixas de 64K e 128K continuam a tendência, movendo-se de baixos GiB/s de um dígito para meados dos 30 GiB/s e 50 GiB/s à medida que a carga de trabalho se torna mais paralela.

As transferências maiores são quando o sistema se estabiliza em seu teto natural de taxa de transferência de gravação. Em 1 MiB, o desempenho sobe de 13,3 GiB/s com um único thread para pouco menos de 90 GiB/s com altas contagens de threads. Os testes de 5 MiB e 10 MiB seguem um padrão semelhante, com resultados atingindo um pico de cerca de 90 GiB/s, independentemente de o sistema estar rodando com 64, 128 ou 256 threads.

Redefinindo o Desempenho na Era Gen5

O Dell PowerEdge R7725xd transcende o papel de um servidor de armazenamento tradicional; ele marca uma mudança fundamental na forma como a largura de banda é orquestrada dentro do rack do data center. Ao descartar completamente os switches PCIe e fornecer a cada unidade NVMe uma conexão exclusiva e direta com a CPU, a Dell projetou uma plataforma onde a taxa de transferência escala linearmente, o comportamento térmico é totalmente previsível e a alta concorrência é aproveitada como uma vantagem de desempenho, em vez de um desafio de design.

Quando combinado com os SSDs Micron 9550 PRO e as capacidades de E/S paralelas do software PEAK:AIO, o R7725xd evolui de um enclosure NVMe densamente compactado para um motor de dados completo. Dentro de seu formato compacto de 2U, o servidor pode não apenas saturar seu tecido PCIe local, mas também alimentar GPUs na taxa de linha via RDMA, ou até mesmo executar cargas de trabalho de computação e armazenamento simultaneamente.

Dell PowerEdge R7725xd heroDell PowerEdge R7725xd

Em cenários do mundo real, essa configuração poderosa oferece mais de 300 GB/s de taxa de transferência interna e 160 GB/s pela rede. Esse desempenho rivaliza com o de clusters de armazenamento multi-nó muito mais complexos e caros, tudo dentro de uma solução simplificada e econômica de nó único. Ele se destaca como um testemunho convincente do poder do alinhamento arquitetônico — onde cada camada, do silício bruto ao software otimizado, é projetada para priorizar a eficiência e a alta largura de banda sustentada.

O R7725xd estabelece um novo padrão para o desempenho de armazenamento em nó único na era Gen5. Para empresas e grupos de pesquisa que constroem pipelines de IA de próxima geração, infraestruturas de análise de alta velocidade ou ambientes de treinamento com muitos checkpoints, ele oferece um vislumbre de um futuro onde os gargalos do sistema são coisa do passado, desbloqueando um potencial de desempenho antes inatingível.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Diretor de Estratégia Global
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com

Foco de Negócios:
Distribuição de Produtos TIC/Integração de Sistemas e Serviços/Soluções de Infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parceria com as principais marcas globais para entregar produtos confiáveis e serviços profissionais.
"Usando a Tecnologia para Construir um Mundo Inteligente" Seu Provedor Confiável de Serviços de Produtos TIC!

PREV: Novos Dell Technologies PowerVault MD JBODs Domam a Explosão de Dados

NEXT: Revisão do cartão RAID da Broadcom MegaRAID 9670W-16i

Contacto

Beijing Qianxing Jietong Technology Co., Ltd.

Pessoa de Contato: Ms. Sandy Yang

Telefone: 13426366826

sobre

Servidor do armazenamento de cremalheira: 12 servidor Rackmount da cremalheira de Lenovo ThinkSystem SR630 do servidor das baías 1U; Processador de Intel Xeon E-2378G do servidor do armazenamento de cremalheira de ThinkSystem SR250 V2 4SFF; Servidor da montagem em rack de Inspur NF5180M6 1U do servidor do armazenamento de cremalheira de Intel C621A

Servidor da fusão de Huawei: Servidor 32 DDR4 DIMMs da cremalheira de FusionServer 5288 V6 4U 44 discos rígidos de 3,5 polegadas; Ultra servidor 1288H V5 do armazenamento da rede do servidor 1U da fusão de Huawei do alto densidade; Armazenamento instantâneo híbrido do servidor novo da cremalheira de Gen OceanStor 5310 Huawei

Deixe mensagem