Principais Conclusões
- Taxa de Transferência sem Precedentes em um Único Nó: O R7725xd sustentou mais de 300 GB/s de largura de banda interna e 160 GB/s via NVMe-oF RDMA, rivalizando com clusters de armazenamento multi-nó dentro de um chassi 2U.
- Arquitetura Gen5 Verdadeira, Sem Switches, Sem Fan-Out: Todos os 24 SSDs Micron 9550 PRO recebem pistas PCIe Gen5 x4 dedicadas diretamente do complexo da CPU, permitindo escalonamento na taxa de linha sem contenção.
- Alimentado por AMD EPYC Série 9005: Processadores duplos AMD EPYC 9575F fornecem a contagem de pistas, largura de banda de memória e topologia NUMA necessárias para E/S de alta concorrência sustentada.
- Projetado para IA, Análise e Cargas de Trabalho com Muitos Checkpoints: O sistema elimina os gargalos de E/S que paralisam os pipelines modernos de GPU, permitindo a entrega contínua de dados de alta largura de banda.
- PEAK:AIO Desbloqueia Paralelismo Total: A pilha de software do PEAK:AIO mantém as estruturas de fila saturadas sob carga, entregando desempenho empresarial a uma relação custo-por-GB atraente.
A seção de armazenamento do iDRAC 10 apresenta uma visão geral completa de todos os discos físicos instalados no R7725xd. O painel de resumo exibe uma contagem de alto nível de todas as unidades conectadas, acompanhada por um gráfico de pizza visual que ilustra os estados das unidades. Nesta configuração, 24 SSDs NVMe estão ativos e relatando como prontos, com dois dispositivos de inicialização adicionais presentes no sistema, separados do banco NVMe frontal principal.
À direita, o Resumo de Unidades detalha essas unidades em discos físicos e quaisquer discos virtuais associados. Como o R7725xd usa uma arquitetura NVMe direta sem controladores RAID tradicionais, todas as unidades são relatadas como Não-RAID e individualmente endereçáveis, alinhando-se com o design do sistema para grandes pools NVMe e plataformas SDS.
Abaixo do resumo de status, a área de Eventos de Armazenamento Registrados Recentemente lista logs de inserção para cada SSD PCIe, organizados por baia e slot. Este registro confirma a detecção adequada em todas as baias de unidade e ajuda a identificar quaisquer problemas com encaixe, cabeamento ou atividade de hot-swap. Para implantações grandes, esses logs são úteis ao rastrear o provisionamento de unidades ou verificar se a capacidade foi populada conforme o esperado.
A captura de tela final mostra a visualização detalhada do dispositivo NVMe dentro do iDRAC10. Cada unidade NVMe instalada no sistema é listada com seu status, capacidade e localização na baia. Selecionar uma unidade individual abre um detalhamento completo de suas características.
Neste exemplo, o painel de informações da unidade exibe a string completa do modelo, protocolo do dispositivo, fator de forma e configurações PCIe negociadas. Os dispositivos NVMe estão rodando a uma velocidade de link de 32 GT/s com uma conexão x4 negociada, confirmando que as unidades estão operando com largura de banda total no backplane PCIe Gen5 do sistema. A seção de informações também relata a porcentagem de resistência, o status do espaço livre disponível e o tipo de protocolo, ajudando os administradores a monitorar a saúde da unidade e as expectativas de ciclo de vida.
Este relatório granular de unidades é valioso em configurações NVMe de alta densidade onde a largura do link, a velocidade negociada e a saúde da mídia influenciam diretamente o comportamento da carga de trabalho e o desempenho do armazenamento.
No geral, a interface iDRAC 10 fornece uma visão clara e centrada no hardware da arquitetura de armazenamento NVMe do R7725xd, permitindo a validação fácil da saúde do link, status da unidade e integridade do sistema em um relance.
Desempenho do Dell PowerEdge R7725xd
Antes dos testes, nosso sistema foi configurado com uma carga equilibrada, porém de alto desempenho. O sistema está equipado com dois processadores AMD EPYC 9575F, cada um com 64 núcleos de alta frequência, e emparelhado com 24 DIMMs DDR5 de 32 GB operando a 6400 MT/s. Para armazenamento, o chassi é totalmente populado com 24 SSDs NVMe U.2 Micron 9550 PRO de 15,36 TB, cada um conectado através de um link PCIe Gen5 x4 dedicado. Isso fornece uma capacidade bruta total de 368,64 TB, e as unidades Micron 9550 PRO oferecem velocidades de leitura sequencial de até 14.000 MB/s e velocidades de gravação sequencial de até 10.000 MB/s. A rede é gerenciada por quatro adaptadores Broadcom BCM57608 que fornecem um total de oito portas de 200 Gb, juntamente com uma NIC OCP BCM57412 oferecendo duas portas adicionais de 10 gigabits.
Especificações do Sistema de Teste
- CPU: 2x Processadores AMD EPYC 9575F de 64 núcleos de alta frequência
- Memória: 24x 32 GB DDR5 @ 6400 MT/s
- Armazenamento: 24x unidades Micron 9550 PRO U.2 de 15,36 TB (conectadas a 4 pistas de PCIe Gen5 cada); suporta até unidades de 128 TB hoje com capacidades maiores no horizonte
- Rede: 4x NICs Broadcom BCM57608 2x200G, 1x NIC OCP BCM57412 2x10Gb
- Switch: Dell PowerSwitch Z9664
Benchmark de Desempenho FIO
Para medir o desempenho de armazenamento do PowerEdge R7725xd, usamos métricas padrão da indústria e a ferramenta FIO. Nesta seção, focamos nos seguintes benchmarks FIO:
- 4K Aleatório – 1M
- 4K Sequencial – 1M
FIO – Local – Largura de Banda
Ao testar o acesso local às 24 unidades NVMe PCIe Gen5 dentro do Dell PowerEdge R7725xd, o sistema mostra exatamente o que você esperaria de uma plataforma onde cada unidade está conectada às CPUs usando um link PCIe Gen5 x4 completo. Sem camada de rede envolvida, esta é a taxa de transferência pura e interna do layout de armazenamento Gen5 da Dell e a largura de banda PCIe da plataforma AMD EPYC funcionando sem restrições.
As leituras sequenciais começam em 184 GB/s com blocos de 4K e escalam rapidamente à medida que o tamanho do bloco aumenta. De 512K a 1M, o servidor mantém um consistente de 312 a 314 GB/s, o que é uma forte indicação de quão bem o sistema pode agregar todas as 24 pistas Gen5 de 4x em largura de banda de leitura sustentada sem gargalos de estágio do controlador.
As gravações sequenciais seguem uma curva diferente, mas permanecem firmemente na faixa esperada. Começando em 149 GB/s, os resultados sobem pelos meados dos anos 100 e atingem 182 GB/s a 1 milhão. Isso se alinha com o comportamento de gravação dos SSDs Micron 9550 PRO e a sobrecarga inerente às gravações NVMe de alta paralelismo em tantos dispositivos independentes.
O desempenho de leitura aleatória é outro destaque. O sistema atinge velocidades de quase 300 GB/s nos menores tamanhos de bloco, cai ligeiramente na faixa intermediária e, em seguida, recupera-se para os 200s superiores e 300s inferiores em tamanhos de bloco maiores. Em 1M, as leituras aleatórias atingem um máximo de 318 GB/s, demonstrando a capacidade da plataforma de distribuir operações mistas uniformemente por todas as 24 unidades.
As gravações aleatórias vêm em uma taxa menor, o que é típico para metadados dispersos e tarefas de alocação de gravação em um amplo conjunto NVMe. Os resultados permanecem na faixa de 140 a 160 GB/s durante a maior parte do teste e diminuem para pouco menos de 100 GB/s em 1 M.
FIO – Local – IOPS
Ao examinar o lado IOPS, o R7725xd demonstra um desempenho robusto de blocos pequenos, com taxas de solicitação atingindo bem mais de dezenas de milhões antes que tamanhos de bloco maiores mudem a carga de trabalho para um perfil impulsionado pela largura de banda.
Em 4K, as leituras atingem 44,9 milhões de IOPS e as gravações chegam a 36,3 milhões. As leituras aleatórias atingem níveis ainda mais altos em 71,4 milhões de IOPS, demonstrando a capacidade do sistema de distribuir eficientemente cargas de trabalho de alta fila por todas as unidades. Esses valores diminuem naturalmente à medida que o tamanho do bloco aumenta, mas a progressão permanece consistente nas faixas de 8K, 16K e 32K.
Por blocos de 16K e 32K, as leituras se estabilizam em 17,4 milhões e 8,35 milhões de IOPS, com leituras aleatórias correspondendo de perto em 16,5 milhões e 8,15 milhões. As gravações seguem o padrão esperado, rastreando mais baixo, mas permanecendo estáveis em padrões de acesso sequencial e aleatório.
À medida que avançamos para 64K e acima, o teste muda de IOPS puro para um cenário mais limitado pela largura de banda. Os IOPS caem para a faixa de poucos milhões e, eventualmente, para centenas de milhares. Em um tamanho de bloco de 1M, os IOPS de leitura ficam em torno de 300K, as gravações em cerca de 174K, e as operações aleatórias terminam na mesma vizinhança.
No geral, os resultados de IOPS locais mostram claramente a capacidade do sistema de sustentar cargas de trabalho de profundidade de fila muito altas em blocos pequenos, com escalonamento previsível à medida que as transferências crescem e a largura de banda se torna o fator dominante.
PEAK:AIO: Por que o Dell PowerEdge R7725xd se Adapta a Esta Carga de Trabalho
O PEAK:AIO é projetado para ambientes que exigem acesso extremamente rápido e de baixa latência a grandes conjuntos de dados, tipicamente para treinamento de IA, pipelines de inferência, modelagem financeira e análise em tempo real. A plataforma prospera em armazenamento NVMe denso, largura de banda PCIe balanceada e latência previsível em escala. Para atender a esses requisitos, o hardware subjacente deve entregar taxa de transferência sustentada, mantendo desempenho consistente e repetível sob cargas pesadas concorrentes.
É aqui que o Dell PowerEdge R7725xd se alinha naturalmente com o PEAK:AIO. A arquitetura do sistema é projetada para maximizar os recursos PCIe Gen5, expondo toda a largura de banda de suas 24 baias NVMe U.2 montadas na frente diretamente às CPUs, sem depender de controladores RAID tradicionais. Esse layout dá ao PEAK:AIO o paralelismo e o perfil de latência que ele espera de pipelines de dados modernos baseados em NVMe. A configuração do sistema dividiu os SSDs NVMe em dois grupos RAID0.
No cenário testado, usamos dois sistemas cliente conectados ao R7725xd, cada um equipado com NICs Broadcom BCM57608 2x 200G. Isso criou um total de quatro uplinks de 200G alimentando cada cliente, empurrando o R7725xd para uma configuração realista de alto desempenho que espelha o que as implantações PEAK:AIO veem em produção. Esse nível de largura de banda de rede nos deu a margem para estressar totalmente o subsistema NVMe, a topologia PCIe e as interconexões da CPU sem gargalos na camada NIC.
O resultado é uma plataforma que se alinha efetivamente com as cargas de trabalho PEAK:AIO. O R7725xd fornece capacidade NVMe densa, taxa de transferência PCIe Gen5, processadores duplos AMD EPYC 9005 para paralelismo e a capacidade de rede para sustentar ingestão de dados multi-cliente em centenas de gigabits por cliente. Todas essas características são fundamentais para atingir as expectativas de desempenho do PEAK:AIO.
PEAK:AIO – NVMe-oF RDMA – Largura de Banda
Examinando os resultados de largura de banda NVMe-oF RDMA no PowerEdge R7725xd com PEAK:AIO, a tendência geral é precisamente o que esperamos de um sistema com tanta largura de banda PCIe e de rede. À medida que o tamanho do bloco aumenta, a taxa de transferência sobe rapidamente até se estabilizar perto do limite prático da plataforma.
Nos tamanhos de bloco pequenos, o desempenho começa na faixa de 20 GB/s para leituras e gravações, o que é normal porque transferências de 4K e 8K exigem mais do caminho IOPS do que do caminho de taxa de transferência. Assim que entramos nos blocos de 16K e 32K, o pipeline se abre. As leituras saltam para cerca de 154 GB/s em 32K e continuam subindo para a faixa de 160 GB/s, que é exatamente onde esperaríamos que uma configuração de cliente duplo sobre quatro links de 200 Gb/s se estabelecesse.
O desempenho de leitura aleatória espelha o sequencial quase perfeitamente. O PEAK:AIO faz um bom trabalho em manter as filas de comando alimentadas, então a largura de banda de leitura aleatória essencialmente rastreia a largura de banda de leitura sequencial até o fim, estabilizando-se em aproximadamente 159 a 161 GB/s de 32K a 1M. Isso indica que a pilha de armazenamento não está gargalando sob padrões de acesso mistos, e a topologia PCIe do R7725xd está distribuindo a carga uniformemente pelas 24 unidades NVMe Gen5.
O desempenho de gravação segue uma curva semelhante, embora atinja um pico ligeiramente menor do que as leituras. As gravações sequenciais permanecem na faixa de 140 a 148 GB/s através dos blocos de tamanho médio, diminuindo para aproximadamente 117 GB/s em 128K, mas se recuperando à medida que o tamanho do bloco aumenta. As gravações aleatórias se comportam de forma diferente e se estabilizam mais perto de 110-117 GB/s, o que é normal para cargas de trabalho de fila mista que introduzem sobrecarga adicional.
O principal ponto a ser observado nesta seção é que o R7725xd não tem problemas em sustentar uma taxa de transferência extremamente alta via NVMe-oF, mesmo com vários clientes impulsionando o sistema aos seus limites. Uma vez que os tamanhos de bloco atingem 32K ou mais, o servidor satura consistentemente sua largura de banda de rede e armazenamento disponível. Este é exatamente o tipo de desempenho que o PEAK:AIO foi projetado para extrair, tornando esses resultados uma forte validação da capacidade da plataforma de escalar em condições do mundo real.
PEAK AIO – NVMe-oF RDMA IOPS
No lado IOPS, o PowerEdge R7725xd exibe um forte desempenho de blocos pequenos, embora inicialmente tenhamos observado números abaixo do esperado; espera-se que esse problema seja resolvido com suporte aprimorado de driver de rede no futuro. Mesmo com isso em jogo, a tendência geral de escalonamento parece exatamente como o NVMe-oF RDMA se comporta tipicamente quando o tamanho do bloco aumenta.
No menor tamanho de bloco, o sistema pode entregar mais de 6 milhões de IOPS em cargas de trabalho sequenciais e aleatórias. Leitura, gravação, leitura aleatória e gravação aleatória estão aproximadamente na mesma faixa em 4K e 8K, indicando que os clientes frontais, a infraestrutura PCIe e as próprias unidades NVMe não têm problemas em acompanhar a taxa de solicitação.
À medida que os tamanhos de bloco crescem, a queda esperada em IOPS começa. Em 32K, as leituras ficam em torno de 4,7 milhões de IOPS, enquanto as gravações ficam ligeiramente atrás em cerca de 4,4 milhões. As gravações aleatórias sofrem o maior impacto aqui, caindo para aproximadamente 3,3 milhões de IOPS, o que se alinha com a sobrecarga adicional de fila e CPU introduzida por padrões de acesso misto.
Avançando para os blocos grandes, os IOPS continuam a diminuir de forma previsível e linear. Quando chegamos a transferências de 256K e 512K, a taxa de transferência se torna a métrica dominante, e os IOPS caem naturalmente para centenas de milhares. Em um tamanho de bloco de 1M, todas as cargas de trabalho convergem para 140K-153K IOPS, consistente com os números de largura de banda que vimos na seção anterior.
Desempenho do GPUDirect Storage
Um dos testes que realizamos no R7725xd foi o teste Magnum IO GPUDirect Storage (GDS). GDS é um recurso desenvolvido pela NVIDIA que permite que as GPUs ignorem a CPU ao acessar dados armazenados em unidades NVMe ou outros dispositivos de armazenamento de alta velocidade. Em vez de rotear dados através da CPU e da memória do sistema, o GDS permite a comunicação direta entre a GPU e o dispositivo de armazenamento, reduzindo significativamente a latência e melhorando a taxa de transferência de dados.
Como Funciona o GPUDirect Storage
Tradicionalmente, quando uma GPU processa dados armazenados em uma unidade NVMe, os dados devem primeiro passar pela CPU e pela memória do sistema antes de chegar à GPU. Esse processo introduz gargalos, pois a CPU se torna um intermediário, adicionando latência e consumindo recursos valiosos do sistema. O GPUDirect Storage elimina essa ineficiência, permitindo que a GPU acesse dados diretamente do dispositivo de armazenamento via barramento PCIe. Esse caminho direto reduz a sobrecarga de movimentação de dados, permitindo transferências de dados mais rápidas e eficientes.
Cargas de trabalho de IA, especialmente aquelas que envolvem aprendizado profundo, são altamente intensivas em dados. O treinamento de grandes redes neurais requer o processamento de terabytes de dados, e qualquer atraso na transferência de dados pode levar a GPUs subutilizadas e tempos de treinamento mais longos. O GPUDirect Storage aborda esse desafio garantindo que os dados sejam entregues à GPU o mais rápido possível, minimizando o tempo ocioso e maximizando a eficiência computacional.
Além disso, o GDS é particularmente benéfico para cargas de trabalho que envolvem streaming de grandes conjuntos de dados, como processamento de vídeo, processamento de linguagem natural ou inferência em tempo real. Ao reduzir a dependência da CPU, o GDS acelera a movimentação de dados e libera recursos da CPU para outras tarefas, aumentando ainda mais o desempenho geral do sistema.
Além da largura de banda bruta, o GPUDirect com NVMe-oF (TCP/RDMA) também oferece E/S de latência ultrabaixa. Isso garante que as GPUs nunca fiquem sem dados, tornando o sistema ideal para inferência de IA em tempo real, pipelines de análise e reprodução de vídeo.
GDSIO Leitura Sequencial
Ao examinar o PEAK:AIO com um cliente usando GDSIO, a taxa de transferência de leitura exibe um padrão de escalonamento claro à medida que o tamanho do bloco e a contagem de threads aumentam. Este único cliente estava conectado via dois links de 400G, limitando seu potencial total a 90 GB/s.
Nos menores tamanhos de bloco e baixas contagens de threads, o desempenho é modesto, com leituras de 4K começando em torno de 189 MiB/s com um único thread. Assim que aumentamos o paralelismo de threads, o sistema responde imediatamente, empurrando 691 MiB/s com quatro threads e entrando na faixa de múltiplos GiB/s à medida que avançamos para blocos maiores.
Os tamanhos de bloco intermediários mostram a maior sensibilidade à contagem de threads. Em 32K, a taxa de transferência cresce de 1,3 GiB/s com um único thread para quase 20 GiB/s com 64 threads, com apenas uma leve diminuição além disso. Um padrão semelhante aparece em 64K e 128K, onde o sistema transita de baixos GiB/s de um dígito com baixo paralelismo para mais de 30 GiB/s à medida que a carga de trabalho escala.
Assim que atingimos os tamanhos de bloco maiores, a taxa de transferência começa a se estabilizar à medida que o sistema se aproxima de seu teto de desempenho para um único cliente. Em 1 MiB, o desempenho sobe de 11 GiB/s com um thread para cerca de 88 GiB/s com altas contagens de threads. As transferências de 5 MiB e 10 MiB mostram o mesmo platô, atingindo cerca de 89–90 GiB/s, independentemente de o teste estar sendo executado com 64, 128 ou 256 threads.
GDSIO Gravação Sequencial
No lado da gravação, o comportamento de escalonamento segue um padrão semelhante ao das leituras, mas com desempenho ligeiramente inferior na maioria dos tamanhos de bloco, o que é esperado para cargas de trabalho de gravação sequencial. Nos menores tamanhos de bloco, a taxa de transferência começa em 165 MiB/s para um único thread em 4K e aumenta constantemente à medida que o paralelismo aumenta. Com quatro threads, isso cresce para pouco mais de 619 MiB/s antes de ultrapassar 1 GiB/s com oito threads.
Os tamanhos de bloco intermediários mostram ganhos mais fortes à medida que as contagens de threads aumentam. Em 32K, a taxa de transferência começa em pouco menos de 1 GiB/s e escala para mais de 21 GiB/s em níveis de thread mais altos. As faixas de 64K e 128K continuam a tendência, movendo-se de baixos GiB/s de um dígito para meados dos 30 GiB/s e 50 GiB/s à medida que a carga de trabalho se torna mais paralela.
As transferências maiores são quando o sistema se estabiliza em seu teto natural de taxa de transferência de gravação. Em 1 MiB, o desempenho sobe de 13,3 GiB/s com um único thread para pouco menos de 90 GiB/s com altas contagens de threads. Os testes de 5 MiB e 10 MiB seguem um padrão semelhante, com resultados atingindo um pico de cerca de 90 GiB/s, independentemente de o sistema estar rodando com 64, 128 ou 256 threads.
Redefinindo o Desempenho na Era Gen5
Sandy Yang/Diretor de Estratégia Global
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Foco de Negócios:
Distribuição de Produtos TIC/Integração de Sistemas e Serviços/Soluções de Infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parceria com as principais marcas globais para entregar produtos confiáveis e serviços profissionais.
"Usando a Tecnologia para Construir um Mundo Inteligente" Seu Provedor Confiável de Serviços de Produtos TIC!
Pessoa de Contato: Ms. Sandy Yang
Telefone: 13426366826



