Casa Casos

Escalando Checkpoints de IA: O Impacto de SSDs de Alta Capacidade no Treinamento de Modelos

Todos os Produtos

Servidor do armazenamento de cremalheira
(179)

Servidor da fusão de Huawei
(31)

Dell Poweredge Server
(59)

Servidor de H3C
(31)

Interruptores do Datacom
(96)

Dispositivo de WLAN
(21)

Router sem fio esperto
(17)

Disco rígido HDD
(78)

SSD interno do disco rígido
(16)

Cartão gráfico de Geforce
(27)

Processador do processador central de INTEL
(20)

Memória RAM do servidor
(6)

Servidor recondicionado do armazenamento
(6)

Módulo do transceptor de SFP
(4)

Interruptor de canal da fibra
(125)

Certificado

China Beijing Qianxing Jietong Technology Co., Ltd. Certificações

Revisões do cliente

A equipe de vendas da tecnologia Co. de Qianxing Jietong do Pequim, Ltd é muito profissional e paciente. Podem fornecer cotações rapidamente. A qualidade e o empacotamento dos produtos são igualmente muito bons. Nossa cooperação é muito lisa.

—— LLC do》 de Festfing DV do 《

Quando eu procurava o processador central de intel e o SSD de Toshiba urgentemente, Sandy da tecnologia Co. de Qianxing Jietong do Pequim, Ltd deu-me muita ajuda e obteve-me os produtos que eu precisei rapidamente. Eu aprecio-a realmente.

—— Kitty Yen

Sandy da tecnologia Co. de Qianxing Jietong do Pequim, Ltd é um vendedor muito cuidadoso, que possa me lembrar de erros da configuração a tempo quando eu compro um servidor. Os coordenadores são igualmente muito profissionais e podem rapidamente terminar o processo de teste.

—— Strelkin Mikhail Vladimirovich

Estamos muito satisfeitos com a nossa experiência de trabalho com a Beijing Qianxing Jietong. A qualidade do produto é excelente e a entrega é sempre pontual. A equipe de vendas é profissional, paciente e muito prestativa com todas as nossas perguntas. Agradecemos muito o seu apoio e esperamos uma parceria de longo prazo. Altamente recomendado!

—— Ahmad Navid

Qualidade: Ótima experiência com o meu fornecedor. O MikroTik RB3011 já estava usado, mas estava em muito bom estado e tudo funcionava perfeitamente.E todas as minhas preocupações foram resolvidas rapidamente.Fornecedor muito fiável, altamente recomendado.

—— Geran Colesio

Estou Chat Online Agora

Escalando Checkpoints de IA: O Impacto de SSDs de Alta Capacidade no Treinamento de Modelos

March 13, 2026

O checkpointing é essencial para o treinamento de modelos de IA, pois garante resiliência, eficiência operacional e a capacidade de retomar ou ajustar o treinamento a partir de estados salvos.As exigências das cargas de trabalho modernas de IA, caracterizadas por modelos cada vez mais complexos e conjuntos de dados de formação expansivos, estão a empurrar os sistemas de armazenamento para os seus limites absolutos..

O papel dos pontos de controlo nos fluxos de trabalho da IA

A verificação de pontos de verificação no treinamento da IA é um processo vital que envolve o salvamento periódico do estado completo de um modelo durante o seu ciclo de treinamento.estados do optimizador, calendários de taxa de aprendizagem e metadados de formação.O controlo dos pontos garante a continuidade da formação e permite a recuperação em caso de interrupções.

Os pontos de verificação são tipicamente capturados em intervalos baseados em iteração (por exemplo, a cada mil passos de treinamento). Modern large language model (LLM) training— which can span weeks or even months and consume massive computational resources—relies heavily on these checkpoints as a safety net against potential failuresPor exemplo, o treinamento de um modelo de classe GPT-4 pode gerar pontos de verificação que variam de várias centenas de gigabytes a vários terabytes, dependendo do tamanho do modelo e da configuração de treinamento.

Processo de formação gerado pelo DALL-E

O objectivo primário do checkpoint vai além da mera funcionalidade de backup.Permitir que o treinamento seja retomado a partir do último estado salvo, em vez de ser reiniciado do zero em caso de falhas no sistemaAlém disso, os pontos de verificação são inestimáveis para a análise de modelos:permitem aos investigadores examinar a evolução do modelo em diferentes fases de formação e, eventualmente, reverter para os estados anteriores se for detectada uma degradação do desempenho.

A partir de uma perspectiva de armazenamento, os padrões de gravação durante o checkpointing são particularmente dignos de nota.Isto cria um perfil I/O distinto: períodos de atividade de armazenamento relativamente baixa durante os cálculos de treinamento, seguidos por operações de gravação intensas e de alta largura de banda durante o checkpointing.Estas operações de gravação são tipicamente sequenciais e podem beneficiar significativamente de sistemas de armazenamento otimizados para gravações sequenciais de alta largura de banda.

Diferentes estratégias de paralelismo no treinamento distribuído podem ter um impacto substancial no comportamento de ponto de verificação.Estas estratégias influenciam quando ocorre o checkpointing durante o treinamento e que parte do modelo é salvadaEm configurações de treinamento distribuídas modernas, várias GPUs podem escrever simultaneamente diferentes partes da mesma camada, criando padrões de E/S complexos.Esta capacidade de gravação paralela é fundamental para a eficiência, mas requer uma coordenação cuidadosa e sistemas de armazenamento robustos que podem lidar com operações de gravação simultâneas, mantendo a consistência dos dadosQualquer gargalo neste processo pode levar a atrasos generalizados na formação.

O controlo lento pode criar estrangulamentos significativos na formação, uma vez que todo o processo de formação deve ser interrompido enquanto o controlo é gravado no armazenamento.se o controlo levar 30 minutos a cada poucas horas, isto pode resultar em várias horas de inatividade acumulada durante todo o período de formação.Isto tem um impacto direto na eficiência da formação e aumenta os custos operacionais, especialmente em ambientes de nuvem onde os recursos de computação são cobrados por hora..

A verificação mais rápida também permite que as equipes criem pontos de verificação com mais frequência, reduzindo a perda máxima de dados em caso de falhas.Isto permite abordagens de formação mais agressivas e melhores ciclos de iteração experimentalAlém disso, os tempos rápidos de carregamento dos pontos de controlo facilitam uma experimentação mais rápida com diferentes configurações de formação e arquiteturas de modelos,Como os pesquisadores podem mais facilmente restaurar de estados anteriores para testar abordagens alternativas.

A capacidade do sistema de armazenagem para lidar eficazmente com estas operações de pontos de controlo torna-se um fator fundamental na infra-estrutura global de formação. High-performance storage solutions that can manage both the burst write patterns of checkpointing and the sustained read/write operations of training can significantly reduce the total time and cost of training large language modelsAssim, the storage subsystem’s performance characteristics—particularly its ability to handle large sequential writes and maintain consistent high bandwidth—are crucial considerations when designing LLM training infrastructure.

Para este relatório, procuramos avaliar o desempenho do SSD para o checkpointing da IA, avaliando os benefícios dos SSDs mais recentes da Gen5 quando a velocidade do checkpoint é crítica,O sistema de controlo de dados é um sistema de controlo de dados que permite a análise de dados e a análise de dados..

Desempenho dos pontos de verificação ¢ Comparação com DLIO

Para avaliar o desempenho do SSD Solidigm no mundo real em ambientes de treinamento de IA, usamos a ferramenta de referência Data and Learning Input/Output (DLIO).DLIO é projetado especificamente para testar padrões de E/S em cargas de trabalho de aprendizagem profunda, fornecendo insights sobre como os sistemas de armazenamento lidam com os desafios de controlo, ingestão de dados e formação de modelos.

Usando o DLIO, procuramos medir a capacidade de transferência, latência e confiabilidade da unidade sob cenários de checkpoint intensivos.dados iniciais de desempenho indicam que a versão Solidigm D5-P5336 122TB oferece um perfil de desempenho semelhanteTambém incluímos resultados de um D7-PS1010 baseado em TLC para demonstrar as vantagens do PCIe Gen5 neste teste.Um focado no mais rápido possível tempo de ponto de controlo, e o outro sobre o armazenamento do número máximo de pontos de verificação em um único SSD.

A plataforma escolhida para este trabalho foi o nosso Dell PowerEdge R760 rodando Ubuntu 22.04.02 LTS. Usamos a versão 2.0 do benchmark DLIO a partir da versão de 13 de agosto de 2024.

2 x Intel Xeon Gold 6430 (32-Core, 2.1GHz)
16 x 64 GB DDR5-4400
SSD Dell BOSS de 480 GB
Cabos de série Gen5 JBOF
- 7.68TB Solidigm D7-PS1010
- 61.44TB Solidigm D5-P5336

Para garantir que nosso benchmarking reflete cenários do mundo real, baseamos nossos testes na arquitetura do modelo LLAMA 3.1 405B, implementando checkpointing através de torch.save() para capturar parâmetros do modelo,estados do optimizadorA nossa configuração simulou um sistema de 8 GPUs, implementando uma estratégia de paralelismo híbrido com tensor paralelo de 4 vias e processamento paralelo de pipeline de 2 vias distribuídos por 8 GPUs..Esta configuração resultou em tamanhos de pontos de verificação de 1.636 GB, representativos dos requisitos modernos de treinamento de grandes modelos de linguagem.

O nosso processo de teste para a carga de trabalho do ponto de controlo DLIO consistiu em encher cada unidade a um nível de utilização semelhante.com um total de 54 TBO menor D7-PS1010 de 7,68 TB cabe confortavelmente em três intervalos de ponto de controlo, com uma área total de 4,9 TB. Um ponto de controlo adicional pode caber no D7-PS1010,Embora tenha trazido a sua utilização ligeiramente superior ao que queríamos.

A carga de trabalho do ponto de verificação DLIO produziu resultados interessantes quando comparamos o 61.44TB D5-P5536 baseado no Gen4 QLC com o 7.68TB D7-PS1010 baseado no Gen5 TLC.Nós testemunhamos uma diferença maior no desempenho entre os dois modelos SSDO mais rápido PS1010 Gen5 completou cada ponto de controlo em média em 464 segundos, em comparação com 623 segundos do Gen4 P5336.A diferença foi reduzida para 579 e 587 segundos para o PS1010 e 676 e 680 segundos para o P5336.

Para as empresas que desejam ter a menor lacuna possível nos intervalos de verificação, o PS1010 baseado no TLC oferece uma vantagem no tempo de conclusão mais rápido.Se o objectivo for manter muitos pontos de controlo de forma rentávelMedimos uma diferença de menos de 17% no tempo médio de checkpoint entre ambas as unidades durante as passagens dois e três.

GPUDirect Largura de banda de armazenamento

Enquanto o DLIO mostra o desempenho do flash em um fluxo de trabalho de IA, a carga de trabalho é inteiramente baseada em gravação até que um ponto de verificação seja restaurado.Para pintar uma imagem mais completa do Solidigm D7-PS1010 e D5-P5336 em cargas de trabalho de IA, incluímos medições de largura de banda de leitura usando GDSIO.

Como funciona o GPU Direct Storage

Tradicionalmente, quando uma GPU processa dados armazenados em uma unidade NVMe, os dados devem primeiro viajar através da CPU e da memória do sistema antes de chegar à GPU.Como a CPU se torna um intermediárioA GPU Direct Storage elimina essa ineficiência, permitindo que a GPU acesse dados diretamente do dispositivo de armazenamento através do bus PCIe.Este caminho direto reduz a sobrecarga associada ao movimento de dados, permitindo transferências de dados mais rápidas e eficientes.

As cargas de trabalho de IA, especialmente aquelas que envolvem aprendizagem profunda, são altamente intensivas em dados.e qualquer atraso na transferência de dados pode levar a GPUs subutilizadas e mais tempo de treinamentoO GPU Direct Storage resolve este desafio garantindo que os dados sejam entregues à GPU o mais rapidamente possível, minimizando o tempo de inatividade e maximizando a eficiência computacional.

Como o teste DLIO, o objetivo é entender melhor e caracterizar as diferenças entre SSDs de alta velocidade da Geração 5 e unidades QLC de alta capacidade.e cada unidade oferece vantagens distintas, dependendo da necessidade.

Matriz de configuração de teste

Testamos sistematicamente todas as combinações dos seguintes parâmetros com um NVIDIA L4 na nossa plataforma de teste:

Tamanhos de blocos: 1M, 128K, 64K, 16K, 8K
Número de fios: 128, 64, 32, 16, 8, 4, 1
Número de empregos: 16
Tamanhos dos lotes: 16

O nosso primeiro olhar foi para o D5-P5336 baseado em QLC, que atingiu o topo em 4,2 GiB/s usando um tamanho de transferência de 1M a uma profundidade de IO de 128.Passando de 8K para 1MA vantagem do aumento da profundidade do IO começou a diminuir em 32, quando as cargas de trabalho começaram a nivelar.

Em seguida, olhamos para o Gen5 PS-1010, que pode escalar até 6,2 GiB/s em um tamanho de bloco de 1M e uma profundidade de IO de 128.com cargas de trabalho específicas que demonstram uma elevação substancialUma área notável de melhoria veio no tamanho do bloco de 128K, onde, em uma profundidade de IO de 64 e 128, o PS1010 ofereceu o dobro da largura de banda de leitura do P5336.

É importante notar que ambos os SSDs foram testados usando o NVIDIA L4.GPUs NVIDIA de modelos superiores como o H100 demonstraram um desempenho mais alto com o D7-PS1010Para alguns clientes, a velocidade é o último fator decisivo, enquanto outros priorizam a densidade global.Solidigmafornece soluções paraambos, com o seuQLC e TLC SSD ofertas.

Conclusão

À medida que a escala e a complexidade do treinamento de IA continuam a aumentar, a infraestrutura de armazenamento subjacente não só deve acompanhar o ritmo, mas também definir o ritmo. Our tests with two distinctly different SSDs highlight the importance of aligning storage solutions with specific training priorities—whether that means minimizing checkpoint latency or maximizing checkpoint density for cost-effective scalability.

Na nossa avaliação, testamos o Solidigm D5-P5336 (61.44TB) e o D7-PS1010 (7.68TB) em condições de treinamento de IA realistas,Aproveitamento do benchmark DLIO e de um extenso fluxo de trabalho de verificação de LLM híbrido paraleloCapturamos métricas que refletem o desempenho de gravação de pontos de verificação em várias corridas de teste enquanto as unidades se enchiam,sublinhando as diferenças de desempenho nos tempos de conclusão entre o D5-P5336 baseado no QLC Gen4 e o D7-PS1010 baseado no TLC Gen5.

Enquanto o D7-PS1010 entregou o mais rápido possível checkpoint escreve, o D5-P5336 demonstrou vantagens convincentes de custo-eficácia e capacidade, com apenas um modesto compromisso de desempenho.Examinamos ainda mais GPU Direct Storage (GDS) largura de banda de leitura usando GDSIO com uma GPU NVIDIA L4Nossas descobertas mostraram que o Solidigm D5-P5336 entregou até 4,2 GiB/s de largura de banda de leitura com um tamanho de transferência de 1M, enquanto o D7-PS1010 forneceu um aumento substancial para 6,2 GiB/s.O desempenho seria ainda mais impressionante quando aproveitar uma GPU mais poderosa, como o NVIDIA L40s ou o H100/H200.

Olhando para o futuro, a capacidade sem precedentes do SSD Solidigm D5-P5336 122TB está pronta para remodelar o treinamento e implantação da IA.Estas unidades de alta capacidade liberam novos níveis de eficiência e flexibilidade, permitindo estratégias de treinamento que eram anteriormente inatingíveis. A liderança da Solidigm em soluções SSD de alta capacidade permite que as organizações armazenem mais dados e pontos de verificação em menos unidades,Ao mesmo tempo que ajudam as suas infra-estruturas a resistir à próxima onda de complexidade da IA.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang, Diretora Global de Estratégia
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Site: www.qianxingdata.com/www.storagesserver.com

Foco em Negócios:
Distribuição de produtos TIC/Integração de sistemas e serviços/Soluções de infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parcerias com as principais marcas globais para fornecer produtos confiáveis e serviços profissionais.
¢Utilizando a tecnologia para construir um mundo inteligente ¢O seu prestador de serviços de produtos TIC de confiança!

PREV: O Micron 6550 ION SSD: Performance Gen5, Eficiência Energética e Alta Capacidade em Um Disco

NEXT: Refrigeração Líquida Chega ao Seu Data Center: Dell Tech World Destaca as Opções

Contacto

Beijing Qianxing Jietong Technology Co., Ltd.

Pessoa de Contato: Ms. Sandy Yang

Telefone: 13426366826

Escalando Checkpoints de IA: O Impacto de SSDs de Alta Capacidade no Treinamento de Modelos

Servidor do armazenamento de cremalheira

Servidor da fusão de Huawei

Dell Poweredge Server

Servidor de H3C

Interruptores do Datacom

Dispositivo de WLAN

Router sem fio esperto

Disco rígido HDD

SSD interno do disco rígido

Cartão gráfico de Geforce

Processador do processador central de INTEL

Memória RAM do servidor

Servidor recondicionado do armazenamento

Módulo do transceptor de SFP

Interruptor de canal da fibra

Escalando Checkpoints de IA: O Impacto de SSDs de Alta Capacidade no Treinamento de Modelos

GPUDirect Largura de banda de armazenamento

Como funciona o GPU Direct Storage

Matriz de configuração de teste

Conclusão

Servidor do armazenamento de cremalheira

12 servidor Rackmount da cremalheira de Lenovo ThinkSystem SR630 do servidor das baías 1U

Processador de Intel Xeon E-2378G do servidor do armazenamento de cremalheira de ThinkSystem SR250 V2 4SFF

Servidor da montagem em rack de Inspur NF5180M6 1U do servidor do armazenamento de cremalheira de Intel C621A

Servidor da fusão de Huawei

Servidor 32 DDR4 DIMMs da cremalheira de FusionServer 5288 V6 4U 44 discos rígidos de 3,5 polegadas

Ultra servidor 1288H V5 do armazenamento da rede do servidor 1U da fusão de Huawei do alto densidade

Armazenamento instantâneo híbrido do servidor novo da cremalheira de Gen OceanStor 5310 Huawei