Casa Casos

AMD Instinct MI355X alcança ganhos de MLPerf Inference v6.0 com mais de 1 milhão de tokens por segundo e suporta ROC escalável

Todos os Produtos

Servidor do armazenamento de cremalheira
(179)

Servidor da fusão de Huawei
(31)

Dell Poweredge Server
(59)

Servidor de H3C
(31)

Interruptores do Datacom
(96)

Dispositivo de WLAN
(21)

Router sem fio esperto
(17)

Disco rígido HDD
(78)

SSD interno do disco rígido
(16)

Cartão gráfico de Geforce
(27)

Processador do processador central de INTEL
(20)

Memória RAM do servidor
(6)

Servidor recondicionado do armazenamento
(6)

Módulo do transceptor de SFP
(4)

Interruptor de canal da fibra
(125)

Certificado

China Beijing Qianxing Jietong Technology Co., Ltd. Certificações

Revisões do cliente

A equipe de vendas da tecnologia Co. de Qianxing Jietong do Pequim, Ltd é muito profissional e paciente. Podem fornecer cotações rapidamente. A qualidade e o empacotamento dos produtos são igualmente muito bons. Nossa cooperação é muito lisa.

—— LLC do》 de Festfing DV do 《

Quando eu procurava o processador central de intel e o SSD de Toshiba urgentemente, Sandy da tecnologia Co. de Qianxing Jietong do Pequim, Ltd deu-me muita ajuda e obteve-me os produtos que eu precisei rapidamente. Eu aprecio-a realmente.

—— Kitty Yen

Sandy da tecnologia Co. de Qianxing Jietong do Pequim, Ltd é um vendedor muito cuidadoso, que possa me lembrar de erros da configuração a tempo quando eu compro um servidor. Os coordenadores são igualmente muito profissionais e podem rapidamente terminar o processo de teste.

—— Strelkin Mikhail Vladimirovich

Estamos muito satisfeitos com a nossa experiência de trabalho com a Beijing Qianxing Jietong. A qualidade do produto é excelente e a entrega é sempre pontual. A equipe de vendas é profissional, paciente e muito prestativa com todas as nossas perguntas. Agradecemos muito o seu apoio e esperamos uma parceria de longo prazo. Altamente recomendado!

—— Ahmad Navid

Qualidade: Ótima experiência com o meu fornecedor. O MikroTik RB3011 já estava usado, mas estava em muito bom estado e tudo funcionava perfeitamente.E todas as minhas preocupações foram resolvidas rapidamente.Fornecedor muito fiável, altamente recomendado.

—— Geran Colesio

Estou Chat Online Agora

AMD Instinct MI355X alcança ganhos de MLPerf Inference v6.0 com mais de 1 milhão de tokens por segundo e suporta ROC escalável

April 15, 2026

A AMD anunciou os resultados do benchmark MLPerf Inference v6.0, posicionando a GPU Instinct MI355X como uma plataforma de inferência altamente escalável capaz de suportar um único nó, múltiplos nós,e implantações heterogéneasAlém de ganhos de desempenho incrementais, a apresentação introduz novas cargas de trabalho, demonstra um rendimento em escala de cluster superior a 1 milhão de tokens por segundo,e valida a reprodutibilidade consistente do desempenho em um ecossistema de parceiros em expansão.

CDNA 4 Arquitetura de metas de alta capacidade de inferência

O Instinct MI355X é construído sobre a arquitetura CDNA 4 da AMD, aproveitando um projeto de chiplet de duplo processo da TSMC: as matrizes de computação (XCDs) usam um nó de 3 nm, enquanto as matrizes de E / S utilizam a tecnologia FinFET de 6 nm.O pacote multichiplet integra 185 mil milhões de transistores e suporta os formatos de dados FP4 e FP6Cada GPU está equipada com até 288 GB de memória HBM3E (que fornece 8 TB/sec de largura de banda de memória), permitindo o suporte a modelos de até 520 bilhões de parâmetros em um único dispositivo.A AMD enfatiza que esta combinação de densidade de computação e capacidade de memória elimina a necessidade de particionamento excessivo de modelos, uma vantagem fundamental para cargas de trabalho de inferência em larga escala.

Disponível em configurações UBB8, a plataforma oferece opções de resfriamento a ar e resfriamento direto a líquido, alinhando-se com diversos requisitos de implantação de data centers.O MI355X possui um TBP de 1400W (Thermal Design Power) com resfriamento a líquido, oferecendo maior desempenho do que o seu homólogo arrefecido a ar, o MI350X.

A transferência de multi-nodos ultrapassa 1 milhão de tokens por segundo

Uma conquista notável da rodada MLPerf v6.0 é a capacidade de cluster da AMD que excede 1 milhão de tokens por segundo.AMD atingiu este marco com Llama 2 70B em ambos os cenários Server e Offline, bem como com o GPT-OSS-120B no modo Offline.

AMD MLPerf 1M tokens por segundo gráfico

Esses resultados refletem uma mudança crescente da indústria em direção à avaliação do desempenho de inferência no nível do cluster, em vez de por acelerador individual.O rendimento agregado e o tempo de serviço tornaram-se métricas primárias para determinar a prontidão de produção nas implantações de IA em larga escala.

A AMD também demonstrou uma eficiência de escala excepcional. para Llama 2 70B, uma configuração de 11 nós, 87 GPU alcançou mais de 1 milhão de tokens por segundo em cenários Offline, Server e Interativo,com uma eficiência de escalação que varia de 93% a 98%Para o GPT-OSS-120B, um cluster de 12 nós, 94 GPU, forneceu um desempenho semelhante com mais de 90% de eficiência de escalação, provando desempenho efetivamente à medida que as implantações se expandem para além de um único sistema.

Os ganhos geracionais e o desempenho competitivo de um único nó

A AMD relatou melhorias geracionais significativas, com o Instinct MI355X oferecendo 3,1 vezes melhor desempenho no Llama 2 70B Server em comparação com a geração anterior do Instinct MI325X, atingindo 100,282 fichas por segundoEsta melhoria decorre de ambos os aprimoramentos de arquitetura CDNA 4 e otimizações de software ROCm. pontuações Offline melhorou em 4,4x e pontuações do servidor em 4,8x em comparação com rodadas anteriores MLPerf,principalmente impulsionado pela quantização FP4 uma característica chave do MI355X que desbloqueia maior rendimento para cargas de trabalho de IA.

Resultados da AMD Inference versus gráfico da geração anterior

Em comparações de nó único com plataformas da NVIDIA, o MI355X demonstrou forte competitividade.alcançado quase paridade no desempenho do servidorEm relação ao NVIDIA B300, o MI355X entregou 92% do desempenho Offline, 93% do desempenho do Server e o superou em 4% no modo Interativo.O MI355X também oferece uma eficiência superior em termos de custos, entregando 40% mais tokens por dólar em comparação com o NVIDIA B200.

Atividade do modelo pela primeira vez amplia a cobertura

MLPerf Inference v6.0 introduziu várias novas cargas de trabalho, e a AMD usou esta rodada para mostrar a habilitação de modelos rápidos.alcançar resultados competitivos em relação aos sistemas NVIDIA em cenários Offline e Server.

A AMD também apresentou resultados para a geração de texto para vídeo Wan-2.2, marcando sua entrada na inferência de vídeo multimodal e generativa.Os resultados foram iguais aos das plataformas existentesO ajuste pós-envio melhorou ainda mais o desempenho, destacando espaço para otimização à medida que a pilha de software amadurece.

Essas adições ressaltam o compromisso da AMD em se expandir para além dos benchmarks tradicionais de LLM para apoiar as cargas de trabalho emergentes de IA em diversos casos de uso.

O software ROCm permite escalação e inferência heterogênea

A AMD atribui grande parte do desempenho e escalabilidade do MI355X à sua pilha de software ROCm.e suporte para a distribuição dinâmica da carga de trabalho em ambientes heterogéneos.

AMD MLPerf resultados de inferência instinto mI355x gráfico

Uma apresentação heterogênea de marco desenvolvida pela Dell e pela MangoBoost utilizou três modelos de GPU AMD Instinct: MI300X, MI325X e MI355X.521 tokens por segundo no Llama 2 70B Server e 151A plataforma MI355X estava localizada no laboratório da Dell, nos EUA.Enquanto os sistemas MI300X e MI325X estavam na Coreia, demonstrando a capacidade de coordenar sistemas distribuídos em locais geográficos..

Crescimento e reprodutibilidade do ecossistema

O ecossistema de parceiros da AMD expandiu-se significativamente nesta rodada MLPerf, com nove empresas enviando resultados em várias gerações de GPU Instinct.Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro e Red Hat, refletindo a ampla adoção da indústria das soluções de inferência da AMD.

As apresentações dos parceiros estão estreitamente alinhadas com os resultados internos da AMD, normalmente dentro de 4% e, em alguns casos, dentro de 1%.Esta consistência confirma que o desempenho do MI355X é reproduzível em plataformas OEM e cloud, reduzindo o risco de implantação e aumentando a confiança nos resultados de desempenho no mundo real.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang, Diretora Global de Estratégia
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Site: www.qianxingdata.com/www.storagesserver.com
Foco em Negócios:
Distribuição de produtos TIC/Integração de sistemas e serviços/Soluções de infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parcerias com as principais marcas globais para fornecer produtos confiáveis e serviços profissionais.
¢Utilizando a tecnologia para construir um mundo inteligente ¢O seu prestador de serviços de produtos TIC de confiança!

PREV: VDURA Apresenta RDMA e Camadas Cientes de Contexto para Plataformas de Dados de IA na GTC 2026

NEXT: Supermicro Lança Três Novos Sistemas Edge AI Construídos com AMD EPYC 4005

Contacto

Beijing Qianxing Jietong Technology Co., Ltd.

Pessoa de Contato: Ms. Sandy Yang

Telefone: 13426366826

AMD Instinct MI355X alcança ganhos de MLPerf Inference v6.0 com mais de 1 milhão de tokens por segundo e suporta ROC escalável

Servidor do armazenamento de cremalheira

Servidor da fusão de Huawei

Dell Poweredge Server

Servidor de H3C

Interruptores do Datacom

Dispositivo de WLAN

Router sem fio esperto

Disco rígido HDD

SSD interno do disco rígido

Cartão gráfico de Geforce

Processador do processador central de INTEL

Memória RAM do servidor

Servidor recondicionado do armazenamento

Módulo do transceptor de SFP

Interruptor de canal da fibra

AMD Instinct MI355X alcança ganhos de MLPerf Inference v6.0 com mais de 1 milhão de tokens por segundo e suporta ROC escalável

CDNA 4 Arquitetura de metas de alta capacidade de inferência

A transferência de multi-nodos ultrapassa 1 milhão de tokens por segundo

Os ganhos geracionais e o desempenho competitivo de um único nó

Atividade do modelo pela primeira vez amplia a cobertura

O software ROCm permite escalação e inferência heterogênea

Crescimento e reprodutibilidade do ecossistema

Servidor do armazenamento de cremalheira

12 servidor Rackmount da cremalheira de Lenovo ThinkSystem SR630 do servidor das baías 1U

Processador de Intel Xeon E-2378G do servidor do armazenamento de cremalheira de ThinkSystem SR250 V2 4SFF

Servidor da montagem em rack de Inspur NF5180M6 1U do servidor do armazenamento de cremalheira de Intel C621A

Servidor da fusão de Huawei

Servidor 32 DDR4 DIMMs da cremalheira de FusionServer 5288 V6 4U 44 discos rígidos de 3,5 polegadas

Ultra servidor 1288H V5 do armazenamento da rede do servidor 1U da fusão de Huawei do alto densidade

Armazenamento instantâneo híbrido do servidor novo da cremalheira de Gen OceanStor 5310 Huawei