A AMD anunciou os resultados do benchmark MLPerf Inference v6.0, posicionando a GPU Instinct MI355X como uma plataforma de inferência altamente escalável capaz de suportar um único nó, múltiplos nós,e implantações heterogéneasAlém de ganhos de desempenho incrementais, a apresentação introduz novas cargas de trabalho, demonstra um rendimento em escala de cluster superior a 1 milhão de tokens por segundo,e valida a reprodutibilidade consistente do desempenho em um ecossistema de parceiros em expansão.
CDNA 4 Arquitetura de metas de alta capacidade de inferência
O Instinct MI355X é construído sobre a arquitetura CDNA 4 da AMD, aproveitando um projeto de chiplet de duplo processo da TSMC: as matrizes de computação (XCDs) usam um nó de 3 nm, enquanto as matrizes de E / S utilizam a tecnologia FinFET de 6 nm.O pacote multichiplet integra 185 mil milhões de transistores e suporta os formatos de dados FP4 e FP6Cada GPU está equipada com até 288 GB de memória HBM3E (que fornece 8 TB/sec de largura de banda de memória), permitindo o suporte a modelos de até 520 bilhões de parâmetros em um único dispositivo.A AMD enfatiza que esta combinação de densidade de computação e capacidade de memória elimina a necessidade de particionamento excessivo de modelos, uma vantagem fundamental para cargas de trabalho de inferência em larga escala.
Disponível em configurações UBB8, a plataforma oferece opções de resfriamento a ar e resfriamento direto a líquido, alinhando-se com diversos requisitos de implantação de data centers.O MI355X possui um TBP de 1400W (Thermal Design Power) com resfriamento a líquido, oferecendo maior desempenho do que o seu homólogo arrefecido a ar, o MI350X.
A transferência de multi-nodos ultrapassa 1 milhão de tokens por segundo
Uma conquista notável da rodada MLPerf v6.0 é a capacidade de cluster da AMD que excede 1 milhão de tokens por segundo.AMD atingiu este marco com Llama 2 70B em ambos os cenários Server e Offline, bem como com o GPT-OSS-120B no modo Offline.
AMD MLPerf 1M tokens por segundo gráfico
Esses resultados refletem uma mudança crescente da indústria em direção à avaliação do desempenho de inferência no nível do cluster, em vez de por acelerador individual.O rendimento agregado e o tempo de serviço tornaram-se métricas primárias para determinar a prontidão de produção nas implantações de IA em larga escala.
A AMD também demonstrou uma eficiência de escala excepcional. para Llama 2 70B, uma configuração de 11 nós, 87 GPU alcançou mais de 1 milhão de tokens por segundo em cenários Offline, Server e Interativo,com uma eficiência de escalação que varia de 93% a 98%Para o GPT-OSS-120B, um cluster de 12 nós, 94 GPU, forneceu um desempenho semelhante com mais de 90% de eficiência de escalação, provando desempenho efetivamente à medida que as implantações se expandem para além de um único sistema.
Os ganhos geracionais e o desempenho competitivo de um único nó
A AMD relatou melhorias geracionais significativas, com o Instinct MI355X oferecendo 3,1 vezes melhor desempenho no Llama 2 70B Server em comparação com a geração anterior do Instinct MI325X, atingindo 100,282 fichas por segundoEsta melhoria decorre de ambos os aprimoramentos de arquitetura CDNA 4 e otimizações de software ROCm. pontuações Offline melhorou em 4,4x e pontuações do servidor em 4,8x em comparação com rodadas anteriores MLPerf,principalmente impulsionado pela quantização FP4 uma característica chave do MI355X que desbloqueia maior rendimento para cargas de trabalho de IA.
Resultados da AMD Inference versus gráfico da geração anterior
Em comparações de nó único com plataformas da NVIDIA, o MI355X demonstrou forte competitividade.alcançado quase paridade no desempenho do servidorEm relação ao NVIDIA B300, o MI355X entregou 92% do desempenho Offline, 93% do desempenho do Server e o superou em 4% no modo Interativo.O MI355X também oferece uma eficiência superior em termos de custos, entregando 40% mais tokens por dólar em comparação com o NVIDIA B200.
Atividade do modelo pela primeira vez amplia a cobertura
MLPerf Inference v6.0 introduziu várias novas cargas de trabalho, e a AMD usou esta rodada para mostrar a habilitação de modelos rápidos.alcançar resultados competitivos em relação aos sistemas NVIDIA em cenários Offline e Server.
A AMD também apresentou resultados para a geração de texto para vídeo Wan-2.2, marcando sua entrada na inferência de vídeo multimodal e generativa.Os resultados foram iguais aos das plataformas existentesO ajuste pós-envio melhorou ainda mais o desempenho, destacando espaço para otimização à medida que a pilha de software amadurece.
Essas adições ressaltam o compromisso da AMD em se expandir para além dos benchmarks tradicionais de LLM para apoiar as cargas de trabalho emergentes de IA em diversos casos de uso.
O software ROCm permite escalação e inferência heterogênea
A AMD atribui grande parte do desempenho e escalabilidade do MI355X à sua pilha de software ROCm.e suporte para a distribuição dinâmica da carga de trabalho em ambientes heterogéneos.
AMD MLPerf resultados de inferência instinto mI355x gráfico
Uma apresentação heterogênea de marco desenvolvida pela Dell e pela MangoBoost utilizou três modelos de GPU AMD Instinct: MI300X, MI325X e MI355X.521 tokens por segundo no Llama 2 70B Server e 151A plataforma MI355X estava localizada no laboratório da Dell, nos EUA.Enquanto os sistemas MI300X e MI325X estavam na Coreia, demonstrando a capacidade de coordenar sistemas distribuídos em locais geográficos..
Crescimento e reprodutibilidade do ecossistema
O ecossistema de parceiros da AMD expandiu-se significativamente nesta rodada MLPerf, com nove empresas enviando resultados em várias gerações de GPU Instinct.Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro e Red Hat, refletindo a ampla adoção da indústria das soluções de inferência da AMD.
As apresentações dos parceiros estão estreitamente alinhadas com os resultados internos da AMD, normalmente dentro de 4% e, em alguns casos, dentro de 1%.Esta consistência confirma que o desempenho do MI355X é reproduzível em plataformas OEM e cloud, reduzindo o risco de implantação e aumentando a confiança nos resultados de desempenho no mundo real.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang, Diretora Global de Estratégia
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Site: www.qianxingdata.com/www.storagesserver.com
Foco em Negócios:
Distribuição de produtos TIC/Integração de sistemas e serviços/Soluções de infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parcerias com as principais marcas globais para fornecer produtos confiáveis e serviços profissionais.
¢Utilizando a tecnologia para construir um mundo inteligente ¢O seu prestador de serviços de produtos TIC de confiança!
Sandy Yang, Diretora Global de Estratégia
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Site: www.qianxingdata.com/www.storagesserver.com
Foco em Negócios:
Distribuição de produtos TIC/Integração de sistemas e serviços/Soluções de infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parcerias com as principais marcas globais para fornecer produtos confiáveis e serviços profissionais.
¢Utilizando a tecnologia para construir um mundo inteligente ¢O seu prestador de serviços de produtos TIC de confiança!



