No Google Cloud Next, o Google revelou seus aceleradores de IA de oitava geração: o TPU v8t “Sunfish” para treinamento e o TPU v8i “Zebrafish” para inferência, junto com a nova estrutura do data center Virgo. Feitos sob medida para a era da IA de agência, esses chips são otimizados para treinamento de modelo de grande mistura de especialistas (MoE) e serviço de token de baixa latência com preços econômicos. Embora compartilhem a mesma plataforma host e estrutura de interconexão, v8t e v8i diferem em memória, SRAM, topologia e especialização de hardware.
Um superpod v8t suporta 9.600 chips com 2 PB HBM e oferece 121 EFLOPS de computação FP4, quase o triplo do desempenho da geração Ironwood anterior. O v8i pode ser dimensionado para 1.152 chips com 288 GB de HBM e 384 MB de SRAM no chip, oferecendo uma relação custo-benefício de inferência 80% melhor do que o Ironwood. A malha Virgo interconecta mais de 134.000 chips v8t, fornecendo largura de banda sem bloqueio de 47 Pb/s com taxa de transferência por acelerador 4x maior e latência 40% menor.
Arquitetura Fundamental TPU vs GPU
TPUs são ASICs personalizados caracterizados por grandes unidades de multiplicação de matrizes (MXUs), SRAM gerenciada por software e compilação antecipada. Ao contrário do agendamento dinâmico de núcleo pequeno da GPU, as TPUs apresentam fluxo de dados determinístico com matrizes sistólicas, eliminando jitter de cache e sobrecarga de agendamento de warp para maior utilização de FLOPS em cargas de trabalho de matriz densa. No entanto, as TPUs lutam com formas dinâmicas, esparsidade irregular e redes gráficas complexas, ao mesmo tempo que oferecem suporte a um ecossistema de software mais restrito, dominado por JAX e XLA.
A diferença estrutural no suporte à dispersão distingue claramente TPUs e GPUs. NVIDIA Tensor Cores suportam nativamente dispersão estruturada 2:4 por meio de compactação em nível de instrução. Em contraste, as matrizes sistólicas da TPU operam em sincronia rígida, tornando o salto zero ineficiente sem travamentos de pipeline ou hardware de descompressão extra. O AWS Trainium2 adota um meio-termo com descompressores esparsos dedicados para reter a taxa de transferência do array.
As TPUs integram SparseCores para lidar com tarefas irregulares de dispersão de coleta para incorporação de tabelas e roteamento MoE. Esses núcleos especializados são excelentes em classificação, permutação e reorganização de dados, cobrindo cargas de trabalho de recomendação e envio de tokens especializados que MXUs padrão não conseguem processar com eficiência.
TPU v8t “Sunfish”: acelerador de treinamento
O chip de treinamento v8t equipa 216 GB de memória HBM3e e 128 MB de SRAM. A precisão nativa do FP4 dobra o rendimento por ciclo, elevando a computação de chip único para 12,6 PFLOPS. Ele mantém uma interconexão torus 3D e largura de banda ICI atualizada de 19,2 Tb/s, ideal para comunicações coletivas baseadas em anel em treinamento em larga escala.
SparseCores herdados otimizam a transmissão irregular de dados entre todos do MoE. Duas atualizações críticas eliminam gargalos de grande escala: TPUDirect RDMA e TPUDirect Storage contornam a CPU do host para permitir acesso direto à memória TPU, proporcionando taxa de transferência de E/S 10x mais rápida. Além disso, o v8t adota CPUs Axion baseadas em Arm do Google como processadores host, isolando o jitter do host e melhorando a estabilidade do pré-processamento para treinamento sincronizado de vários chips.
TPU v8i “Zebrafish”: acelerador de inferência
Construído para cargas de trabalho de inferência vinculadas à largura de banda da memória, o v8i prioriza a geração de tokens de baixa latência. Ele possui 384 MB de SRAM – o triplo do Ironwood – para armazenar cache KV no chip e reduzir leituras repetidas de HBM. Com dois TensorCores e 288 GB HBM3e, ele atinge computação FP4 de 10,1 PFLOPS, sobrepondo tarefas de inferência de lote curto para maior utilização sustentada.
Substituindo SparseCores, o Collectives Acceleration Engine (CAE) dedicado reduz a latência de sincronização no chip em até 5×, otimizando operações coletivas frequentes de pequenos lotes. O v8i abandona o toro 3D para a topologia Boardfly baseada em Dragonfly, reduzindo o máximo de saltos chip a chip de 16 para 7 e diminuindo a latência total do MoE em 50%.
Hierarquia de tecido de Virgem e Júpiter
Virgo atua como estrutura de expansão intra-datacenter, adotando uma arquitetura sem bloqueio de duas camadas para eliminar o excesso de assinaturas para o tráfego de IA leste-oeste. Alimentado por switches ópticos MEMS, ele permite o reencaminhamento de falhas em nível de milissegundos e mantém 97% de bom desempenho para superpods v8t. Combinado com Júpiter – a estrutura de data center cruzado de longa distância do Google – o sistema de interconexão em camadas suporta mais de um milhão de chips TPU em um único cluster lógico com computação total de FP4 de 1,7 ZFLOPS.
Desempenho, TCO e posição de mercado
O alto rendimento e a utilização estável de modelos de FLOPs (MFU) garantem vantagens de custo atraentes às TPUs. Com 40% de MFU, os custos de treinamento de TPU são 62% menores que os do NVIDIA GB300. Na comparação de hardware, o desempenho FP4 denso do v8t fica entre GB200 e GB300, enquanto o Google domina o clustering em grande escala com um pod único de 9.600 chips, excedendo em muito o domínio NVLink de 72 GPUs da NVIDIA.
Olhando para o futuro, Vera Rubin, Rubin Ultra e Kyber da NVIDIA reduzirão a lacuna de desempenho da TPU de 2026 a 2027. Os pontos fracos da TPU incluem HBM menor por chip, ausência de escassez de hardware e compatibilidade limitada do ecossistema. No entanto, o Google mantém pontos fortes em cluster massivo, latência determinística e eficiência de custos para cargas de trabalho do MoE.
O Google está expandindo a infraestrutura de TPU e GPU NVIDIA. A Meta planeja um acordo multibilionário de adoção de TPU a partir de 2027. Como uma geração de chip duplo otimizada para a era da agência, a TPU v8 garante a competitividade do Google contra a NVIDIA Grace-Blackwell para implantação de IA em grande escala.
Pequim Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Diretora de Estratégia Global
WhatsApp/WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Site: www.qianxingdata.com/www.storagesserver.com
Foco de negócios:
Distribuição de produtos de TIC/integração de sistemas e serviços/soluções de infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parcerias com marcas líderes globais para fornecer produtos confiáveis e serviços profissionais.
“Usando a tecnologia para construir um mundo inteligente”Seu provedor confiável de serviços de produtos de TIC!
Sandy Yang/Diretora de Estratégia Global
WhatsApp/WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Site: www.qianxingdata.com/www.storagesserver.com
Foco de negócios:
Distribuição de produtos de TIC/integração de sistemas e serviços/soluções de infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parcerias com marcas líderes globais para fornecer produtos confiáveis e serviços profissionais.
“Usando a tecnologia para construir um mundo inteligente”Seu provedor confiável de serviços de produtos de TIC!



