A Lightbits Labs e a ScaleFlux alcançaram um aumento de desempenho de 100x a 280x para cargas de trabalho de cache KV, aproveitando o software de cache LightInferra para ler dados de SSDs de armazenamento computacional ScaleFlux.
As duas empresas forneceram dados de cache KV para GPUs implantadas em um ambiente de data center FarmGPU e apresentarão essa inovação na próxima conferência GTC da Nvidia. Um cache KV armazena vetores de token na memória de alta largura de banda (HBM) de uma GPU. Uma vez que a capacidade da HBM se esgota, os blocos de dados do cache KV devem ser recalculados — um processo que consome tempo e degrada as velocidades de treinamento e inferência de IA. Essa lentidão se torna especialmente pronunciada à medida que as cargas de trabalho de IA escalam, levando a um aumento acentuado no número de tokens usados para gerar vetores.
O software de cache KV expande logicamente a camada de cache para fora: primeiro para a CPU x86 e sua DRAM no servidor da GPU, depois para unidades NVMe locais no mesmo sistema x86 e, em seguida, para SSDs NVMe externos. Essa expansão em camadas elimina a necessidade de recomputar vetores de token. Embora os SSDs NVMe naturalmente tenham latência de acesso mais alta do que HBM ou DRAM, recuperar vetores de token pré-computados é muito mais rápido do que recalcular dezenas de milhares deles do zero. Lightbits e ScaleFlux afirmam que sua solução acelera drasticamente a recuperação de dados de cache KV de SSDs.
Arthur Rasmusson, Diretor de Arquitetura de IA na Lightbits Labs, declarou: "Estamos transformando a memória de inferência de um cache reativo em uma camada de dados inteligente e transmitida."
Como?
"Ao pré-buscar apenas os dados que importam e entregá-los às GPUs por meio de RDMA de alta velocidade antes que sejam necessários, eliminamos as interrupções que tradicionalmente limitam o desempenho de longo contexto. O resultado é um menor Tempo para o Primeiro Token (TTFT), um throughput mais estável sob carga real e uma utilização de GPU efetiva significativamente maior."
Keith McKay, Diretor Sênior de Arquitetura de Soluções e Parcerias Técnicas na ScaleFlux, comentou: "O que estamos mostrando na GTC é uma prévia de como o posicionamento de dados mais inteligente e o gerenciamento persistente do estado de atenção podem ajudar os sistemas de inferência a permanecerem responsivos à medida que as janelas de contexto crescem. Esta é uma colaboração que queremos moldar junto com operadores reais."
Tanto a Lightbits quanto a ScaleFlux visam incentivar os operadores de nuvem e infraestrutura a adotarem seu software e SSDs, eliminando o tempo de inatividade caro das GPUs.
Vamos primeiro examinar a contribuição da ScaleFlux, depois passar para a camada de software mais sofisticada da Lightbits.
A ScaleFlux fornece SSDs NVMe e Unidades de Armazenamento Computacional (CSDs) equipadas com Tecnologia de Redução de Gravação (WRT) baseada em hardware. Alimentadas por compressão acelerada por hardware e gerenciamento de metadados impulsionado por SoC, essas unidades entregam até quatro vezes mais capacidade lógica do que o armazenamento físico, permanecendo totalmente transparentes para os sistemas host. A empresa é membro do consórcio Open Flash Platform (OFP), que está trabalhando para redefinir a infraestrutura de dados de IA com sistemas densos, de baixa latência e eficientes em termos de energia — oferecendo 10x a densidade do armazenamento de IA baseado em arquivos convencional e apenas um décimo do consumo de energia.
Com base nessas unidades de armazenamento, a Lightbits adiciona pré-busca inteligente de dados de Cache KV antes que as GPUs os exijam, evitando interrupções causadas por capacidade de cache KV insuficiente ou recomputação custosa de vetores de token. Seu software LightInferra usa algoritmos de cache otimizados para Cache KV para puxar os dados necessários para a memória da GPU em velocidades RDMA antes da demanda real.
Novamente, como?
O software é executado no host x86 embutido em servidores de GPU e rastreia os padrões de acesso de blocos de dados do Cache KV. Usando essa telemetria, ele opera um motor de Pré-busca de Atenção Esparsa Sub-Linear (SLSAP) para identificar os blocos KV mais prováveis de serem necessários em seguida.
Este motor combina hashing sensível à localidade (LSH) com modelagem de reutilização estatística — analisando a localidade de acesso histórica em computações de atenção — para pontuar e priorizar blocos KV, em seguida, seleciona aqueles com a maior probabilidade de serem solicitados pelas GPUs.
Este processo de seleção aproveita a esparsidade inerente no acesso a dados de GPU: a maioria dos tokens só se relaciona significativamente com um pequeno subconjunto de tokens anteriores. Ao isolar esses blocos de alta probabilidade, a solução reduz drasticamente o volume de vetores de token que devem ser transmitidos de volta para as GPUs.
Um segundo algoritmo se concentra em padrões de reutilização: tokens recentes, tokens semanticamente semelhantes e padrões estruturais comuns em cenários de RAG ou chat multi-turno são frequentemente reutilizados e priorizados de acordo.
O LightInferra recupera esses blocos de token primeiro da DRAM do servidor x86, ou de SSDs ScaleFlux externos, se necessário, e então os pré-carrega na HBM da GPU via links RDMA.
A Lightbits comparou este método com a recomputação de conteúdo em cache do zero usando cargas de trabalho de modelos de linguagem grandes, medindo melhorias no Tempo para o Primeiro Token (TTFT). Os números de aceleração de 100x a 280x relatados são derivados diretamente desses resultados de teste.

Claro, gostaríamos de ver resultados de benchmark comparando o esquema de aceleração de Cache KV Lightbits-ScaleFlux
com aceleradores de Cache KV da DDN, Hammerspace, VAST Data, WEKA e outros, mas eles
não estão disponíveis.
Existem gráficos mostrando como o LightInferra-ScaleFlux melhorou progressivamente o TTFT de regeneração de cache
à medida que o tamanho do modelo aumenta. Por exemplo;

Todos os dados de benchmark relacionados são apresentados em gráficos de escala logarítmica, adaptados principalmente para profissionais de ciência da computação, mas a linguagem clara torna o impacto no mundo real muito mais fácil de entender: "O resultado é um desempenho sustentado do Tempo para o Primeiro Token (TTFT) à medida que o contexto escala de 100 mil tokens para 1 milhão e além."
Como Jonmichael Hands da FarmGPU coloca, quando uma conversa de 400 mil tokens é retomada e o sistema precisa regenerar todo o cache KV do zero, isso significa dois minutos completos de tempo de execução da GPU com zero tokens produzidos. O LightInferra muda completamente o modelo econômico — a mesma carga de trabalho gera seu primeiro token em menos de meio segundo, transformando um nível de produto inviável em um lucrativo.
A Lightbits e a ScaleFlux projetaram esta solução conjunta especificamente para fazendas de GPU neocloud de próxima geração, onde grandes clusters de GPU executam centenas ou até milhares de cargas de trabalho de modelos de IA concorrentes. Quase todas essas cargas de trabalho atingirão o limite da capacidade do cache KV na memória de alta largura de banda (HBM) da GPU.
Sob configurações tradicionais, as equipes enfrentam duas opções custosas: buscar lentamente vetores de token de armazenamento externo genérico, ou o processo muito mais demorado de recomputar esses vetores do zero — ambos deixam as GPUs ociosas por horas a fio. A combinação LightInferra e ScaleFlux elimina completamente esse ponto de dor crítico da indústria.
Jonmichael Hands, CEO da FarmGPU, acrescentou: "O armazenamento de rede rápido da Lightbits desbloqueia uma riqueza de novos casos de uso para inferência de longo contexto. Ao emparelhar nosso serviço gerenciado com o armazenamento de alto desempenho da Lightbits rodando em unidades NVMe ScaleFlux, podemos reduzir o tempo para o primeiro token e aumentar a utilização da GPU, reduzindo drasticamente o custo total de propriedade (TCO) para cargas de trabalho de inferência."
Foco de Negócios:
Distribuição de Produtos TIC/Integração de Sistemas e Serviços/Soluções de Infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parceria com as principais marcas globais para fornecer produtos confiáveis e serviços profissionais.
"Usando a Tecnologia para Construir um Mundo Inteligente" Seu Provedor de Serviços de Produtos TIC Confiável!