Casa Notícias

notícias da empresa sobre Lightbits e ScaleFlux demonstração 100x a 280x aceleração de cache KV

Todos os Produtos

Servidor do armazenamento de cremalheira
(179)

Servidor da fusão de Huawei
(31)

Dell Poweredge Server
(59)

Servidor de H3C
(31)

Interruptores do Datacom
(96)

Dispositivo de WLAN
(21)

Router sem fio esperto
(17)

Disco rígido HDD
(78)

SSD interno do disco rígido
(16)

Cartão gráfico de Geforce
(27)

Processador do processador central de INTEL
(20)

Memória RAM do servidor
(6)

Servidor recondicionado do armazenamento
(6)

Módulo do transceptor de SFP
(4)

Interruptor de canal da fibra
(125)

Certificado

China Beijing Qianxing Jietong Technology Co., Ltd. Certificações

Revisões do cliente

A equipe de vendas da tecnologia Co. de Qianxing Jietong do Pequim, Ltd é muito profissional e paciente. Podem fornecer cotações rapidamente. A qualidade e o empacotamento dos produtos são igualmente muito bons. Nossa cooperação é muito lisa.

—— LLC do》 de Festfing DV do 《

Quando eu procurava o processador central de intel e o SSD de Toshiba urgentemente, Sandy da tecnologia Co. de Qianxing Jietong do Pequim, Ltd deu-me muita ajuda e obteve-me os produtos que eu precisei rapidamente. Eu aprecio-a realmente.

—— Kitty Yen

Sandy da tecnologia Co. de Qianxing Jietong do Pequim, Ltd é um vendedor muito cuidadoso, que possa me lembrar de erros da configuração a tempo quando eu compro um servidor. Os coordenadores são igualmente muito profissionais e podem rapidamente terminar o processo de teste.

—— Strelkin Mikhail Vladimirovich

Estamos muito satisfeitos com a nossa experiência de trabalho com a Beijing Qianxing Jietong. A qualidade do produto é excelente e a entrega é sempre pontual. A equipe de vendas é profissional, paciente e muito prestativa com todas as nossas perguntas. Agradecemos muito o seu apoio e esperamos uma parceria de longo prazo. Altamente recomendado!

—— Ahmad Navid

Qualidade: Ótima experiência com o meu fornecedor. O MikroTik RB3011 já estava usado, mas estava em muito bom estado e tudo funcionava perfeitamente.E todas as minhas preocupações foram resolvidas rapidamente.Fornecedor muito fiável, altamente recomendado.

—— Geran Colesio

Estou Chat Online Agora

empresa Notícias

Lightbits e ScaleFlux demonstração 100x a 280x aceleração de cache KV

A Lightbits Labs e a ScaleFlux alcançaram um aumento de desempenho de 100x a 280x para cargas de trabalho de cache KV, aproveitando o software de cache LightInferra para ler dados de SSDs de armazenamento computacional ScaleFlux.

As duas empresas forneceram dados de cache KV para GPUs implantadas em um ambiente de data center FarmGPU e apresentarão essa inovação na próxima conferência GTC da Nvidia. Um cache KV armazena vetores de token na memória de alta largura de banda (HBM) de uma GPU. Uma vez que a capacidade da HBM se esgota, os blocos de dados do cache KV devem ser recalculados — um processo que consome tempo e degrada as velocidades de treinamento e inferência de IA. Essa lentidão se torna especialmente pronunciada à medida que as cargas de trabalho de IA escalam, levando a um aumento acentuado no número de tokens usados para gerar vetores.

O software de cache KV expande logicamente a camada de cache para fora: primeiro para a CPU x86 e sua DRAM no servidor da GPU, depois para unidades NVMe locais no mesmo sistema x86 e, em seguida, para SSDs NVMe externos. Essa expansão em camadas elimina a necessidade de recomputar vetores de token. Embora os SSDs NVMe naturalmente tenham latência de acesso mais alta do que HBM ou DRAM, recuperar vetores de token pré-computados é muito mais rápido do que recalcular dezenas de milhares deles do zero. Lightbits e ScaleFlux afirmam que sua solução acelera drasticamente a recuperação de dados de cache KV de SSDs.

Arthur Rasmusson, Diretor de Arquitetura de IA na Lightbits Labs, declarou: "Estamos transformando a memória de inferência de um cache reativo em uma camada de dados inteligente e transmitida."

Como?

"Ao pré-buscar apenas os dados que importam e entregá-los às GPUs por meio de RDMA de alta velocidade antes que sejam necessários, eliminamos as interrupções que tradicionalmente limitam o desempenho de longo contexto. O resultado é um menor Tempo para o Primeiro Token (TTFT), um throughput mais estável sob carga real e uma utilização de GPU efetiva significativamente maior."

Keith McKay, Diretor Sênior de Arquitetura de Soluções e Parcerias Técnicas na ScaleFlux, comentou: "O que estamos mostrando na GTC é uma prévia de como o posicionamento de dados mais inteligente e o gerenciamento persistente do estado de atenção podem ajudar os sistemas de inferência a permanecerem responsivos à medida que as janelas de contexto crescem. Esta é uma colaboração que queremos moldar junto com operadores reais."

Tanto a Lightbits quanto a ScaleFlux visam incentivar os operadores de nuvem e infraestrutura a adotarem seu software e SSDs, eliminando o tempo de inatividade caro das GPUs.

Vamos primeiro examinar a contribuição da ScaleFlux, depois passar para a camada de software mais sofisticada da Lightbits.

A ScaleFlux fornece SSDs NVMe e Unidades de Armazenamento Computacional (CSDs) equipadas com Tecnologia de Redução de Gravação (WRT) baseada em hardware. Alimentadas por compressão acelerada por hardware e gerenciamento de metadados impulsionado por SoC, essas unidades entregam até quatro vezes mais capacidade lógica do que o armazenamento físico, permanecendo totalmente transparentes para os sistemas host. A empresa é membro do consórcio Open Flash Platform (OFP), que está trabalhando para redefinir a infraestrutura de dados de IA com sistemas densos, de baixa latência e eficientes em termos de energia — oferecendo 10x a densidade do armazenamento de IA baseado em arquivos convencional e apenas um décimo do consumo de energia.

Com base nessas unidades de armazenamento, a Lightbits adiciona pré-busca inteligente de dados de Cache KV antes que as GPUs os exijam, evitando interrupções causadas por capacidade de cache KV insuficiente ou recomputação custosa de vetores de token. Seu software LightInferra usa algoritmos de cache otimizados para Cache KV para puxar os dados necessários para a memória da GPU em velocidades RDMA antes da demanda real.

Novamente, como?

O software é executado no host x86 embutido em servidores de GPU e rastreia os padrões de acesso de blocos de dados do Cache KV. Usando essa telemetria, ele opera um motor de Pré-busca de Atenção Esparsa Sub-Linear (SLSAP) para identificar os blocos KV mais prováveis de serem necessários em seguida.

Este motor combina hashing sensível à localidade (LSH) com modelagem de reutilização estatística — analisando a localidade de acesso histórica em computações de atenção — para pontuar e priorizar blocos KV, em seguida, seleciona aqueles com a maior probabilidade de serem solicitados pelas GPUs.

Este processo de seleção aproveita a esparsidade inerente no acesso a dados de GPU: a maioria dos tokens só se relaciona significativamente com um pequeno subconjunto de tokens anteriores. Ao isolar esses blocos de alta probabilidade, a solução reduz drasticamente o volume de vetores de token que devem ser transmitidos de volta para as GPUs.

Um segundo algoritmo se concentra em padrões de reutilização: tokens recentes, tokens semanticamente semelhantes e padrões estruturais comuns em cenários de RAG ou chat multi-turno são frequentemente reutilizados e priorizados de acordo.

O LightInferra recupera esses blocos de token primeiro da DRAM do servidor x86, ou de SSDs ScaleFlux externos, se necessário, e então os pré-carrega na HBM da GPU via links RDMA.

A Lightbits comparou este método com a recomputação de conteúdo em cache do zero usando cargas de trabalho de modelos de linguagem grandes, medindo melhorias no Tempo para o Primeiro Token (TTFT). Os números de aceleração de 100x a 280x relatados são derivados diretamente desses resultados de teste.

Claro, gostaríamos de ver resultados de benchmark comparando o esquema de aceleração de Cache KV Lightbits-ScaleFlux

com aceleradores de Cache KV da DDN, Hammerspace, VAST Data, WEKA e outros, mas eles

não estão disponíveis.

Existem gráficos mostrando como o LightInferra-ScaleFlux melhorou progressivamente o TTFT de regeneração de cache

à medida que o tamanho do modelo aumenta. Por exemplo;

últimas notícias da empresa sobre Lightbits e ScaleFlux demonstração 100x a 280x aceleração de cache KV 1

Todos os dados de benchmark relacionados são apresentados em gráficos de escala logarítmica, adaptados principalmente para profissionais de ciência da computação, mas a linguagem clara torna o impacto no mundo real muito mais fácil de entender: "O resultado é um desempenho sustentado do Tempo para o Primeiro Token (TTFT) à medida que o contexto escala de 100 mil tokens para 1 milhão e além."

Como Jonmichael Hands da FarmGPU coloca, quando uma conversa de 400 mil tokens é retomada e o sistema precisa regenerar todo o cache KV do zero, isso significa dois minutos completos de tempo de execução da GPU com zero tokens produzidos. O LightInferra muda completamente o modelo econômico — a mesma carga de trabalho gera seu primeiro token em menos de meio segundo, transformando um nível de produto inviável em um lucrativo.

A Lightbits e a ScaleFlux projetaram esta solução conjunta especificamente para fazendas de GPU neocloud de próxima geração, onde grandes clusters de GPU executam centenas ou até milhares de cargas de trabalho de modelos de IA concorrentes. Quase todas essas cargas de trabalho atingirão o limite da capacidade do cache KV na memória de alta largura de banda (HBM) da GPU.

Sob configurações tradicionais, as equipes enfrentam duas opções custosas: buscar lentamente vetores de token de armazenamento externo genérico, ou o processo muito mais demorado de recomputar esses vetores do zero — ambos deixam as GPUs ociosas por horas a fio. A combinação LightInferra e ScaleFlux elimina completamente esse ponto de dor crítico da indústria.

Jonmichael Hands, CEO da FarmGPU, acrescentou: "O armazenamento de rede rápido da Lightbits desbloqueia uma riqueza de novos casos de uso para inferência de longo contexto. Ao emparelhar nosso serviço gerenciado com o armazenamento de alto desempenho da Lightbits rodando em unidades NVMe ScaleFlux, podemos reduzir o tempo para o primeiro token e aumentar a utilização da GPU, reduzindo drasticamente o custo total de propriedade (TCO) para cargas de trabalho de inferência."

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Diretor de Estratégia Global
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com

Foco de Negócios:
Distribuição de Produtos TIC/Integração de Sistemas e Serviços/Soluções de Infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parceria com as principais marcas globais para fornecer produtos confiáveis e serviços profissionais.
"Usando a Tecnologia para Construir um Mundo Inteligente" Seu Provedor de Serviços de Produtos TIC Confiável!

Tempo do bar : 2026-03-18 11:34:46 >> lista da notícia

Contacto

Beijing Qianxing Jietong Technology Co., Ltd.

Pessoa de Contato: Ms. Sandy Yang

Telefone: 13426366826

notícias da empresa sobre Lightbits e ScaleFlux demonstração 100x a 280x aceleração de cache KV

Servidor do armazenamento de cremalheira

Servidor da fusão de Huawei

Dell Poweredge Server

Servidor de H3C

Interruptores do Datacom

Dispositivo de WLAN

Router sem fio esperto

Disco rígido HDD

SSD interno do disco rígido

Cartão gráfico de Geforce

Processador do processador central de INTEL

Memória RAM do servidor

Servidor recondicionado do armazenamento

Módulo do transceptor de SFP

Interruptor de canal da fibra

Como?

Novamente, como?

Servidor do armazenamento de cremalheira

12 servidor Rackmount da cremalheira de Lenovo ThinkSystem SR630 do servidor das baías 1U

Processador de Intel Xeon E-2378G do servidor do armazenamento de cremalheira de ThinkSystem SR250 V2 4SFF

Servidor da montagem em rack de Inspur NF5180M6 1U do servidor do armazenamento de cremalheira de Intel C621A

Servidor da fusão de Huawei

Servidor 32 DDR4 DIMMs da cremalheira de FusionServer 5288 V6 4U 44 discos rígidos de 3,5 polegadas

Ultra servidor 1288H V5 do armazenamento da rede do servidor 1U da fusão de Huawei do alto densidade

Armazenamento instantâneo híbrido do servidor novo da cremalheira de Gen OceanStor 5310 Huawei