A IBM revelou uma arquitetura de armazenamento consciente de conteúdo (CAS) que incorpora o processamento de dados de IA diretamente dentro da camada de armazenamento.Esta abordagem é adaptada aos fluxos de trabalho de geração aumentada de recuperação (RAG), uma vez que integra a vetorização de documentos no próprio sistema de armazenamento, reduzindo a necessidade de canalizações de pré-processamento externas.
O CAS transfere uma função-chave do RAG incorporação de documentos através de métodos baseados num grande modelo de linguagem (LLM) para a infraestrutura de armazenamento.Isto permite que as empresas processem e indexam os dados no local existente, alinhando os sistemas de armazenamento com as cargas de trabalho orientadas por IA e minimizando o movimento de dados entre os diferentes níveis de infraestrutura.A IBM posiciona isso como um meio de simplificar a implantação, ao mesmo tempo em que aumenta o desempenho e melhora a localidade de dados para aplicações de IA.
Base de dados de vetores em escala
No coração da implementação do CAS da IBM está um banco de dados vetorial otimizado para pesquisa semântica.permitindo que os sistemas de IA recuperem blocos de dados relevantes com base em métricas de similaridade, como similaridade cosseno ou distância L2Esta capacidade é fundamental para RAG, onde as consultas dos utilizadores são convertidas em vetores e comparadas com dados indexados da empresa para fornecer respostas contextualizadas.
IBM CAS ChartFonte: IBM
A IBM Research, em colaboração com a Samsung e a NVIDIA, apresentou um sistema protótipo capaz de escalar para 100 bilhões de vetores em um único servidor.O sistema conseguiu mais de 90% de recall e precisãoEsta escala atende a ambientes empresariais em que os conjuntos de dados podem abranger milhares de milhões de ficheiros e, uma vez totalmente indexados, podem ser utilizados para a análise de dados.crescer para centenas de bilhões de vetores.
Integração do gasoduto RAG
O RAG está se tornando uma abordagem favorita para a IA empresarial, pois aumenta a precisão de saída sem a necessidade de requalificação do modelo.Funciona complementando solicitações com dados específicos da empresa recuperados de um banco de dados vetorial.
O pipeline começa com a ingestão de dados, onde documentos como PDFs e apresentações são analisados, divididos em pedaços e convertidos em embutidos.Esses embutidos são armazenados em um banco de dados vetorial que organiza dados para uma busca de semelhança eficienteDurante a consulta, a entrada do usuário é incorporada e comparada com vetores armazenados, com conteúdo relevante passado para o modelo de linguagem como contexto.Este mecanismo de aterragem reduz as alucinações e aumenta a confiança nos resultados gerados pela IA..
O CAS da IBM® integra todo esse pipeline diretamente no armazenamento, consolidando a ingestão, indexação e recuperação em proximidade dos dados.
Abordar os desafios da escala e dos custos
Os sistemas de armazenamento corporativo já operam em escala de petabyte. Quando estendido para CAS, cada arquivo pode gerar centenas de vetores, expandindo rapidamente o tamanho do conjunto de dados.Os bancos de dados vetoriais tradicionais geralmente são dimensionados em vários servidoresA indexação e a reindexação de grandes conjuntos de dados tornam-se também tarefas que consomem tempo.
A abordagem da IBM concentra-se em melhorar a densidade de vetores e reduzir a sobrecarga de indexação para limitar a expansão da infraestrutura.permitir a escalagem independente dos recursos de armazenamento e computaçãoIsto é possível graças à IBM Storage Scale e ao seu sistema de ficheiros paralelos de alto desempenho.
Arquitetura de armazenamento e hardware
A implementação do CAS aproveita o IBM Storage Scale System 6000 (ESS 6000), uma plataforma totalmente flash projetada para IA e cargas de trabalho de alto desempenho.O sistema suporta até 48 unidades NVMe por caixa de 4U, com capacidades de unidade individuais que variam de 7 TB a 60 TB. Integra a conectividade PCIe Gen5, 400 Gb InfiniBand ou 200 Gb Ethernet,fornecendo até 340 GB/s de leitura e 175 GB/s de gravação por nó, juntamente com até 7 milhões de IOPS.
A plataforma também suporta o NVIDIA GPUDirect Storage, facilitando caminhos de dados diretos entre armazenamento e GPUs, bem como DPUs BlueField-3 para descarregar tarefas de rede e processamento de dados.
Os SSDs Samsung PM9D3a PCIe Gen5 NVMe fornecem armazenamento de alta densidade e alto rendimento.com velocidades de leitura sequenciais de até 12 GB/s e velocidades de gravação de até 6 GB/s.8 GB/s. O uso de SSDs empresariais disponíveis no mercado permite que a arquitetura seja dimensionada utilizando componentes padrão.
Indicação hierárquica e aceleração da GPU
Para enfrentar a indexação em escala, a IBM desenvolveu um modelo de indexação hierárquica composto por vários subíndices que podem ser otimizados de forma independente.Esta estrutura permite atualizações incrementais e reindexação localizada sem interromper todo o conjunto de dados, melhorando a disponibilidade e a eficiência operacional.
A aceleração da GPU reduz drasticamente o tempo de indexação em comparação com as abordagens apenas de CPU.A construção de índices para 100 bilhões de vetores levou 4 dias com 6 GPUs NVIDIA H200, em comparação com 120 dias estimados num sistema de CPU de duas tomadas.
O conjunto de dados completo, incluindo vetores e índices, consumiu aproximadamente 153 TiB de armazenamento.O sistema resultante entregou uma latência média de consulta de 694ms com 90% de recall, validado em relação a cálculos de força bruta base-verdade.
Roteiro
A IBM e a NVIDIA continuam a otimizar a plataforma, focando na redução da latência de indexação e consulta.Reduzir o tempo de ingestão de dados de nove dias para um dia, e reduzindo a latência de consulta para a faixa de 50-100 milissegundos, mantendo 90% de recall.
A integração da indexação vetorial em sistemas de arquivos padrão visa simplificar a implantação e reduzir as barreiras à adoção da IA empresarial.A IBM está posicionando o CAS como uma camada fundamental para infraestrutura habilitada para IA.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang, Diretora Global de Estratégia
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Site: www.qianxingdata.com/www.storagesserver.com
Foco em Negócios:
Distribuição de produtos TIC/Integração de sistemas e serviços/Soluções de infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parcerias com as principais marcas globais para fornecer produtos confiáveis e serviços profissionais.
¢Utilizando a tecnologia para construir um mundo inteligente ¢O seu prestador de serviços de produtos TIC de confiança!
Sandy Yang, Diretora Global de Estratégia
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Site: www.qianxingdata.com/www.storagesserver.com
Foco em Negócios:
Distribuição de produtos TIC/Integração de sistemas e serviços/Soluções de infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parcerias com as principais marcas globais para fornecer produtos confiáveis e serviços profissionais.
¢Utilizando a tecnologia para construir um mundo inteligente ¢O seu prestador de serviços de produtos TIC de confiança!



