Especificações completas:
| Especificação | Detalhes |
|---|---|
| Processador | Até dois processadores escaláveis Intel® Xeon® de 5ª geração (64 núcleos por CPU) Até dois processadores escaláveis Intel® Xeon® de 4ª geração (56 núcleos por CPU) |
| Opções de GPU | XE9680: -NVIDIA HGX H200 (141 GB) SXM5 700W –NVIDIA HGX H100 (80GB) SXM5 700W – AMD Instinct MI300X (192 GB) OAM 750W – Intel Gaudi3 (128GB) OAM 900W |
| Memória | 32 slots DIMM 5600 MT/s (5ª geração) 4800 MT/s (4ª geração) |
| Armazenar | Compartimentos de tração dianteira: 8x 2,5″ NVMe/SAS/SATA (máximo de 122,88 TB) 16x E3.S NVMe (máximo de 122,88 TB) |
| Controladores de armazenamento | Controladores Internos: PERC H965i (não compatível com Intel Gaudi3)Boot interno: Subsistema de armazenamento otimizado para inicialização (NVMe BOSS-N1): HWRAID 1, 2 x SSDs M.2 |
| Slots PCIE | Slots PCIeAté 10 slots PCIe Gen5 x16 (8 slots com Intel Gaudi3) |
| Rede | 1x OCP 3.0 (opcional) 2x 1GbE LOM |
| Fontes de alimentação | Titânio 3200 W (277 VCA) Titânio 2800 W (200-240 VCA) |
| Dimensões | Altura: 10,36″ (263,20 mm) Largura: 18,97″ (482,00mm) Profundidade: 39,71″ (1008,77mm) com moldura |
| Peso | Até 251,44 libras (114,05 kg) |
| Fator de forma | Servidor rack 6U |
| Gerenciamento | Incorporado/no servidor: iDRAC9 iDRAC direto API RESTful do iDRAC com consoles do módulo de serviço RedfishiDRAC: Plug-in CloudIQ para PowerEdge OpenManage Enterprise Plug-in OpenManage Power Manager Plug-in do serviço OpenManage Ferramentas do plugin OpenManage Update Manager: Atualização do sistema Dell Gerenciador de repositório Dell Catálogos Empresariais API RESTful do iDRAC com Redfish IPMI Integrações RACADM CLIOpenManage: BMC Visão Verdadeira Integração OpenManage com ServiceNow |
| Segurança | Firmware assinado criptograficamente Criptografia de dados em repouso (SEDs com gerenciamento de chave local ou externa) Inicialização segura Verificação de componentes seguros (verificação de integridade de hardware) Apagamento seguro Raiz de Confiança do Silício Bloqueio do sistema (requer iDRAC9 Enterprise ou Datacenter) |
| Resfriamento | Refrigerado a ar |
Construção e design do Dell PowerEdge XE9680
O PowerEdge XE9680 é uma peça de hardware imponente, medindo 10,36 polegadas (263,20 mm) de altura, 18,97 polegadas (482,00 mm) de largura e 39,71 polegadas (1008,77 mm) de profundidade com sua moldura fixada. Quando totalmente carregado, pesa 114,05 kg (251,44 lbs). A seleção da GPU terá a palavra final sobre o peso, com o modelo NVIDIA H100/H200 chegando a 238 libras, enquanto a unidade AMD MI300X pesa 251 libras.
Este foi o primeiro servidor que exigiu uma reflexão cuidadosa para carregar corretamente em nosso ambiente de testes. Quando você considera o peso do servidor e o número de pessoas necessárias para colocar o hardware em rack, há alguma margem de manobra para ir além dos limites, mas em um determinado ponto, uma ou duas pessoas não estão levantando-o sozinhas. A Dell tem a gentileza de fornecer uma “mesa elevatória” para ajudá-lo a entender como essa plataforma se encaixa. Para todos aqueles que estão se perguntando, o próprio Kevin carregou o XE9680 no rack.
| Peso do chassi | Descrição |
|---|---|
| 40 libras – 70 libras | Recomendo duas pessoas para levantar. |
| 70 libras – 120 libras | Recomende três pessoas para levantar. |
| ≥ 121 libras | É necessária uma elevação do servidor. |
Apesar da sua complexidade e da recomendação da Dell para técnicos de serviço especializados, o XE9680 apresenta elementos de serviço extremamente fáceis de usar. Os painéis do servidor incluem instruções de serviço detalhadas e gráficos claros, tornando os procedimentos de manutenção surpreendentemente acessíveis para equipes de TI experientes. Esses guias visuais se mostraram inestimáveis durante nosso tempo prático com o sistema, permitindo-nos fazer a manutenção de vários componentes com confiança.
Depois de abrir a tampa do PowerEdge XE9680, depois de passar pelos vários cabos de alimentação da pequena subestação de energia na parte superior, ele se parece muito com um PowerEdge R760. Nossa unidade era alimentada por dois processadores Intel Xeon Platinum 8468, cada um com 48 núcleos a 2,1 GHz. Cada processador oferece 80 pistas PCIe, que fluem através de alguns switches PCIe nesta unidade para suportar GPUs, NICs e outros hardwares carregados no XE9680.
Um dos recursos de engenharia mais impressionantes é o design da PCIe Switch Board (PSB). Essas placas fornecem conectividade para até 10 placas PCIe adicionais de altura total e meio comprimento (duas das quais podem exceder o consumo de energia de 75 W) e integram-se diretamente à placa de base da GPU. Essa integração direta habilita a tecnologia GPU-direct, permitindo que SSDs e placas de rede se comuniquem diretamente com as GPUs, ignorando a CPU e reduzindo a latência para cargas de trabalho de IA com uso intensivo de E/S.
Cada slot de expansão suporta uma interface PCIe Gen5 x16 completa, incluindo os dois slots inferiores na extremidade esquerda e direita do layout. Enquanto os oito slots superiores são conectados através de seu próprio PSB, os dois slots inferiores se conectam diretamente à placa base PCIe (PBB). Esses dois slots também suportam cartões de compra de alta potência. Além disso, deve-se observar que o layout do PCIe varia um pouco dependendo do tipo de GPU escolhido para o PowerEdge XE9680. Os modelos equipados com AMD não suportam SmartNIC/DPUs, e os modelos Intel Gaudi3 têm dois slots bloqueados devido a problemas de fluxo de ar.
A refrigeração é outra área em que a experiência em engenharia da Dell se destaca. O sistema emprega até 16 ventoinhas de alto desempenho de nível ouro – seis na bandeja intermediária e dez na parte traseira. O PowerEdge XE9680 oferece suporte a uma ampla variedade de cenários de instalação, com temperaturas ambientes que variam de 10 a 35°C (30°C com as GPUs Intel Gaudi3). A todo vapor, o servidor move impressionantes 1.200 CFM para o corredor quente.
Esta solução de resfriamento robusta suporta até mesmo as cargas térmicas mais exigentes, incluindo as GPUs AMD MI300X, Intel Gaudi3 ou NVIDIA H100, enquanto mantém temperaturas operacionais ideais. O PowerEdge XE9680 canta bastante sob carga em termos de saída de ruído. A Dell oferece uma folha de especificações acústicas completa para o XE9680 em diferentes situações, mas é muito fácil dizer que será uma plataforma barulhenta sob carga.
Gerenciamento
Os recursos de gerenciamento do XE9680 são desenvolvidos com base no iDRAC9 comprovado para empresas da Dell, que fornece gerenciamento e monitoramento abrangentes do ciclo de vida do servidor. Esta iteração do iDRAC traz vários recursos otimizados para IA, incluindo telemetria detalhada de GPU, análise de consumo de energia e monitoramento térmico extensivo projetado para cargas de trabalho de IA de alta densidade.
A pilha de gerenciamento da plataforma é particularmente notável para implantações de infraestrutura de IA. Por meio da API RESTful do iDRAC9 com suporte para Redfish, as organizações podem monitorar e gerenciar programaticamente a utilização da GPU, a largura de banda da memória e as condições térmicas – métricas essenciais para manter o treinamento ideal de IA e o desempenho de inferência. A integração do sistema com o OpenManage Enterprise permite o gerenciamento de vários XE9680 em toda a frota por meio de um console unificado, o que é essencial para clusters de IA em grande escala.
Segurança e conformidade são elementos fundamentais da arquitetura de gerenciamento. A plataforma implementa Silicon Root of Trust e Secure Component Verification, garantindo a integridade do hardware desde a inicialização até a operação. Esses recursos são especialmente valiosos ao executar cargas de trabalho de IA sensíveis ou ao lidar com pesos de modelos proprietários.
O recurso de análise preditiva de falhas, alimentado pela integração do CloudIQ, usa aprendizado de máquina para prever possíveis problemas de hardware antes que eles afetem as cargas de trabalho. Esta abordagem proativa é especialmente crucial para trabalhos de treinamento de IA de longa duração, onde o tempo de inatividade inesperado pode resultar em dias de perda de computação. Quando combinada com o serviço ProSupport Plus da Dell, esta capacidade preditiva aciona a criação automática de caixas e o envio de peças, resultando muitas vezes em manutenção preventiva antes que ocorra a degradação do sistema.
Para organizações que necessitam de integração com ferramentas de gerenciamento existentes, o XE9680 oferece suporte a diversas estruturas de gerenciamento por meio de integrações OpenManage, incluindo ServiceNow e BMC TrueSight, permitindo uma incorporação perfeita em fluxos de trabalho de gerenciamento de serviços de TI estabelecidos.
A interface iDRAC9 fornece monitoramento detalhado em tempo real de componentes críticos por meio de um painel intuitivo. O monitoramento de GPU exibe métricas abrangentes, incluindo temperatura, consumo de energia e taxas de utilização em todos os oito aceleradores, essenciais para otimizar a distribuição da carga de trabalho de IA.
A interface de monitoramento de armazenamento oferece visibilidade instantânea da integridade da unidade, temperatura e métricas de desempenho em todo o array NVMe, o que é particularmente valioso ao gerenciar caches de inferência de alto rendimento e conjuntos de dados de treinamento.
Memória, armazenamento e escala
As oito GPUs AMD MI300X dentro do Dell PowerEdge XE9680 representam um salto significativo na capacidade de memória da GPU, oferecendo 192 GB de memória HBM3 por placa em comparação com os 141 GB do NVIDIA H200. Esse aumento de 36% na capacidade de memória não é apenas um número em uma folha de especificações – é fundamental para a implantação de modelos de linguagem em grande escala.
Esse enorme conjunto de memória, juntamente com a largura de banda de memória de 5,3 TB/s do MI300X, permite que as organizações executem múltiplas instâncias de modelos menores ou particionem modelos maiores entre GPUs, mantendo alto rendimento e baixa latência.
Para colocar isso em perspectiva, o modelo Llama 3.1 405B da Meta, que requer mais de 1 TB de VRAM no BF16, pode ser confortavelmente distribuído em um único XE9680 com GPUs MI300X sem quantização e comprimento total de contexto de 128k. Isso elimina a potencial perda de qualidade associada às técnicas de quantização e permite mais tokens/segundo em comparação com a distribuição do modelo em dois servidores.
Para maximizar nosso espaço de armazenamento, usamos unidades Solidigm de 61,44 TB para servir como uma extensão sofisticada da memória, preenchendo a lacuna entre a memória GPU de alta velocidade e o armazenamento tradicional. Os SSDs são excelentes no armazenamento de pares de cache de valores-chave durante a inferência, estendendo efetivamente a capacidade de memória da GPU para gerações de contexto longo. Sua enorme capacidade e desempenho NVMe os tornam ideais para acesso rápido ao peso do modelo, permitindo troca eficiente de modelos e partidas a quente.
Em aplicações como a implantação do Metrum AI que detalhamos abaixo, os SSDs desempenham uma função dupla como back-end de armazenamento para bancos de dados vetoriais, fornecendo o desempenho necessário para pesquisas de similaridade em tempo real, ao mesmo tempo que mantêm a capacidade de armazenamento incorporado extensivo.
O valor dessas unidades de alta capacidade vai além da inferência até os fluxos de trabalho de treinamento. Eles fornecem armazenamento local ideal para enfileirar lotes de treinamento, reduzindo a sobrecarga da rede ao manter os dados mais próximos dos recursos de computação. Durante o treinamento, essas unidades são excelentes no armazenamento local de pontos de verificação de modelo, o que é fundamental para manter o progresso do treinamento e permitir uma recuperação rápida. Essa estratégia de armazenamento local também ajuda a otimizar a utilização da rede, reduzindo o tráfego imediato da rede após cada camada e lote processado.
Embora a capacidade de 61,44 TB em oito baias do XE9680 pareça promissora, há muito mais capacidade chegando. Com o recém-anunciado drive de 122,88 TB da Solidigm, a densidade de armazenamento no XE pode ser duplicada para quase um petabyte para otimizações de treinamento adicionais e caches de inferência de maior duração.
Metrum AI Healthcare Assistant – Revolucionando o atendimento ao paciente
O setor da saúde enfrenta consistentemente um desafio na gestão demorada da documentação dos pacientes e na gestão de registos, o que muitas vezes prejudica o atendimento direto ao paciente. O Healthcare Assistant da Metrum AI, implantado em servidores Dell PowerEdge XE9680 com aceleradores AMD, exemplifica como a infraestrutura avançada de IA pode transformar os fluxos de trabalho de saúde, aumentando a eficiência e melhorando os resultados dos pacientes.
O sistema utiliza o Llama 3.1 70B Instruct como modelo de linguagem principal, conhecido por sua compreensão de contextos médicos. Isso permite processar facilmente dados complexos do paciente. Este modelo de linguagem é combinado com o modelo de incorporação gte-v1.5 e Milvus Vector DB, fornecendo uma base robusta para processamento de linguagem natural e compreensão contextual essencial para o tratamento de dados médicos.
O Healthcare Assistant da Metrum AI também inclui uma abordagem multimodal que incorpora HistoGPT para análise de imagens histopatológicas e Whisper da OpenAI para transcrição em tempo real de anotações médicas. Juntos, esses modelos simplificam os fluxos de trabalho clínicos, permitindo que os médicos falem naturalmente enquanto o sistema transcreve, categoriza e integra informações nos registros dos pacientes em tempo real.
A Metrum AI reconhece que, embora os dados individuais dos pacientes possam ser relativamente pequenos, as demandas combinadas de armazenamento de hospitais com tráfego intenso podem chegar a centenas de terabytes. O Dell PowerEdge XE9680 pode resolver isso com seu armazenamento NVMe local integrado. Nossa configuração oferece oito baias de armazenamento U.2 NVMe de 2,5″ operando em velocidades PCIe Gen4. Embora tenhamos testado o XE9680 com SSDs Soldigim D5-P5336 QLC de 61,44 TB, essa capacidade pode ser ampliada ainda mais. A Soldigim lançou recentemente seus novos modelos QLC D5-P5336 de 122,88 TB, que dobram a capacidade de seus já enormes SSDs, mantendo o mesmo desempenho.
Metrum forneceu estimativas de como os dados do paciente são traduzidos ao longo do tempo em diferentes cenários. Ao calcular isso na capacidade total de armazenamento, você pode ver quantos pacientes adicionais uma unidade poderia suportar usando os SSDs de maior capacidade. Tomando a pegada de dados estimada por paciente e comparando com a capacidade utilizável de cada SSD (57 TB para o SSD de 61 TB e 114 TB para o SSD de 122 TB), podemos ver que ter SSDs densos aumenta muito o que você pode armazenar no servidor de forma significativa por ano.
| Estimativa Anual Total por Paciente | Notas | Armazenamento estimado | Pacientes por SSD de 61 TB | Pacientes por SSD de 122 TB |
|---|---|---|---|---|
| Necessidades de armazenamento aprimoradas (imagens/variantes DICOM, ampliações, cópias processadas, transcrições de áudio, registros detalhados) | Inclui várias cópias de imagens, transcrições de áudio e registros | ~8,4GB | 6.786 | 13.571 |
| Cenário de alto armazenamento (processamento pesado, visitas frequentes) | Visitas frequentes, altos requisitos de processamento de imagem | ~10,5GB | 5.428 | 10.857 |
Embora as estimativas iniciais de 1 ano pareçam bastante altas, é importante observar que os dados dos pacientes não são estáticos. Você terá novos dados capturados e novas visitas agendadas, aumentando a demanda por armazenamento. É aqui que o armazenamento desempenha um papel significativo no espaço de imagens médicas. A capacidade de armazenamento adicional afeta diretamente o número de pacientes que uma solução pode efetivamente suportar.
| Estimativa total de armazenamento de 10 anos por paciente | Notas | Armazenamento estimado | Pacientes por SSD de 61 TB | Pacientes por SSD de 122 TB |
|---|---|---|---|---|
| Cenário aprimorado (múltiplas cópias, registros detalhados, áudio, aumentos) | Registros expandidos, imagens frequentes e processamento | ~84GB | 679 | 1.357 |
| Cenário alto (processamento pesado, histórico abrangente) | Necessidades máximas de processamento e armazenamento ao longo de 10 anos | ~105GB | 543 | 1.086 |
O Dell PowerEdge XE9680, equipado com aceleradores AMD MI300X e integrado ao Healthcare Assistant da Metrum AI, oferece uma solução escalável e eficiente para prestadores de cuidados de saúde. Ao automatizar tarefas demoradas e permitir acesso rápido a informações críticas, esta configuração permite que os médicos se concentrem mais no atendimento ao paciente enquanto gerenciam as demandas crescentes. Através da integração perfeita de componentes de IA nas modalidades de linguagem, imagem e voz, o Healthcare Assistant representa um avanço significativo em soluções de saúde baseadas em IA, reduzindo a carga administrativa e melhorando os resultados gerais dos pacientes.
Conclusão
Sandy Yang/Diretora de Estratégia Global
WhatsApp/WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Site: www.qianxingdata.com/www.storagesserver.com
Foco de negócios:
Distribuição de produtos de TIC/integração de sistemas e serviços/soluções de infraestrutura
Com mais de 20 anos de experiência em distribuição de TI, fazemos parcerias com marcas líderes globais para fornecer produtos confiáveis e serviços profissionais.
“Usando a tecnologia para construir um mundo inteligente”Seu provedor confiável de serviços de produtos de TIC!



