Início Empreendimento Servidores GPU Lenovo ThinkSystem SR685a V3 e SR680a V3

Servidores GPU Lenovo ThinkSystem SR685a V3 e SR680a V3

by Lyle Smith

Os servidores GPU Lenovo ThinkSystem SR685a V3 e SR680a V3 são os mais recentes servidores GPU de 8 vias da empresa, adaptados para atender às diversas necessidades empresariais de IA.

Os servidores GPU Lenovo ThinkSystem SR685a V3 e SR680a V3 são os mais recentes servidores GPU de 8 vias da empresa, adaptados para atender às diversas necessidades empresariais de IA. Apesar de terem nomes de modelos distintos, eles compartilham uma base modular, permitindo componentes intercambiáveis ​​dentro de cada sistema.

Fundamentalmente, esses servidores possuem três ou quatro componentes principais, dependendo de como você conta. Primeiro, um invólucro externo compõe o chassi com ventoinhas embutidas na parte traseira. Existem trilhos internos que sustentam um servidor modular 2U na parte superior. O 6U inferior abriga as GPUs, switches e estrutura PCIe. Os servidores 2U possuem E/S que varia de acordo com as ofertas da AMD ou Intel. A Lenovo oferece suporte a placas GPU NVIDIA e AMD hoje, com suporte futuro para Intel Guadi 3.

O Lenovo SR685a V3 (pequeno a para IA) utiliza processadores AMD EPYC duplos de 4ª geração e é especificamente otimizado para comunicações de GPU para GPU de alta largura de banda, tornando-o ideal para aplicativos de IA generativos. Por outro lado, o SR680a V3, equipado com processadores escaláveis ​​Intel Xeon de 5ª geração, oferece suporte a aplicações computacionais e de IA versáteis, acomodando GPUs NVIDIA e AMD para diversas necessidades do setor. Ambos os modelos adotam uma abordagem inovadora à modularidade, permitindo aos usuários personalizar e dimensionar seus sistemas para alinhá-los precisamente com demandas operacionais específicas.

Esses servidores são muito procurados (embora muito difíceis de conseguir no momento) e geraram um burburinho significativo na conferência da Lenovo no ano passado em Austin. Há um grande entusiasmo em torno desses servidores GPU e seu potencial para aprimorar os recursos de IA.

Modelos Configuráveis ​​e Personalização

Os sistemas Lenovo ThinkSystem SR685a V3 e SR680a V3 são oferecidos em vários modelos configurados sob encomenda (CTO) que servem como uma estrutura para personalização. A capacidade de personalizar modelos de configuração se estende à seleção detalhada de GPUs, onde os modelos são definidos com base nas GPUs específicas selecionadas. Por exemplo, os códigos de recursos básicos listados no configurador da Lenovo permitem a seleção entre o AMD MI300X e o NVIDIA H100/H200, cada um atendendo a diferentes necessidades computacionais e de desempenho. O design da plataforma dá à Lenovo maior flexibilidade na integração de novos aceleradores à medida que chegam ao mercado.

Especificações do Lenovo Think System SR685a V3

Componentes Especificação
Fator de forma Rack 8U
Subcontratante Dois processadores AMD EPYC série 9004 (anteriormente codinome “Genoa”). Suporta processadores de até 64 núcleos, velocidades de núcleo de até 3.1 GHz e classificações de TDP de até 400W. Suporta PCIe 5.0 para E/S de alto desempenho.
GPUs Escolha de:

  • Oito GPUs AMD MI300X 750W OAM com 192 GB de memória GPU HBM3 por GPU
  • Oito GPUs NVIDIA H100 700W SXM5 com 80 GB de memória GPU HBM3 por GPU
  • Oito GPUs NVIDIA H200 700W SXM5 com 141 GB de memória GPU HBM3 por GPU
Memória 24 slots DIMM com dois processadores (12 slots DIMM por processador). Cada processador possui 12 canais de memória, com 1 DIMM por canal (DPC). Os RDIMMs Lenovo TruDDR5 são suportados até 4800 MHz.
Memória máxima Até 1.5 TB com 24 RDIMMs de 64 GB
Até 2.25 TB com 24 RDIMMs de 96 GB
Proteção de memória ECC, SDDC, depuração de patrulha/demanda, falha limitada, paridade de comando de endereço DRAM com repetição, nova tentativa de erro ECC não corrigido de DRAM, ECC na matriz, verificação e limpeza de erros ECC (ECS), reparo pós-pacote
Baias da unidade de disco Até 16 compartimentos de unidade hot-swap de 2.5 polegadas com suporte para unidades PCIe 5.0 NVMe.
Unidades de inicialização do sistema operacional Suporte para adaptador M.2 com RAID-1 integrado; suporte para 2 unidades NVMe M.2 para inicialização do sistema operacional e funções de armazenamento de dados
Armazenamento interno máximo 51.2 TB usando 16 SSDs NVMe de 3.2 TB e 2.5 polegadas
Controlador de armazenamento NVMe integrado (não RAID)
Interfaces de rede Ele suporta 8 adaptadores de rede de alto desempenho com conectividade de até 400 Gb/s com suporte GPU Direct. Ele suporta um adaptador NVIDIA BlueField-3 de 2 portas de 200 Gb para o plano de usuário/controle e uma opção de adaptador de rede OCP para gerenciamento. O slot OCP 3.0 possui uma interface de host PCIe 5.0 x16, com uma porta opcionalmente compartilhada com o processador de gerenciamento XClarity Controller 2 (XCC2) para suporte Wake-on-LAN e NC-SI.
Slots de expansão PCI 10 slots PCIe 5.0 x16:

  • Frente: 8 slots PCIe 5.0 x16 FHHL com suporte GPU Direct
  • Traseira: 1x slot PCIe 5.0 x16 FHHL + 1x slot OCP 3.0 com interface PCIe 5.0 x16
Portas Frente: 1x porta USB 3.2 G1 (5 Gb/s), 1x porta USB 2.0 (também para gerenciamento local XCC), 1x porta de vídeo VGA.
Parte traseira: 3 portas USB 3.2 G1 (5 Gb/s), 1 porta de vídeo VGA, 1 porta de gerenciamento de sistemas RJ-45 1 GbE para gerenciamento remoto XCC.
Resfriamento 5 ventiladores de rotor duplo montados na frente para a CPU e o subsistema de armazenamento, redundantes N+1. 10 ventoinhas de rotor duplo montadas na parte traseira para o subsistema GPU, redundantes N+1. Um ventilador está integrado em cada fonte de alimentação. Fluxo de ar frontal para traseiro.
Fonte de energia Oito fontes de alimentação CA redundantes hot-swap com redundância de até N+N. Certificação 80 PLUS Titânio. Fontes de alimentação de 2600 W CA que requerem alimentação de 220 V CA.
Vídeo Gráficos de vídeo incorporados com 16 MB de memória e um acelerador de hardware 2D estão integrados ao XClarity Controller. Duas portas de vídeo (VGA frontal e VGA traseira) não podem ser usadas simultaneamente; usar a porta VGA frontal desativa a porta VGA traseira. A resolução máxima é 1920×1200 32bpp a 60Hz.
Peças hot-swap Unidades, fontes de alimentação e ventiladores.
Gestão de sistemas Painel de diagnóstico integrado com LEDs de status e display LCD removível. Gerenciamento integrado do XClarity Controller 2 (XCC2) baseado no controlador de gerenciamento de placa base ASPEED AST2600 (BMC). Porta Ethernet traseira dedicada para acesso remoto XCC2 para gerenciamento. XClarity Administrator para gerenciamento centralizado de infraestrutura, plug-ins XClarity Integrator e gerenciamento centralizado de energia do servidor XClarity Energy Manager. O XCC Platinum opcional permitirá funções de controle remoto e outros recursos.
Os recursos de segurança Senha de inicialização, senha do administrador, módulo Root of Trust com suporte para TPM 2.0 e Platform Firmware Resiliency (PFR).
Sistemas operacionais suportados Servidor Ubuntu.
Garantia limitada Unidade substituível pelo cliente de três ou um ano (dependendo do modelo) e garantia limitada no local com 9 × 5 no próximo dia útil (NBD).
Serviço e suporte Atualizações de serviço opcionais estão disponíveis nos Serviços Lenovo: tempo de resposta de 4 ou 2 horas, tempo de correção de 6 horas, extensão de garantia de 1 ou 2 anos, suporte de software para hardware Lenovo e alguns aplicativos de terceiros.
Dimensões Largura: 447 mm (17.6 pol.), Altura: 351 mm (13.8 pol.), Profundidade: 924 mm (36.3 pol.).
Peso Máximo: 108.9 kg (240 lb)

Especificações do Lenovo Think System SR680a V3 

Componentes Especificação
Fator de forma Rack 8U
Subcontratante Dois processadores escaláveis ​​Intel Xeon de 5ª geração (anteriormente codinome “Emerald Rapids”). Suporta um processador com 48 núcleos, velocidade de núcleo de 2.3 GHz e classificação TDP de 350W. Suporta PCIe 5.0 para E/S de alto desempenho.
Chipset Chipset Intel C741 “Emmitsburg”, parte da plataforma de codinome “Eagle Stream”
GPUs Escolha de:

  • Oito GPUs AMD MI300X 750W OAM com 192 GB de memória GPU HBM3 por GPU
  • Oito GPUs NVIDIA H100 700W SXM5 com 80 GB de memória GPU HBM3 por GPU
  • Oito GPUs NVIDIA H200 700W SXM5 com 141 GB de memória GPU HBM3 por GPU
Memória 32 slots DIMM com dois processadores (16 slots DIMM por processador). Cada processador possui 8 canais de memória, com 2 DIMMs por canal (DPC). RDIMMs Lenovo TruDDR5 são suportados. Os DIMMs operam em até 5600 MHz em 1 DPC e até 4400 MHz em 2 DPC.
Memória máxima Até 2 TB com 32 RDIMMs de 64 GB
Proteção de memória ECC, SDDC (para DIMMs de memória baseados em x4), ADDDC (para DIMMs de memória baseados em x4, excluindo RDIMMs 9×4, requer processadores Platinum ou Gold) e espelhamento de memória.
Baias da unidade de disco Até 16 compartimentos de unidade hot-swap de 2.5 polegadas com suporte para unidades PCIe 5.0 NVMe.
Unidades de inicialização do sistema operacional Suporte para duas unidades M.2 com suporte opcional Intel VROC NVMe RAID para inicialização do sistema operacional e funções de armazenamento de dados
Armazenamento interno máximo 51.2 TB usando 16 SSDs NVMe de 3.2 TB e 2.5 polegadas
Controlador de armazenamento NVMe integrado (não RAID)
Interfaces de rede Suporta 8 adaptadores de rede de alto desempenho com conectividade de até 400 Gb/s com suporte GPU Direct. Suporta um adaptador NVIDIA BlueField-3 de 2 portas de 200 Gb para o plano de usuário/controle e um adaptador Mellanox ConnectX-6 Lx de 2 portas de 10/25 GbE para gerenciamento.
Slots de expansão PCI 10 slots PCIe 5.0 x16:

  • Frente: 8 slots PCIe 5.0 x16 FHHL com suporte GPU Direct
  • Traseira: 2 slots PCIe 5.0 x16 FHHL
Portas Frente: 1x porta USB 3.2 G1 (5 Gb/s), 1x porta USB 2.0 (também para gerenciamento local XCC), 1x porta de vídeo Mini DisplayPort.
Parte traseira: 2 portas USB 3.2 G1 (5 Gb/s), 1 porta de vídeo VGA, 1 porta de gerenciamento de sistemas RJ-45 1 GbE para gerenciamento remoto XCC.
Resfriamento 5 ventiladores de rotor duplo montados na frente para a CPU e o subsistema de armazenamento, redundantes N+1. 10 ventoinhas de rotor duplo montadas na parte traseira para o subsistema GPU, redundantes N+1. Um ventilador está integrado em cada fonte de alimentação. Fluxo de ar frontal para traseiro.
Fonte de energia Oito fontes de alimentação CA redundantes hot-swap com redundância de até N+N. Certificação 80 PLUS Titânio. Fontes de alimentação de 2600 W CA que requerem alimentação de 220 V CA.
Vídeo Gráficos incorporados com 16 MB de memória e um acelerador de hardware 2D estão integrados ao controlador de gerenciamento XClarity Controller 2. Duas portas de vídeo (Mini DisplayPort frontal e VGA traseira); ambos podem ser usados ​​simultaneamente, se desejado. A resolução máxima de ambas as portas é 1920×1200 a 60Hz.
Peças hot-swap Unidades, fontes de alimentação e ventiladores.
Gestão de sistemas Painel de diagnóstico integrado com LEDs de status e display LCD removível. Gerenciamento integrado do XClarity Controller 2 (XCC2) baseado no controlador de gerenciamento de placa base ASPEED AST2600 (BMC). Porta Ethernet traseira dedicada para acesso remoto XCC2 para gerenciamento. XClarity Administrator para gerenciamento centralizado de infraestrutura, plug-ins XClarity Integrator e gerenciamento centralizado de energia do servidor XClarity Energy Manager. O XCC Platinum opcional permite funções de controle remoto e outros recursos.
Os recursos de segurança Senha de inicialização, senha do administrador, módulo Root of Trust com suporte para TPM 2.0 e Platform Firmware Resiliency (PFR).
Sistemas operacionais suportados Servidor Ubuntu.
Garantia limitada Unidade substituível pelo cliente de três ou um ano (dependendo do modelo) e garantia limitada no local com 9 × 5 no próximo dia útil (NBD).
Serviço e suporte Atualizações de serviço opcionais estão disponíveis nos Serviços Lenovo: tempo de resposta de 4 ou 2 horas, tempo de correção de 6 horas, extensão de garantia de 1 ou 2 anos, suporte de software para hardware Lenovo e alguns aplicativos de terceiros.
Dimensões Largura: 447 mm (17.6 pol.), Altura: 351 mm (13.8 pol.), Profundidade: 924 mm (36.3 pol.).
Peso Máximo: 108.7 kg (239.8 lb)

Lenovo ThinkSystem SR685a V3 e SR680a V3 Design e construção

A parte frontal do sistema suporta até 16 compartimentos de unidade PCIe Gen5 NVMe hot-swap – uma quantidade excepcionalmente generosa para servidores centrados em GPU, que normalmente oferecem menos compartimentos e pistas para expansão. Abaixo dos compartimentos de unidade estão os oito slots PCIe Gen5 FHHL (altura total, meio comprimento) acessíveis pela frente e o complexo de comutação PCIe. Esses slots são equipados com tecnologia GPU Direct (oito adaptadores NDR 400Gb/s InfiniBand), permitindo rede de alta velocidade e transferências de dados para reduzir a latência e aumentar a velocidade de processamento de dados.

O sistema abriga cinco ventoinhas hot-swap na parte superior do chassi, projetadas para resfriar o servidor, que ocupa os 2U superiores, incluindo CPU, memória e slots traseiros. Dez ventoinhas adicionais são montadas na parte traseira do chassi para resfriar os compartimentos de unidade, adaptadores e GPUs.

O painel frontal também abriga portas essenciais de conectividade e gerenciamento, incluindo três portas USB 3.2 Gen1 e uma saída de vídeo, facilitando o gerenciamento direto e as interações locais do console.

A parte traseira está igualmente bem equipada, incluindo recursos de expansão de servidor 2U. A variante AMD oferece um slot PCIe Gen5 x16 FHHL junto com um slot OCP 3.0 equipado com uma interface PCIe Gen5 x16. Por outro lado, o modelo Intel possui dois slots PCIe Gen5 x16 FHHL. Um slot OCP 3.0 oferece versatilidade em opções de rede e aceleração, acomodando várias placas adaptadoras que aderem a padrões abertos. Os adaptadores NVIDIA BlueField-3 DPU podem ser instalados para permitir uma infraestrutura de TI definida por software e acelerada por hardware, otimizando diversas operações de TI, como rede e segurança.

A parte traseira da unidade GPU abriga oito fontes de alimentação de 2,600 W, cada uma conectada a um quadro de distribuição central. Esta configuração inclui conectores na parte traseira da placa - chamados pela Lenovo de 'companheiro cego' - que facilitam a conexão perfeita com o shuttle de computação 2U.

Além disso, como mencionado acima, a visão traseira revela o extenso sistema de resfriamento do servidor, incluindo dez ventoinhas traseiras hot-swap projetadas para manter condições térmicas ideais em GPUs, switches e malha PCIe. Este sistema de resfriamento é crucial para manter a estabilidade e a longevidade do desempenho do hardware, especialmente durante operações contínuas de alta carga.

Energia, cabeamento e comutação

As versões AMD e Intel desta família de servidores compartilham um layout de alimentação comum, permitindo maior modularidade, que é o grande destaque destes sistemas.

A sinalização PCIe flui através de cabos de fita que conectam o suporte de computação ao suporte de comutação PCIe. Do outro lado do trenó de computação, há uma conexão cega. O suporte de computação se encaixa nesses conectores, passando a sinalização PCIe para o restante do chassi. O suporte na parte traseira do sled (rotulado com sua conexão PCIe designada) permite alternar entre os ônibus de computação sem alterar a parte inferior do servidor.

A placa de comutação PCIe inclui quatro switches Broadcom cercados por slots PCIe, permitindo que o servidor se conecte a uma estrutura de rede de alta velocidade. Além disso, existem oito conectores de cabo MCIO conectados à placa-mãe. Os conectores PCIe menores na parte superior são designados para os backplanes da unidade para SSDs NVMe de montagem frontal.

Memória e armazenamento interno

A computação AMD suporta até 24 DIMMs de memória DDR5, com cada processador fazendo interface com 12 DIMMs por meio de 12 canais de memória, permitindo a configuração de um DIMM por canal. Esses DIMMs operam a uma velocidade de 4800 MHz, melhorando o rendimento e a eficiência geral da memória. Dependendo da configuração, o servidor pode suportar 1.5 TB de memória do sistema usando 24 RDIMMs de 64 GB ou 2.25 TB usando 24 RDIMMs de 96 GB, fornecendo ampla capacidade até mesmo para as tarefas que exigem mais memória.

A computação Intel (SR680a V3) aproveita a memória Lenovo TruDDR5 que opera em velocidades de até 5600 MHz. Ele também suporta uma capacidade maior que a AMD com até 32 DIMMs em dois processadores, utilizando 8 canais de memória para suportar 2 DIMMs por canal (DPC). Dependendo da configuração da memória, o servidor pode suportar até 2 TB de memória do sistema usando 32 RDIMMs de 64 GB.

As velocidades operacionais dos DIMMs variam com base no número de DIMMs por canal: com 1 DIMM por canal, a memória pode atingir velocidades de até 5600 MHz, enquanto configurações com 2 DIMMs por canal operarão em até 4400 MHz. Esse ajuste flexível de velocidade ajuda a otimizar o desempenho com base na carga e configuração específicas da memória.

Além disso, o servidor acomoda duas unidades M.2 NVMe em um adaptador M.2 com funcionalidade RAID integrada, ideal para processos de inicialização do sistema operacional e acesso rápido a dados.

Placas GPU AMD e NVIDIA

A placa NVIDIA H100/H200 vem com oito GPUs NVIDIA e possui uma alça retrátil que facilita o transporte e a instalação da placa. Depois de instalada, a alça fica bem posicionada ao lado das GPUs para evitar obstruções. Os conectores entre as placas AMD e NVIDIA são idênticos. A placa Intel Gaudi 3 terá um conector diferente.

A placa AMD MI300 é semelhante à placa NVIDIA, mas possui uma alça padrão que se projeta significativamente. Embora ainda seja útil, não é tão elegante quanto a alça retrátil da placa NVIDIA. Os clientes não vão se importar de qualquer maneira, então adicionamos a nota de rodapé porque a diferença no design chamou nossa atenção.

Considerações Finais

Os servidores GPU Lenovo ThinkSystem SR685a V3 e SR680a V3 oferecem modularidade impressionante, suportando poderosas GPUs NVIDIA H100/H200 e AMD MI300X, bem como AMD EPYC 9004 e 5th CPUs Intel Geração Xeon. Esta flexibilidade e um design refrigerado a ar facilitam a sua integração nos ecossistemas existentes. Os servidores também suportam mais armazenamento do que os servidores GPU típicos (por meio de 16 compartimentos de unidade PCIe Gen5 NVMe hot-swap), aprimorando sua utilidade para tarefas com uso intensivo de dados. Além disso, a inclusão do XClarity da Lenovo para gerenciamento garante operações e monitoramento simplificados, simplificando ainda mais o gerenciamento de infraestruturas complexas.

Apesar de não terem sido realizados testes de desempenho, o design destes servidores é notável. A arquitetura modular permite que a Lenovo ofereça hoje facilmente aos seus clientes GPUs AMD e NVIDIA, com servidores de computador Intel ou AMD. Com mais suporte de GPU, como Intel Guadi 3 e NVIDIA B200, a Lenovo pode permitir que os clientes misturem e combinem os componentes de computação e GPU para ajustar os servidores para aplicações específicas.

No geral, esses servidores são muito bem pensados ​​e estamos ansiosos para trabalhar com eles; Jordan está acariciando a barba ansiosamente, com expectativa. Embora estejamos atualmente trabalhando em um projeto com o Lenovo SR675 v3 com quatro GPUs NVIDIA L40S, esses servidores de 8 vias são diferentes e têm uma ampla variedade de casos de uso de IA. Este é um bom lembrete, porém, de que a Lenovo oferece uma plataforma de IA para todos.

Servidores GPU Lenovo

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed