Casa Impresa Server GPU Lenovo ThinkSystem SR685a V3 e SR680a V3

Server GPU Lenovo ThinkSystem SR685a V3 e SR680a V3

by Lile Smith

I server GPU Lenovo ThinkSystem SR685a V3 e SR680a V3 sono i più recenti server GPU a 8 vie dell'azienda, personalizzati per soddisfare le diverse esigenze di IA aziendale.

I server GPU Lenovo ThinkSystem SR685a V3 e SR680a V3 sono i più recenti server GPU a 8 vie dell'azienda, personalizzati per soddisfare le diverse esigenze di IA aziendale. Nonostante abbiano nomi di modelli distinti, condividono una base modulare, consentendo componenti intercambiabili all'interno di ciascun sistema.

Fondamentalmente, questi server hanno tre o quattro componenti principali, a seconda di come li conti. Innanzitutto, un involucro esterno costituisce il guscio del telaio con ventole integrate nella parte posteriore. Sono presenti binari interni che sostengono un server modulare 2U nella parte superiore. Il 6U inferiore ospita GPU, switch e struttura PCIe. I server 2U dispongono di I/O che varia in base alle offerte AMD o Intel. Lenovo supporta oggi le schede GPU NVIDIA e AMD, con il futuro supporto di Intel Guadi 3.

Lenovo SR685a V3 (piccolo a per l'intelligenza artificiale) utilizza doppi processori AMD EPYC di quarta generazione ed è specificamente ottimizzato per le comunicazioni GPU-GPU a larghezza di banda elevata, rendendolo ideale per le applicazioni di intelligenza artificiale generativa. Al contrario, l'SR4a V680, dotato di processori scalabili Intel Xeon di quinta generazione, supporta versatili applicazioni computazionali e di intelligenza artificiale, adattando GPU NVIDIA e AMD per diverse esigenze del settore. Entrambi i modelli adottano un approccio innovativo alla modularità, consentendo agli utenti di personalizzare e scalare i propri sistemi per allinearli con precisione alle specifiche esigenze operative.

Questi server sono molto ricercati (anche se è molto difficile trovarli al momento) e hanno suscitato notevole interesse alla conferenza di Lenovo lo scorso anno ad Austin. C'è grande entusiasmo attorno a questi server GPU e al loro potenziale di far avanzare le capacità di intelligenza artificiale.

Modelli configurabili e personalizzazione

I sistemi Lenovo ThinkSystem SR685a V3 e SR680a V3 sono offerti in vari modelli CTO (configure-to-order) che fungono da framework per la personalizzazione. La possibilità di personalizzare i modelli di configurazione si estende alla selezione dettagliata delle GPU, dove i modelli vengono definiti in base alle GPU specifiche selezionate. Ad esempio, i codici delle funzionalità di base elencati nel configuratore Lenovo consentono la selezione tra AMD MI300X e NVIDIA H100/H200, ciascuno dei quali soddisfa diverse esigenze di prestazioni ed elaborazione. Il design della piattaforma offre a Lenovo una maggiore flessibilità nell'integrazione di nuovi acceleratori non appena arrivano sul mercato.

Specifiche Lenovo ThinkSystem SR685a V3

Componenti Specificazione
Fattore di forma Rack 8U
Processore Due processori AMD EPYC serie 9004 (precedentemente nome in codice "Genoa"). Supporta processori fino a 64 core, velocità core fino a 3.1 GHz e valori TDP fino a 400 W. Supporta PCIe 5.0 per I/O ad alte prestazioni.
GPU Scelta di:

  • Otto GPU AMD MI300X 750W OAM con memoria GPU HBM192 da 3 GB per GPU
  • Otto GPU NVIDIA H100 700W SXM5 con memoria GPU HBM80 da 3 GB per GPU
  • Otto GPU NVIDIA H200 700W SXM5 con memoria GPU HBM141 da 3 GB per GPU
Memorie 24 slot DIMM con due processori (12 slot DIMM per processore). Ogni processore dispone di 12 canali di memoria, con 1 DIMM per canale (DPC). Gli RDIMM Lenovo TruDDR5 sono supportati fino a 4800 MHz.
Memoria massima Fino a 1.5 TB con 24 RDIMM da 64 GB
Fino a 2.25 TB con 24 RDIMM da 96 GB
Protezione della memoria ECC, SDDC, Patrol/Demand Scrubbing, Bounded Fault, DRAM Address Command Parity with Replay, DRAM Uncorrected ECC Error Retry, ECC on-die, ECC Error Check and Scrub (ECS), Post Package Repair
Alloggiamenti per unità disco Fino a 16 alloggiamenti per unità hot-swap da 2.5 pollici che supportano unità PCIe 5.0 NVMe.
Unità di avvio del sistema operativo Supporto per un adattatore M.2 con RAID-1 integrato; supporto per 2 unità NVMe M.2 per funzioni di avvio del sistema operativo e archiviazione dei dati
Memoria interna massima 51.2 TB utilizzando 16 SSD NVMe da 3.2 pollici e 2.5 TB
Controller di archiviazione NVMe integrato (non RAID)
Interfacce di rete Supporta 8 adattatori di rete ad alte prestazioni fino a 400 Gb/s di connettività con supporto GPU Direct. Supporta un adattatore NVIDIA BlueField-3 a 2 porte da 200 Gb per il piano utente/controllo e una scelta di adattatori di rete OCP per la gestione. Lo slot OCP 3.0 dispone di un'interfaccia host PCIe 5.0 x16, con una porta condivisa facoltativamente con il processore di gestione XClarity Controller 2 (XCC2) per il supporto Wake-on-LAN e NC-SI.
Slot di espansione PCI 10 slot PCIe 5.0 x16:

  • Lato anteriore: 8 slot PCIe 5.0 x16 FHHL con supporto GPU Direct
  • Lato posteriore: 1x slot PCIe 5.0 x16 FHHL + 1x slot OCP 3.0 con interfaccia PCIe 5.0 x16
porte Fronte: 1x porta USB 3.2 G1 (5 Gb/s), 1x porta USB 2.0 (anche per gestione locale XCC), 1x porta video VGA.
Parte posteriore: 3 porte USB 3.2 G1 (5 Gb/s), 1 porta video VGA, 1 porta di gestione dei sistemi RJ-45 1GbE per la gestione remota XCC.
Raffreddamento 5 ventole a doppio rotore montate frontalmente per la CPU e il sottosistema di archiviazione, N+1 ridondanti. 10 ventole a doppio rotore montate sul retro per il sottosistema GPU, N+1 ridondanti. In ciascun alimentatore è integrata una ventola. Flusso d'aria dalla parte anteriore a quella posteriore.
Alimentazione elettrica Otto alimentatori CA ridondanti hot-swap con ridondanza fino a N+N. Certificazione 80 PLUS Titanio. Alimentatori CA da 2600 W che richiedono un'alimentazione CA da 220 V.
Video La grafica video incorporata con 16 MB di memoria e un acceleratore hardware 2D sono integrati nel controller XClarity. Non è possibile utilizzare contemporaneamente due porte video (VGA anteriore e VGA posteriore); l'utilizzo della porta VGA anteriore disabilita la porta VGA posteriore. La risoluzione massima è 1920×1200 32bpp a 60Hz.
Parti sostituibili a caldo Azionamenti, alimentatori e ventole.
Gestione dei sistemi Pannello diagnostico integrato con LED di stato e display LCD estraibile. Gestione integrata XClarity Controller 2 (XCC2) basata sul controller di gestione baseboard ASPEED AST2600 (BMC). Porta Ethernet posteriore dedicata per l'accesso remoto XCC2 per la gestione. XClarity Administrator per la gestione centralizzata dell'infrastruttura, plug-in XClarity Integrator e gestione centralizzata dell'alimentazione del server XClarity Energy Manager. L'XCC Platinum opzionale abiliterà le funzioni di controllo remoto e altre funzionalità.
Caratteristiche di sicurezza Password di accensione, password dell'amministratore, modulo Root of Trust che supporta TPM 2.0 e resilienza firmware della piattaforma (PFR).
Sistemi operativi supportati Server Ubuntu.
Garanzia limitata Unità sostituibile dal cliente di tre anni o un anno (a seconda del modello) e garanzia limitata on-site con assistenza entro il giorno lavorativo successivo (NBD) 9×5.
Assistenza e supporto Gli aggiornamenti del servizio opzionali sono disponibili tramite i servizi Lenovo: tempo di risposta di 4 o 2 ore, tempo di correzione di 6 ore, estensione della garanzia di 1 o 2 anni, supporto software per l'hardware Lenovo e alcune applicazioni di terze parti.
Dimensioni Larghezza: 447 mm (17.6 pollici), altezza: 351 mm (13.8 pollici), profondità: 924 mm (36.3 pollici).
Peso Massimo: 108.9 kg (240 libbre)

Specifiche Lenovo ThinkSystem SR680a V3 

Componenti Specificazione
Fattore di forma Rack 8U
Processore Due processori scalabili Intel Xeon di quinta generazione (in precedenza nome in codice "Emerald Rapids"). Supporta un processore con 5 core, velocità core di 48 GHz e rating TDP di 2.3 W. Supporta PCIe 350 per I/O ad alte prestazioni.
chipset Chipset Intel C741 “Emmitsburg”, parte della piattaforma nome in codice “Eagle Stream”
GPU Scelta di:

  • Otto GPU AMD MI300X 750W OAM con memoria GPU HBM192 da 3 GB per GPU
  • Otto GPU NVIDIA H100 700W SXM5 con memoria GPU HBM80 da 3 GB per GPU
  • Otto GPU NVIDIA H200 700W SXM5 con memoria GPU HBM141 da 3 GB per GPU
Memorie 32 slot DIMM con due processori (16 slot DIMM per processore). Ogni processore dispone di 8 canali di memoria, con 2 DIMM per canale (DPC). Sono supportati gli RDIMM Lenovo TruDDR5. I DIMM funzionano fino a 5600 MHz con 1 DPC e fino a 4400 MHz con 2 DPC.
Memoria massima Fino a 2 TB con 32 RDIMM da 64 GB
Protezione della memoria ECC, SDDC (per DIMM di memoria basati su x4), ADDDC (per DIMM di memoria basati su x4 esclusi RDIMM 9×4, richiede processori Platinum o Gold) e mirroring della memoria.
Alloggiamenti per unità disco Fino a 16 alloggiamenti per unità hot-swap da 2.5 pollici che supportano unità PCIe 5.0 NVMe.
Unità di avvio del sistema operativo Supporto per due unità M.2 con supporto RAID Intel VROC NVMe opzionale per funzioni di avvio del sistema operativo e archiviazione dei dati
Memoria interna massima 51.2 TB utilizzando 16 SSD NVMe da 3.2 pollici e 2.5 TB
Controller di archiviazione NVMe integrato (non RAID)
Interfacce di rete Supporta 8 adattatori di rete ad alte prestazioni fino a 400 Gb/s di connettività con supporto GPU Direct. Supporta un adattatore NVIDIA BlueField-3 a 2 porte da 200 Gb per il piano utente/controllo e un adattatore Mellanox ConnectX-6 Lx a 2 porte 10/25 GbE per la gestione.
Slot di espansione PCI 10 slot PCIe 5.0 x16:

  • Lato anteriore: 8 slot PCIe 5.0 x16 FHHL con supporto GPU Direct
  • Lato posteriore: 2 slot PCIe 5.0 x16 FHHL
porte Fronte: 1x porta USB 3.2 G1 (5 Gb/s), 1x porta USB 2.0 (anche per gestione locale XCC), 1x porta video Mini DisplayPort.
Parte posteriore: 2 porte USB 3.2 G1 (5 Gb/s), 1 porta video VGA, 1 porta di gestione dei sistemi RJ-45 1GbE per la gestione remota XCC.
Raffreddamento 5 ventole a doppio rotore montate frontalmente per la CPU e il sottosistema di archiviazione, N+1 ridondanti. 10 ventole a doppio rotore montate sul retro per il sottosistema GPU, N+1 ridondanti. In ciascun alimentatore è integrata una ventola. Flusso d'aria dalla parte anteriore a quella posteriore.
Alimentazione elettrica Otto alimentatori CA ridondanti hot-swap con ridondanza fino a N+N. Certificazione 80 PLUS Titanio. Alimentatori CA da 2600 W che richiedono un'alimentazione CA da 220 V.
Video La grafica incorporata con 16 MB di memoria e un acceleratore hardware 2D sono integrati nel controller di gestione XClarity Controller 2. Due porte video (Mini DisplayPort anteriore e VGA posteriore); entrambi possono essere utilizzati contemporaneamente se lo si desidera. La risoluzione massima di entrambe le porte è 1920×1200 a 60Hz.
Parti sostituibili a caldo Azionamenti, alimentatori e ventole.
Gestione dei sistemi Pannello diagnostico integrato con LED di stato e display LCD estraibile. Gestione integrata XClarity Controller 2 (XCC2) basata sul controller di gestione baseboard ASPEED AST2600 (BMC). Porta Ethernet posteriore dedicata per l'accesso remoto XCC2 per la gestione. XClarity Administrator per la gestione centralizzata dell'infrastruttura, plug-in XClarity Integrator e gestione centralizzata dell'alimentazione del server XClarity Energy Manager. L'XCC Platinum opzionale abilita le funzioni di controllo remoto e altre funzionalità.
Caratteristiche di sicurezza Password di accensione, password dell'amministratore, modulo Root of Trust che supporta TPM 2.0 e resilienza firmware della piattaforma (PFR).
Sistemi operativi supportati Server Ubuntu.
Garanzia limitata Unità sostituibile dal cliente di tre anni o un anno (a seconda del modello) e garanzia limitata on-site con assistenza entro il giorno lavorativo successivo (NBD) 9×5.
Assistenza e supporto Gli aggiornamenti del servizio opzionali sono disponibili tramite i servizi Lenovo: tempo di risposta di 4 o 2 ore, tempo di correzione di 6 ore, estensione della garanzia di 1 o 2 anni, supporto software per l'hardware Lenovo e alcune applicazioni di terze parti.
Dimensioni Larghezza: 447 mm (17.6 pollici), altezza: 351 mm (13.8 pollici), profondità: 924 mm (36.3 pollici).
Peso Massimo: 108.7 kg (239.8 libbre)

Progettazione e costruzione di Lenovo ThinkSystem SR685a V3 e SR680a V3

La parte anteriore del sistema supporta fino a 16 alloggiamenti per unità PCIe Gen5 NVMe hot-swap, una quantità insolitamente generosa per i server incentrati sulla GPU, che in genere offrono meno alloggiamenti e corsie per l'espansione. Sotto gli alloggiamenti delle unità si trovano gli otto slot PCIe Gen5 FHHL (Full Height, Half Length) accessibili frontalmente e il complesso di commutazione PCIe. Questi slot sono dotati della tecnologia GPU Direct (otto adattatori InfiniBand NDR 400Gb/s), che consente networking e trasferimenti dati ad alta velocità per ridurre la latenza e aumentare la velocità di elaborazione dei dati.

Il sistema ospita cinque ventole sostituibili a caldo nella parte superiore dello chassis, progettate per raffreddare il server, che occupa la parte superiore 2U, inclusa CPU, memoria e slot posteriori. Altre dieci ventole sono montate sul retro dello chassis per raffreddare gli alloggiamenti delle unità, gli adattatori e le GPU.

Il pannello frontale ospita inoltre porte di connettività e gestione essenziali, tra cui tre porte USB 3.2 Gen1 e un'uscita video, facilitando la gestione diretta e le interazioni con la console locale.

La parte posteriore è altrettanto ben equipaggiata, comprese le capacità di espansione del server 2U. La variante AMD offre uno slot PCIe Gen5 x16 FHHL insieme a uno slot OCP 3.0 dotato di un'interfaccia PCIe Gen5 x16. Al contrario, il modello Intel ha due slot PCIe Gen5 x16 FHHL. Uno slot OCP 3.0 offre versatilità nelle opzioni di rete e accelerazione ospitando varie schede adattatrici che aderiscono a standard aperti. È possibile installare gli adattatori DPU NVIDIA BlueField-3 per abilitare un'infrastruttura IT definita dal software e accelerata dall'hardware, ottimizzando varie operazioni IT come il networking e la sicurezza.

La parte posteriore dell'unità GPU ospita otto alimentatori da 2,600 W, ciascuno collegato a una scheda di distribuzione centrale. Questa configurazione include connettori sul lato posteriore della scheda, definiti da Lenovo "blind mate", che facilitano la connessione diretta allo shuttle di calcolo 2U.

Inoltre, come accennato in precedenza, la vista posteriore rivela l'ampio sistema di raffreddamento del server, comprese dieci ventole posteriori hot-swap progettate per mantenere condizioni termiche ottimali su GPU, switch e struttura PCIe. Questo sistema di raffreddamento è fondamentale per mantenere la stabilità e la longevità delle prestazioni dell'hardware, soprattutto durante le operazioni continue a carico elevato.

Alimentazione, cablaggio e commutazione

Le versioni AMD e Intel di questa famiglia di server condividono un layout di alimentazione comune, consentendo una maggiore modularità, che è il punto di forza di questi sistemi.

La segnalazione PCIe scorre attraverso cavi a nastro che collegano lo sled di elaborazione allo sled di commutazione PCIe. Dall'altro lato della slitta di calcolo c'è una connessione cieca. La slitta di calcolo si accoppia a questi connettori, trasmettendo il segnale PCIe al resto dello chassis. La staffa sul retro della slitta (etichettata con la connessione PCIe designata) consente di passare da una navetta di elaborazione all'altra senza alterare la parte inferiore del server.

La scheda di commutazione PCIe include quattro switch Broadcom circondati da slot PCIe, che consentono al server di connettersi a una struttura di rete ad alta velocità. Inoltre, sono presenti otto connettori del cavo MCIO collegati alla scheda madre. I connettori PCIe più piccoli nella parte superiore sono designati per i backplane delle unità per gli SSD NVMe a montaggio anteriore.

Memoria e archiviazione interna

Il processore AMD supporta fino a 24 DIMM di memoria DDR5, con ciascun processore che si interfaccia con 12 DIMM attraverso 12 canali di memoria, consentendo la configurazione di un DIMM per canale. Questi DIMM funzionano a una velocità di 4800 MHz, migliorando la velocità effettiva e l'efficienza complessiva della memoria. A seconda della configurazione, il server può supportare 1.5 TB di memoria di sistema utilizzando 24 RDIMM da 64 GB o 2.25 TB utilizzando 24 RDIMM da 96 GB, fornendo ampia capacità anche per le attività che richiedono più memoria.

Il processore Intel (SR680a V3) sfrutta la memoria Lenovo TruDDR5 che funziona a velocità fino a 5600 MHz. Supporta inoltre una capacità maggiore rispetto all'AMD con un massimo di 32 DIMM su due processori, utilizzando 8 canali di memoria per supportare 2 DIMM per canale (DPC). A seconda della configurazione della memoria, il server può supportare fino a 2 TB di memoria di sistema utilizzando 32 RDIMM da 64 GB.

Le velocità operative dei DIMM variano in base al numero di DIMM per canale: con 1 DIMM per canale, la memoria può raggiungere velocità fino a 5600 MHz, mentre le configurazioni con 2 DIMM per canale funzioneranno fino a 4400 MHz. Questa regolazione flessibile della velocità aiuta a ottimizzare le prestazioni in base al carico di memoria e alla configurazione specifici.

Inoltre, il server può ospitare due unità M.2 NVMe su un adattatore M.2 con funzionalità RAID integrata, ideale per i processi di avvio del sistema operativo e l'accesso rapido ai dati.

Schede GPU AMD e NVIDIA

La scheda NVIDIA H100/H200 è dotata di otto GPU NVIDIA ed è dotata di una maniglia retrattile che semplifica il trasporto e l'installazione della scheda. Una volta installata, la maniglia si ripone ordinatamente accanto alle GPU per evitare ostruzioni. I connettori tra le schede AMD e NVIDIA sono identici. La scheda Intel Gaudi 3 avrà un connettore diverso.

La scheda AMD MI300 è simile alla scheda NVIDIA ma ha una maniglia standard che sporge notevolmente. Sebbene sia ancora utile, non è elegante come la maniglia retrattile sulla scheda NVIDIA. In ogni caso, ai clienti non interesserà, quindi abbiamo aggiunto la nota a piè di pagina perché la differenza di design ha attirato la nostra attenzione.

Considerazioni finali

I server GPU Lenovo ThinkSystem SR685a V3 e SR680a V3 offrono una modularità impressionante, supportando le potenti GPU NVIDIA H100/H200 e AMD MI300X, nonché AMD EPYC 9004 e 5th CPU Intel di generazione Xeon. Questa flessibilità e il design raffreddato ad aria li rendono facili da integrare negli ecosistemi esistenti. I server supportano inoltre più spazio di archiviazione rispetto ai tipici server GPU (tramite 16 alloggiamenti per unità PCIe Gen5 NVMe hot-swap), migliorando la loro utilità per attività ad alta intensità di dati. Inoltre, l'inclusione di XClarity di Lenovo per la gestione garantisce operazioni e monitoraggio ottimizzati, semplificando ulteriormente la gestione di infrastrutture complesse.

Nonostante non siano stati condotti test sulle prestazioni, il design di questi server è notevole. L'architettura modulare consente oggi a Lenovo di offrire facilmente ai propri clienti GPU AMD e NVIDIA, con server per computer Intel o AMD. Con un maggiore supporto GPU, come Intel Guadi 3 e NVIDIA B200, Lenovo può consentire ai clienti di combinare e abbinare i componenti di elaborazione e GPU per ottimizzare i server per applicazioni specifiche.

Nel complesso, questi server sono molto ben pensati e non vediamo l'ora di trascorrere del tempo pratico con loro; Jordan si è accarezzato con ansia la barba con anticipazione. Mentre attualmente stiamo lavorando a un progetto con Lenovo SR675 v3 con quattro GPU NVIDIA L40S, questi server a 8 vie sono un animale diverso e hanno una vasta gamma di casi d'uso dell'intelligenza artificiale. Questo è un buon promemoria, tuttavia, che Lenovo offre una piattaforma AI per tutti.

Server GPU Lenovo

Interagisci con StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed