Accueil EntrepriseAI Dell PowerEdge XE9680 – Le nec plus ultra en matière d’intelligence artificielle

Dell PowerEdge XE9680 – Le nec plus ultra en matière d’intelligence artificielle

by Kevin O'Brien et Divyansh Jain

Le Dell PowerEdge XE9680 témoigne de l'innovation dans l'informatique d'entreprise, offrant aux clients le nec plus ultra en matière de flexibilité GPU.

Le PowerEdge XE9680 représente la plate-forme d'infrastructure IA la plus polyvalente de Dell à ce jour. Il associe un nœud de calcul 760U de type PowerEdge R2 à un tiroir GPU 4U massif. Cette conception 6U innovante combine le meilleur de l'ingénierie des serveurs d'entreprise de Dell avec une densité et une flexibilité GPU sans précédent.

Le XE9680 prend en charge deux processeurs Intel Xeon Scalable, offrant le choix entre la 5e génération avec jusqu'à 64 cœurs par CPU ou la 4e génération avec jusqu'à 56 cœurs. La capacité de mémoire est substantielle, prenant en charge jusqu'à 4 To de mémoire DDR5 sur 32 emplacements DIMM, fonctionnant jusqu'à 5600 XNUMX MT/s avec les derniers processeurs.

Ce qui distingue vraiment le XE9680, ce sont ses capacités GPU. La plateforme prend en charge huit GPU haute puissance. Les configurations disponibles incluent les HGX H200 (141 Go) et H100 (80 Go) de NVIDIA, l'Instinct MI300X d'AMD (192 Go) et le Gaudi3 d'Intel (128 Go). Le nouveau XE9680L la variante prend en charge les GPU B200 de nouvelle génération de NVIDIA et le refroidissement liquide direct, repoussant les limites de la densité et des performances.

Les configurations de stockage sont tout aussi flexibles, avec 8 disques NVMe/SAS/SATA 2.5" ou 16 disques NVMe E3.S. Le système peut être équipé de la carte RAID PERC NVMe H965i de Dell, simplifiant la redondance du stockage, ce qui est important pour les caches KV volumineux lors des charges de travail d'inférence.

L'alimentation électrique est conçue pour une fiabilité maximale. Six blocs d'alimentation totalisant 19200 3 W sont configurés selon une configuration redondante tolérante aux pannes (FTR) 3+XNUMX. Lorsque deux ou plusieurs blocs d'alimentation tombent en panne, le système passe en mode redondant tolérant aux pannes plutôt que de s'arrêter. Dans ce mode, le frein d'alimentation du GPU s'active, réduisant les horloges du GPU à un quart, ce qui se traduit par environ un cinquième des performances GPU typiques.

Ce choix de conception réfléchi est inestimable dans les environnements de formation à grande échelle où des centaines ou des milliers de GPU fonctionnent de concert. Plutôt que de mettre un nœud complètement hors ligne (ce qui nécessiterait de reprogrammer et de répéter les itérations de formation sur un autre nœud), le système peut continuer à fonctionner avec des performances réduites jusqu'à la prochaine fenêtre de maintenance. Une telle attention aux détails dans la gestion de l'alimentation permet de maintenir un débit de formation de modèle élevé (MFU) en minimisant les interruptions.

Les capacités d'extension sont étendues, avec jusqu'à 10 emplacements PCIe Gen5 x16 pleine hauteur et demi-longueur, dont deux prennent en charge des cartes plus puissantes au-delà de 75 W. Cette abondance de connectivité PCIe permet diverses configurations réseau, notamment des DPU et des SmartNIC, essentielles pour la création d'une infrastructure d'IA moderne.

Dell XE9680

Spécifications complètes :

Spécification Détails
Processeur Jusqu'à deux processeurs Intel® Xeon® Scalable de 5e génération (64 cœurs par CPU)
Jusqu'à deux processeurs Intel® Xeon® Scalable de 4e génération (56 cœurs par CPU)
Options GPU XE9680:
– NVIDIA HGX H200 (141 Go) SXM5 700 W
– NVIDIA HGX H100 (80 Go) SXM5 700 W
– AMD Instinct MI300X (192 Go) OAM 750 W
– Intel Gaudi3 (128 Go) OAM 900 W
Mémoire 32 emplacements DIMM
5600 MT/s (5e génération)
4800 MT/s (4e génération)
Rangements Baies de lecteur avant :
8x 2.5″ NVMe/SAS/SATA (122.88 To maximum)
16x E3.S NVMe (122.88 To max.)
Contrôleurs de stockage Contrôleurs internes :
PERC H965i (non pris en charge avec Intel Gaudi3)Démarrage interne :
Sous-système de stockage optimisé pour le démarrage (NVMe BOSS-N1) : HWRAID 1, 2 x SSD M.2
Emplacements PCIE Emplacements PCIeJusqu'à 10 emplacements PCIe Gen5 x16
(8 emplacements avec Intel Gaudi3)
Réseau 1x OCP 3.0 (en option)
2x LOM 1GbE
Alimentations 3200W Titane (277 VAC)
2800W Titane (200-240 VAC)
Dimensions Hauteur: 10.36 ″ (263.20mm)
Largeur: 18.97 "(482.00mm)
Profondeur : 39.71″ (1008.77 mm) avec lunette
Poids Jusqu'à 251.44 lb (114.05 kg)
Facteur de forme Serveur rack 6U
Direction Intégré / Sur le serveur :
iDRAC9
iDRAC direct
API RESTful iDRAC avec module de service RedfishiDRACConsoles :
Plug-in CloudIQ pour PowerEdge
OpenManage Entreprise
Plug-in OpenManage Power Manager
Plug-in de service OpenManage
Outils du plug-in OpenManage Update Manager :
Mise à jour du système Dell
Gestionnaire de référentiel Dell
Catalogues d'entreprise
API RESTful iDRAC avec Redfish
IPMI
RACADM CLIOpenManageIntégrations :
BMC TrueSight
Intégration d'OpenManage avec ServiceNow
Sécurité Micrologiciel signé cryptographiquement
Chiffrement des données au repos (SED avec gestion de clé locale ou externe)
DÉMARRAGE SÉCURISÉ
Vérification sécurisée des composants (vérification de l'intégrité du matériel)
Secure Erase
Racine de confiance en silicone
Verrouillage du système (nécessite iDRAC9 Enterprise ou Datacenter)
Refroidissement Air conditionné

Conception et configuration du Dell PowerEdge XE9680

Le PowerEdge XE9680 est un appareil imposant, mesurant 10.36 mm de haut, 263.20 mm de large et 18.97 mm de profondeur avec son cadre fixé. Lorsqu'il est entièrement chargé, il pèse 482.00 kg. Le choix du GPU aura le dernier mot sur le poids, le modèle NVIDIA H39.71/H1008.77 pesant 251.44 kg, tandis que l'unité AMD MI114.05X pèse 100 kg.

Il s'agit du premier serveur qui a nécessité une réflexion approfondie pour être chargé correctement dans notre environnement de test. Si l'on considère le poids du serveur et le nombre de personnes nécessaires pour monter le matériel, il existe une certaine marge de manœuvre pour dépasser les limites, mais à un certain stade, une ou deux personnes ne le soulèvent plus seules. Dell a la gentillesse de vous fournir une « table élévatrice » pour vous aider à comprendre comment cette plate-forme s'intègre. Pour tous ceux qui se posent la question, Kevin a chargé lui-même le XE9680 dans le rack.

Poids du châssis Description
40 livres – 70 livres Il est recommandé d'être deux personnes pour soulever.
70 livres – 120 livres Il est recommandé d'être trois personnes pour soulever.
≥ 121 livres Un élévateur de serveur est nécessaire.

Malgré sa complexité et la recommandation de Dell de faire appel à des techniciens de maintenance spécialisés, le XE9680 présente des éléments de maintenance remarquablement conviviaux. Les panneaux du serveur incluent des instructions de maintenance détaillées et des graphiques clairs, ce qui rend les procédures de maintenance étonnamment accessibles au personnel informatique expérimenté. Ces guides visuels se sont révélés inestimables lors de notre expérience pratique du système, nous permettant d'entretenir divers composants en toute confiance.

Après avoir ouvert le capot du PowerEdge XE9680, une fois passés les nombreux câbles d'alimentation de la petite sous-station électrique située au-dessus, il ressemble beaucoup à un PowerEdge R760. Notre unité était alimentée par deux processeurs Intel Xeon Platinum 8468, chacun doté de 48 cœurs à 2.1 GHz. Chaque processeur offre 80 voies PCIe, qui circulent à travers un certain nombre de commutateurs PCIe dans cette unité pour prendre en charge les GPU, les cartes réseau et les autres matériels chargés dans le XE9680.

L'une des caractéristiques techniques les plus impressionnantes est la conception de la carte de commutation PCIe (PSB). Ces cartes offrent une connectivité pour jusqu'à 10 cartes PCIe pleine hauteur et demi-longueur supplémentaires (dont deux peuvent dépasser 75 W de consommation électrique) et s'intègrent directement à la carte mère du GPU. Cette intégration directe permet la technologie GPU-direct, qui permet aux SSD et aux cartes réseau de communiquer directement avec les GPU, en contournant le processeur et en réduisant la latence pour les charges de travail d'IA gourmandes en E/S.

Chaque emplacement d'extension prend en charge une interface PCIe Gen5 x16 complète, y compris les deux emplacements inférieurs situés à l'extrême gauche et à l'extrême droite de la configuration. Alors que les huit emplacements supérieurs sont connectés via leur propre PSB, les deux emplacements inférieurs se connectent directement à la carte de base PCIe (PBB). Ces deux emplacements prennent également en charge les cartes de tirage haute puissance. De plus, il convient de noter que la configuration PCIe varie légèrement en fonction du type de GPU choisi pour le PowerEdge XE9680. Les modèles équipés d'AMD ne prennent pas en charge les SmartNIC/DPU, et les modèles Intel Gaudi3 ont deux emplacements bloqués en raison de problèmes de circulation d'air.

Le refroidissement est un autre domaine dans lequel l'expertise technique de Dell brille. Le système utilise jusqu'à 16 ventilateurs hautes performances de qualité supérieure, six dans le plateau central et dix à l'arrière. Le PowerEdge XE9680 prend en charge une large gamme de scénarios d'installation, avec des températures ambiantes allant de 10 à 35 °C (30 °C avec les GPU Intel Gaudi3). À pleine inclinaison, le serveur déplace un impressionnant débit de 1,200 XNUMX piXNUMX/min dans l'allée chaude.

Cette solution de refroidissement robuste gère même les charges thermiques les plus exigeantes, notamment celles des GPU AMD MI300X, Intel Gaudi3 ou NVIDIA H100, tout en maintenant des températures de fonctionnement optimales. Le PowerEdge XE9680 émet un bruit assez fort sous charge. Dell propose une fiche technique acoustique complète pour le XE9680 dans différentes situations, mais il est assez facile de dire que ce sera une plate-forme bruyante sous charge.

Direction

Les capacités de gestion du XE9680 s'appuient sur le système iDRAC9 de Dell, qui a fait ses preuves en entreprise et offre une gestion et une surveillance complètes du cycle de vie du serveur. Cette itération de l'iDRAC apporte plusieurs fonctionnalités optimisées pour l'IA, notamment la télémétrie détaillée du GPU, l'analyse de la consommation d'énergie et une surveillance thermique étendue conçue pour les charges de travail d'IA à haute densité.

La pile de gestion de la plateforme est particulièrement remarquable pour les déploiements d'infrastructures d'IA. Grâce à l'API RESTful d'iDRAC9 avec prise en charge de Redfish, les entreprises peuvent surveiller et gérer par programmation l'utilisation du GPU, la bande passante mémoire et les conditions thermiques, des mesures essentielles pour maintenir des performances optimales de formation et d'inférence de l'IA. L'intégration du système avec OpenManage Enterprise permet la gestion à l'échelle de la flotte de plusieurs XE9680 via une console unifiée, ce qui est essentiel pour les clusters d'IA à grande échelle.

La sécurité et la conformité sont des éléments fondamentaux de l'architecture de gestion. La plateforme implémente Silicon Root of Trust et Secure Component Verification, garantissant l'intégrité du matériel du démarrage à l'exploitation. Ces fonctionnalités sont particulièrement utiles lors de l'exécution de charges de travail d'IA sensibles ou de la gestion de pondérations de modèles propriétaires.

La fonction d'analyse prédictive des pannes, optimisée par l'intégration de CloudIQ, utilise l'apprentissage automatique pour prévoir les problèmes matériels potentiels avant qu'ils n'affectent les charges de travail. Cette approche proactive est particulièrement cruciale pour les tâches de formation d'IA de longue durée, où les temps d'arrêt inattendus peuvent entraîner des jours de calcul perdus. Associée au service ProSupport Plus de Dell, cette fonction prédictive déclenche la création automatique de dossiers et l'envoi de pièces, ce qui entraîne souvent une maintenance préventive avant que la dégradation du système ne se produise.

Pour les organisations nécessitant une intégration avec des outils de gestion existants, le XE9680 prend en charge divers cadres de gestion via les intégrations OpenManage, notamment ServiceNow et BMC TrueSight, permettant une intégration transparente dans les flux de travail de gestion des services informatiques établis.

L'interface iDRAC9 permet une surveillance détaillée en temps réel des composants critiques via un tableau de bord intuitif. La surveillance du GPU affiche des mesures complètes, notamment la température, la consommation d'énergie et les taux d'utilisation sur les huit accélérateurs, essentiels pour optimiser la répartition de la charge de travail de l'IA.

L'interface de surveillance du stockage offre une visibilité instantanée sur l'état du disque, la température et les mesures de performances sur l'ensemble de la baie NVMe, ce qui est particulièrement utile lors de la gestion des caches d'inférence à haut débit et des ensembles de données de formation.

Mémoire, stockage et évolutivité

Les huit GPU AMD MI300X du Dell PowerEdge XE9680 représentent une avancée significative en termes de capacité de mémoire GPU, offrant 192 Go de mémoire HBM3 par carte contre 200 Go pour le NVIDIA H141. Cette augmentation de 36 % de la capacité de mémoire n'est pas seulement un chiffre sur une fiche technique : elle est essentielle pour le déploiement de modèles linguistiques à grande échelle.

Cet énorme pool de mémoire, associé à la bande passante mémoire de 300 To/s du MI5.3X, permet aux organisations d'exécuter plusieurs instances de modèles plus petits ou de partitionner des modèles plus grands sur plusieurs GPU tout en maintenant un débit élevé et une faible latence.

Pour mettre cela en perspective, le modèle Llama 3.1 405B de Meta, qui nécessite plus d'1 To de VRAM dans BF16, peut être confortablement réparti sur un seul XE9680 avec des GPU MI300X sans quantification et une longueur de contexte complète de 128 k. Cela élimine la perte de qualité potentielle associée aux techniques de quantification et permet d'obtenir plus de jetons par seconde par rapport à la répartition du modèle sur deux serveurs.

Pour maximiser notre empreinte de stockage, nous avons utilisé le Solidigm 61.44 To Les disques SSD servent d'extension sophistiquée à la mémoire, comblant ainsi le fossé entre la mémoire GPU à grande vitesse et le stockage traditionnel. Les SSD excellent dans le stockage des paires de caches clé-valeur pendant l'inférence, étendant ainsi efficacement la capacité de mémoire du GPU pour les générations à long contexte. Leur capacité massive et leurs performances NVMe les rendent idéales pour un accès rapide au poids du modèle, permettant une commutation efficace du modèle et des démarrages à chaud.

Dans des applications telles que le déploiement de Metrum AI que nous détaillons ci-dessous, les SSD remplissent une double fonction en tant que backend de stockage pour les bases de données vectorielles, offrant les performances nécessaires aux recherches de similarité en temps réel tout en maintenant la capacité de stockage d'intégration étendu.

Dell PowerEdge XE9680 avec Solidigm P5336

La valeur de ces disques haute capacité s'étend au-delà de l'inférence aux flux de travail de formation. Ils offrent un stockage local idéal pour la mise en file d'attente des lots de formation, réduisant ainsi la surcharge du réseau en gardant les données plus près des ressources de calcul. Pendant la formation, ces disques excellent dans le stockage local des points de contrôle du modèle, ce qui est essentiel pour maintenir la progression de la formation et permettre une récupération rapide. Cette stratégie de stockage local permet également d'optimiser l'utilisation du réseau en réduisant le trafic réseau immédiat après chaque couche et lot traité.

Bien que la capacité de 61.44 To sur huit baies du XE9680 semble prometteuse, une capacité bien plus importante est à venir. Solidigm annonce le nouveau disque dur de 122.88 To, la densité de stockage dans le XE peut être doublée jusqu'à près d'un pétaoctet pour des optimisations de formation supplémentaires et des caches d'inférence plus durables.

Metrum AI Healthcare Assistant – Révolutionner les soins aux patients

Le secteur de la santé est constamment confronté au défi de gérer la documentation et les dossiers des patients, qui prennent beaucoup de temps et qui nuisent souvent aux soins directs aux patients. L'assistant médical de Metrum AI, déployé sur des serveurs Dell PowerEdge XE9680 avec des accélérateurs AMD, illustre comment une infrastructure d'IA avancée peut transformer les flux de travail des soins de santé, en améliorant l'efficacité et les résultats des patients.

Le système utilise Llama 3.1 70B Instruct comme modèle de langage principal, réputé pour sa compréhension des contextes médicaux. Cela lui permet de traiter facilement des données patient complexes. Ce modèle de langage est associé au modèle d'intégration gte-v1.5 et à Milvus Vector DB, offrant une base solide pour le traitement du langage naturel et la compréhension contextuelle, essentiels au traitement des données médicales.

L'assistant médical de Metrum AI comprend également une approche multimodale intégrant HistoGPT pour l'analyse d'images histopathologiques et Whisper d'OpenAI pour la transcription en temps réel des notes des médecins. Ensemble, ces modèles rationalisent les flux de travail cliniques, permettant aux médecins de parler naturellement pendant que le système transcrit, catégorise et intègre les informations dans les dossiers des patients en temps réel.

Metrum AI reconnaît que même si les données individuelles des patients peuvent être relativement petites, les besoins de stockage combinés des hôpitaux à fort trafic peuvent atteindre des centaines de téraoctets. Le Dell PowerEdge XE9680 peut répondre à ce problème grâce à son stockage NVMe intégré local. Notre configuration offre huit baies de stockage NVMe U.2.5 de 2 pouces fonctionnant à des vitesses PCIe Gen4. Bien que nous ayons testé le XE9680 avec Disques SSD Soldigim D61.44-P5 QLC de 5336 To, cette capacité peut encore évoluer davantage. Soldigim a récemment lancé son nouveau Modèles QLC D5-P5336 122.88 To, qui double la capacité de leurs SSD déjà massifs tout en conservant les mêmes performances.

Metrum a fourni des estimations de la manière dont les données des patients se traduisent au fil du temps dans différents scénarios. Lorsque vous intégrez cela dans la capacité de stockage totale, vous pouvez voir combien de patients supplémentaires une unité pourrait prendre en charge en utilisant les SSD de plus grande capacité. En prenant l'empreinte de données estimée par patient et en la comparant à la capacité utilisable de chaque SSD (57 To pour le SSD de 61 To et 114 To pour le SSD de 122 To), nous pouvons voir que le fait d'avoir des SSD denses augmente considérablement ce que vous pouvez stocker sur le serveur de manière significative par an.

Estimation annuelle totale par patient Remarques Stockage estimé Patients par SSD de 61 To Patients par SSD de 122 To
Besoins de stockage améliorés (images/variantes DICOM, augmentations, copies traitées, transcriptions audio, enregistrements détaillés) Comprend plusieurs copies d'images, des transcriptions audio et des enregistrements ~ 8.4 Go 6,786 13,571
Scénario de stockage élevé (traitement intensif, visites fréquentes) Visites fréquentes, exigences élevées en matière de traitement d'images ~ 10.5 Go 5,428 10,857

Même si les estimations initiales sur un an semblent assez élevées, il est important de noter que les données des patients ne sont pas statiques. De nouvelles données seront capturées et de nouvelles visites seront planifiées, ce qui augmentera la demande de stockage. C'est là que le stockage joue un rôle important dans le domaine de l'imagerie médicale. Une capacité de stockage supplémentaire affecte directement le nombre de patients qu'une solution peut prendre en charge efficacement.

Estimation totale de la durée de stockage sur 10 ans par patient Remarques Stockage estimé Patients par SSD de 61 To Patients par SSD de 122 To
Scénario amélioré (copies multiples, enregistrements détaillés, audio, augmentations) Dossiers étendus, imagerie fréquente et traitement ~ 84 Go 679 1,357
Scénario élevé (traitement lourd, historique complet) Besoins maximum de traitement et de stockage sur 10 ans ~ 105 Go 543 1,086

Le Dell PowerEdge XE9680, équipé d'accélérateurs AMD MI300X et intégré à l'assistant de santé de Metrum AI, offre une solution évolutive et efficace aux prestataires de soins de santé. En automatisant les tâches chronophages et en permettant un accès rapide aux informations critiques, cette configuration permet aux cliniciens de se concentrer davantage sur les soins aux patients tout en gérant les demandes croissantes. Grâce à l'intégration transparente des composants d'IA dans les modalités de langage, d'image et de voix, l'assistant de santé représente une avancée significative dans les solutions de santé basées sur l'IA, réduisant les charges administratives et améliorant les résultats globaux des patients.

Conclusion

Dans le paysage en constante évolution de l'IA d'entreprise, le système Dell PowerEdge XE9680 établit une nouvelle norme, démontrant comment un matériel spécialement conçu peut révolutionner divers secteurs. La mise en œuvre de Metrum AI Healthcare Assistant illustre l'une des innombrables possibilités : imaginez des institutions financières exécutant des modèles d'analyse de risque complexes en temps réel ou des laboratoires de recherche traitant de vastes ensembles de données pour la découverte de médicaments, le tout alimenté par ce système remarquable.

Le XE9680 offre une polyvalence exceptionnelle en termes d'options de GPU, du H100 de NVIDIA au MI300X d'AMD et au Gaudi3 d'Intel. Cette flexibilité, combinée à sa capacité de mémoire robuste, à ses options de stockage et à ses solutions de refroidissement innovantes, en fait bien plus qu'un simple serveur d'IA : c'est une plate-forme informatique d'entreprise complète capable de gérer les charges de travail les plus exigeantes dans diverses applications, que ce soit dans un centre de données ou un cabinet médical.

Du point de vue du stockage, le serveur ne dispose que de huit baies NVMe, mais grâce à Solidigm, nous pouvons utiliser leurs SSD de 61.44 To pour intégrer près d'un demi-pétaoctet dans le système comme espace de travail pour l'assistant médical que nous avons détaillé ci-dessus. Si cela ne suffit pas, Solidigm vient d'annoncer qu'il a doublé la capacité du D5-P5336 à 122.88 To, ce qui signifie que des systèmes comme celui-ci pourraient accueillir environ un pétaoctet de stockage flash à côté de leur accélérateur, permettant ainsi des charges de travail d'IA efficaces.

L'ingénierie de Dell transparaît dans tous les aspects du XE9680, de ses fonctions de gestion de l'alimentation bien pensées à sa facilité d'entretien. La capacité de la plateforme à maintenir son fonctionnement même en cas de panne partielle de l'alimentation électrique démontre la profonde compréhension de Dell des exigences de l'IA, où la fiabilité du système et le fonctionnement continu sont primordiaux.

Bénéficiant de l'infrastructure de support complète de Dell et de son engagement à faire progresser les capacités d'IA par le biais de diverses initiatives, le PowerEdge XE9680 témoigne de l'innovation dans l'informatique d'entreprise. Grâce à sa combinaison de puissance de calcul brute, de flexibilité architecturale et de fiabilité de niveau entreprise, il a reçu un nouveau prix Best of 2024.

IA Metrum

Page produit Dell XE9680

Stockage Solidigme

S'engager avec StorageReview

Newsletter |  YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS

Cette critique a été co-écrite par Kevin O'Brien et Divyansh Jain