Dans cet article détaillé, nous fournissons une analyse réelle des performances du GPU NVIDIA® H100 pour Western Digital OpenFlex™ Data24. En permettant des chemins de données directs entre la mémoire GPU et le stockage, l'OpenFlex Data24 réduit considérablement la latence et maximise la bande passante.
Ce rapport est sponsorisé par Western Digital. Tous les points de vue et opinions exprimés dans ce rapport sont basés sur notre vision impartiale du ou des produits considérés.
L'IA est à la mode ces jours-ci, et tandis que certains hyperscalers cherchent des solutions sur mesure à leur problème de données d'IA, Western Digital (WD) a une réponse pour le reste d'entre nous. Le Western Digital OpenFlex™ Data24™ offre une solution de stockage robuste et évolutive pour répondre aux demandes de débit élevé de l'IA et d'autres charges de travail accélérées par GPU. En permettant des chemins de données directs entre la mémoire GPU et le stockage, l'OpenFlex Data24 réduit considérablement la latence. Il maximise également la bande passante, garantissant une gestion efficace des données et une utilisation optimale du GPU pour un traitement plus rapide et plus efficace des ensembles de données à grande échelle.
En tirant parti de NVMe-oF™, Western Digital peut partager un stockage haut débit désagrégé sur plusieurs serveurs, garantissant ainsi un accès et un transfert rapides des données. L'intégration transparente d'OpenFlex Data24 avec des GPU hautes performances lui permet de fournir l'immense débit requis pour la formation et l'inférence de l'IA, le positionnant comme un catalyseur clé des opérations des centres de données de nouvelle génération. Ces fonctionnalités font d'OpenFlex Data24 un outil puissant pour toute organisation cherchant à exploiter tout le potentiel de l'IA et d'autres charges de travail informatiques avancées.
Western Digital OpenFlex Data24 4000
La plate-forme de stockage NVMe-oF OpenFlex Data24 série 4000 de Western Digital apporte des performances inégalées aux environnements de stockage partagés. Cette plate-forme hautes performances étend les capacités du flash NVMe™, offrant un partage à faible latence sur une structure Ethernet. La série Data24 4000 exploite six appareils Western Digital RapidFlex™ A2000 Fabric Bridge pour offrir une connectivité réseau transparente utilisant jusqu'à douze ports 100GbE. Ces interfaces prennent en charge à la fois RoCEv2 et TCP, offrant des options polyvalentes pour le transfert de données.
Le châssis est conçu dans un format 2U, pouvant accueillir jusqu'à 24 SSD U.2 NVMe à double port. Avec la prise en charge de PCIe® Gen4, cette plate-forme est conçue pour utiliser pleinement les performances de chaque SSD, en maintenant une bande passante élevée dans tout le châssis. Les SSD NVMe sont disponibles dans différentes capacités et options d'endurance, y compris les SSD Ultrastar® DC SN655 avec une capacité allant jusqu'à 15.36 To pour une capacité brute totale de 368 To¹.
La conception de la plateforme élimine le surabonnement, garantissant un accès équilibré qui préserve les performances NVMe. La série Data24 4000 intègre également la prise en charge de l'API RESTful pour une gestion rationalisée, améliorant la facilité d'utilisation et l'intégration dans les infrastructures informatiques existantes.
La haute disponibilité et la fiabilité de classe entreprise sont des attributs essentiels de la série Data24 4000. Des touches telles que les modules d'E/S doubles et la redondance des ventilateurs N+2 offrent une tranquillité d'esprit pour garantir un fonctionnement continu même en cas de pannes imprévues de composants. L'ensemble de la plateforme, y compris les SSD, bénéficie d'une garantie limitée de 5 ans.
Spécifications clés de Western Digital OpenFlex Data24
Spécifications OpenFlex Data24 | |
---|---|
Capacité de stockage maximale | 368TB |
Tension d'entrée | 120V - 240V |
PSU | Double 800 W |
Taux de transfert de données | 12x 100 Gbit/s NVMe-oF |
Facteur de forme | 2U |
Température de fonctionnement | 10 ° C à 35 ° C |
Poids | 18.25 kg / lbs 40.2 |
Dimensions (L x L x H) | 491.9 mm x 628.65 mm x 85.5 mm / 19.37 pouces x 24.75 pouces x 3.37 pouces |
Consommation d'énergie (max/typique) | 750W / ~550W |
Efficacité du bloc d'alimentation | 80 Plus Titane |
Emplacements de lecteur | 24 |
Refroidissement | 4 ventilateurs système (N+2 pris en charge) |
Unités de rack (U) | 2U |
Profondeur de rack requise | 1000 mm (39.4 in.) |
Largeur de rack requise | 450mm (17.72 in.) |
Test d'OpenFlex Data24
Pour développer les jambes d'OpenFlex Data24, nous avons dû rassembler quelques éléments clés : NVIDIA GPUDirect™, NVIDIA IndeX® et 5.9 To de données Tornado Simulation. En tirant parti de NVIDIA GPUDirect, nous avons permis une communication directe entre la mémoire GPU et OpenFlex Data24, réduisant considérablement la latence et maximisant le débit de données. L'utilisation d'IndeX de NVIDIA nous a permis de visualiser et d'interagir plus efficacement avec l'énorme ensemble de données sur les tornades, démontrant ainsi les capacités de traitement en temps réel du système. Cette configuration a fourni un banc d'essai parfait pour démontrer la capacité d'OpenFlex Data24 à gérer des charges de travail intensives d'IA et un traitement de données à grande échelle avec une vitesse et une efficacité remarquables.
NVIDIA GPU Direct
NVIDIA GPU Direct La technologie améliore considérablement l’efficacité du transfert de données dans les environnements informatiques GPU hautes performances. Cette suite de technologies optimise le mouvement des données entre les GPU et les autres composants du système. En réduisant la latence et la surcharge, GPUDirect permet une communication plus directe entre les GPU et les périphériques tels que les adaptateurs réseau, les périphériques de stockage et autres GPU. Les processus de transfert de données traditionnels impliquent le routage des données via le processeur et la mémoire système, créant ainsi des goulots d'étranglement qui entravent les performances. GPUDirect atténue ces goulots d'étranglement en autorisant l'accès direct à la mémoire (DMA) de la mémoire du GPU, en contournant le processeur et la mémoire système, améliorant ainsi le débit global.
Selon Harry Petty, directeur marketing technique principal de NVIDIA :
« Les technologies NVIDIA offrent une faible latence et un transfert rapide des données depuis le stockage, optimisant ainsi les performances des charges de travail d'IA en réduisant le temps d'inactivité du GPU. Cela permet des temps de formation de modèles plus rapides et des résultats plus précis, permettant des découvertes plus rapides et des flux de travail plus efficaces.
GPUDirect comprend plusieurs fonctionnalités essentielles, notamment GPUDirect RDMA, qui facilite les transferts de données directs entre le GPU et les adaptateurs réseau compatibles RDMA. Cette communication directe est cruciale pour les applications nécessitant des échanges de données rapides, telles que les simulations scientifiques et l'analyse de données à grande échelle. En permettant des transferts de données plus rapides, GPUDirect RDMA réduit la latence et augmente l'efficacité des clusters GPU. De plus, GPUDirect Storage intègre plus étroitement les GPU aux systèmes de stockage à haut débit, permettant aux applications gourmandes en données d'exploiter la bande passante maximale du stockage NVMe moderne. Cette intégration accélère l'accès aux données et réduit le temps passé à attendre que les données soient chargées dans la mémoire GPU, ce qui est crucial pour l'analyse en temps réel et les charges de travail d'apprentissage automatique à grande échelle.
Les capacités de GPUDirect sont particulièrement efficaces dans les environnements où plusieurs GPU fonctionnent en tandem, tels que les clusters de formation en deep learning. En facilitant la communication directe entre les GPU, GPUDirect optimise le traitement parallèle et réduit considérablement la surcharge associée aux transferts de données entre GPU. Cette amélioration est particulièrement bénéfique pour la formation de réseaux neuronaux complexes, où de grands volumes de données doivent être échangés rapidement entre plusieurs GPU. Les gains d'efficacité de GPUDirect sont également évidents dans des applications telles que les simulations de dynamique moléculaire et la dynamique des fluides, où les charges de travail de calcul sont réparties sur de nombreux GPU pour obtenir des résultats plus rapides.
NVIDIA Index
NVIDIA Index est un outil avancé de visualisation volumétrique conçu pour gérer des ensembles de données massifs avec une haute fidélité. IndeX exploite l'accélération GPU pour fournir une visualisation interactive en temps réel des données volumétriques 3D, ce qui la rend indispensable pour des secteurs tels que l'exploration pétrolière et gazière, l'imagerie médicale et la recherche scientifique. Les outils de visualisation traditionnels sont souvent confrontés à la taille et à la complexité des ensembles de données modernes, ce qui entraîne des temps de rendu plus lents et des expériences utilisateur moins interactives. IndeX surmonte ces limitations en utilisant la technologie GPU de NVIDIA pour offrir un rendu et un traitement des données hautes performances, garantissant ainsi aux utilisateurs d'interagir avec leurs données en temps réel.
Les capacités d'IndeX reposent sur sa capacité à exploiter la puissance de traitement parallèle des GPU, ce qui lui permet de gérer et de restituer efficacement des données volumétriques à grande échelle. Cette capacité est précieuse dans les applications nécessitant une visualisation haute résolution, telles que l’interprétation sismique et la simulation de réservoirs dans le secteur pétrolier et gazier. En fournissant des représentations visuelles détaillées et précises des structures souterraines, IndeX aide les géoscientifiques à prendre des décisions plus éclairées. Dans le domaine médical, IndeX facilite la visualisation de structures anatomiques complexes à partir de modalités d'imagerie telles que l'IRM et la tomodensitométrie, facilitant ainsi le diagnostic et la planification du traitement.
La capacité de rendu en temps réel d'IndeX est également cruciale pour la recherche scientifique, où de vastes ensembles de données issus de simulations et d'expériences doivent être visualisés et analysés rapidement. Les chercheurs peuvent manipuler et explorer leurs données de manière interactive, permettant ainsi de tester et de découvrir plus rapidement les hypothèses. L'évolutivité d'IndeX lui permet de gérer les volumes croissants de données générés par des instruments scientifiques et des simulations avancés, fournissant ainsi aux chercheurs les outils nécessaires pour visualiser et interpréter efficacement leurs données. En s'intégrant de manière transparente aux flux de travail existants et en prenant en charge divers formats de données, IndeX améliore la productivité et accélère le rythme de la découverte dans plusieurs disciplines.
Lier tout ensemble
L'intégration de la série Data24 4000 à la technologie NVIDIA GPUDirect améliore considérablement les performances des applications gourmandes en GPU en rationalisant les transferts de données entre les GPU et le stockage. GPUDirect facilite l'accès direct à la mémoire, permettant au mouvement des données de contourner le processeur et la mémoire système afin de réduire la latence et d'augmenter le débit. Lorsqu'il est combiné aux capacités NVMe-oF hautes performances de la série Data24 4000, GPUDirect garantit que les GPU peuvent accéder rapidement à de grands ensembles de données stockés sur les SSD NVMe.
Cette intégration est particulièrement bénéfique dans les environnements où l'échange de données à haut débit entre les GPU et le stockage est crucial, comme l'apprentissage profond et les simulations scientifiques. La faible latence et la bande passante élevée de la série Data24 4000, associées aux chemins de données directs activés par GPUDirect, minimisent les temps de transfert de données et permettent une utilisation plus efficace du GPU. Cette synergie optimise les performances des tâches de traitement parallèle, où plusieurs GPU nécessitent un accès rapide et fréquent aux données partagées.
Pour ces tests, l'OpenFlex Data24 4000 et le serveur GPU sont connectés via un commutateur 200 GbE à l'aide du protocole NVMe-oF RoCEv2 avec des MTU correspondants de 5000 3. Le serveur GPU utilise 7 RNIC Mellanox® CX2 avec 200 x 24 GbE par RNIC. L'OpenFlex Data4000 12 est disponible avec 100 ports 7GbE. Chaque port CX2 dispose de 7 adresses IP, permettant à un seul CX24 de se mapper sur quatre ports du Data4. Cela fournit une connectivité aux 6 voies PCIe sur chaque disque à double port. Les 200 liaisons 12 GbE équivalent au potentiel de bande passante de 100 liaisons XNUMX GbE pour une architecture réseau non bloquante.
Chaque NVIDIA H100 est connecté via un emplacement PCIe Gen5 x16, qui peut théoriquement atteindre 64 Go/s de bande passante bidirectionnelle. Chaque port RNIC 200GbE et 100GbE peut théoriquement atteindre respectivement 25 Go/s et 12.5 Go/s. Une considération essentielle en matière de conception consiste à garantir une architecture non bloquante. Cela nécessite que les GPU, RNIC et lecteurs NVMe-oF soient tous mappés physiquement sur le même processeur, NUMA et commutateur PLX. Cela permet à la configuration de tirer pleinement parti de GPUDirect. Comme le montre cette implémentation, une configuration en miroir sur le deuxième processeur, le commutateur NUMA et PLX permettrait une échelle de calcul prévisible et un doublement théorique des performances.
Dans les clusters de formation IA, la combinaison de Data24 4000 et GPUDirect peut permettre des temps de formation plus rapides en réduisant les goulots d'étranglement associés au chargement des données. Les chemins de données efficaces garantissent que les GPU peuvent recevoir des données en continu sans interruption, maintenant des vitesses de traitement élevées et améliorant l'efficacité globale du système. Cette configuration est également avantageuse pour l'analyse en temps réel et d'autres applications qui nécessitent un accès et un traitement rapides des données, offrant une amélioration significative des performances de diverses charges de travail informatiques.
Configuration du serveur NVIDIA IndeX
Pour le test NVIDIA IndeX, nous avons utilisé le Supermicro 521GE-TNRT équipé du fond de panier PCIe commuté, d'une paire de NVIDIA H100 et de trois cartes réseau NVIDIA ConnectX-7.
Spécifications clés du Supermicro® 521GE-TNRT | |
---|---|
Modèle | Supermicro 521GE-TNRT |
Processeur | 2x Intel® Xeon® Platine 8462Y+ |
Mémoire | 1 To DDR5 |
GPU | 2x NVIDIA H100 PCIe |
Interfaces réseau | 3x cartes réseau NVIDIA ConnectX-7 |
Tests synthétiques GDSIO
L'outil d'analyse comparative utilisé à cette fin est GDSIO, un utilitaire propriétaire spécialisé NVIDIA conçu pour mesurer les performances de stockage dans les environnements de stockage direct GPU (GDS). Nous avons examiné quelques configurations pour cette série de tests : un seul GPU avec 12 et 24 disques, ainsi que deux GPU avec 24 disques.
Les performances du Western Digital OpenFlex Data24 dans le test GDSIO Performance, associé aux GPU NVIDIA H100, révèlent un aperçu de la puissance brute des disques. Lorsqu'il est configuré avec 12 disques et un seul GPU, le système atteint une bande passante en écriture de 44.14 Go/s. L'augmentation du nombre de disques à 24 tout en utilisant un seul GPU a montré une légère amélioration, avec des performances d'écriture atteignant 54.15 Go/s. L'introduction d'un deuxième GPU dans la configuration à 24 disques a entraîné une augmentation substantielle, élevant la bande passante d'écriture à 87.91 Go/s.
Les performances de lecture suivent une tendance similaire. La configuration à 12 disques et un GPU a produit une bande passante en lecture de 53.47 Go/s. L'extension à 24 disques avec un GPU l'augmente légèrement à 54.75 Go/s. Cependant, l'amélioration la plus spectaculaire est venue de la configuration à double GPU, où le système a atteint une bande passante de lecture impressionnante de 101.14 Go/s. Ces résultats soulignent la capacité d'OpenFlex Data24 à évoluer de manière prévisible avec un nombre accru de disques.
L'ajout de GPU joue un rôle crucial dans l'optimisation des performances. La configuration avec 24 disques et deux GPU s'est révélée être la configuration optimale, offrant la bande passante la plus élevée pour les opérations de lecture et d'écriture. Ce test souligne l'importance de l'accélération GPU pour exploiter tout le potentiel du framework GDSIO. L'OpenFlex Data24, lorsqu'il est associé aux GPU NVIDIA H100, démontre des performances exceptionnelles, ce qui en fait une solution robuste pour les environnements de stockage exigeants.
Pour les charges de travail d'IA, où l'ingestion et le traitement rapides des données sont primordiaux, les performances observées avec OpenFlex Data24 peuvent se traduire par des réductions significatives des temps de formation et une gestion plus efficace des grands ensembles de données. La possibilité de déplacer rapidement les données du stockage vers la mémoire GPU garantit que les ressources de calcul des GPU puissants sont pleinement exploitées, facilitant ainsi une formation et une inférence de modèles plus rapides et plus efficaces.
Utiliser OpenFlex Data24 pour nourrir les tornades du H100
Les climatologues étudient depuis longtemps les orages supercellulaires, phénomènes atmosphériques responsables des tornades les plus violentes et les plus dangereuses au monde. Ces tempêtes sont dynamiques et complexes, ce qui rend les simulations précises longues et gourmandes en données. L'exploration de ces données a été un processus lent et fastidieux, prenant souvent des heures pour générer de nouvelles visualisations.
L'utilisation des GPU NVIDIA et NVIDIA IndeX a révolutionné ce domaine. Les scientifiques peuvent désormais effectuer des visualisations volumétriques en temps réel. La simulation que nous avons exécutée sur le système Supermicro avec des H100 (alimentés en données par OpenFlex Data24) présente une tempête de l'Oklahoma en 2011 simulée par le professeur Leigh Orf. Cette simulation, dérivée mathématiquement des conditions initiales juste avant la formation de la tornade, comprend 250 milliards de points de grille, chacun avec plus d'une douzaine d'attributs tels que la pluie, la grêle, la pression et la vitesse du vent. Cette visualisation détaillée, montrant 6000 XNUMX étapes de simulation, fournit un aperçu sans précédent de la dynamique de la tornade.
La clé de cette simulation est NanoVDB, une structure de données compacte à faible volume qui réduit la taille des ensembles de données et l'empreinte mémoire en mappant les données directement dans la mémoire du GPU. Couplé à la technologie GPUDirect Storage et à OpenFlex Data24, nous avons atteint jusqu'à 89 Go/s et pouvons afficher les résultats à plus de 13 images par seconde. Cela équivaut à environ 5.9 To d’ensemble de données ingéré toutes les 66 secondes. Cette combinaison permet une navigation interactive, des ajustements de paramètres à la volée et un parcours facile dans la simulation.
Avec GPUDirect désactivé (et, par conséquent, les données traversant désormais le complexe CPU), la bande passante est réduite à environ 15 Go/s et la fréquence d'images chute considérablement à 4 images par seconde.
La vitesse est cruciale, mais la qualité photoréaliste est également essentielle pour valider la précision des simulations. Si la simulation et la réalité ne correspondent pas, les modèles doivent être corrigés. NVIDIA Iray, un traceur de chemin basé sur GPU qui restitue un transport de lumière physiquement correct, est utilisé avec les données de volume NVIDIA IndeX pour alimenter cette visualisation. L'entonnoir de la tornade, le contact avec le sol et des éléments détaillés tels que le rapport nuage-eau et la pluie, représentés par des pores bleu-gris, sont clairement visibles.
Conclusion
Les avantages en termes de performances, de temps et de coûts qu'une architecture non bloquante bien configurée peut offrir aux charges de travail accélérées par GPU sont bien démontrés dans ce projet. En termes simples, amener les GPU à leur débit ou à leur capacité de traitement maximum permet d'obtenir des résultats et un retour sur investissement plus efficaces.
L'architecture de Western Digital prend en charge l'Open Composable Infrastructure (OCI) et la plateforme OpenFlex Data24 4000 exploite cette approche OCI en désagrégeant le stockage des données à l'aide de NVMe-over-Fabrics (NVMe-oF). Ce découplage des ressources de stockage du serveur GPU permet non seulement de libérer les ressources des serveurs (en libérant ces ressources des mises à niveau traditionnelles), mais ce faisant, permet également un réglage fin du mappage du lecteur NVMe aux GPU. Cette adaptation précise du disque aux exigences du GPU permet de répondre de près aux besoins en matière de capacité, de performances et de capacité de données du GPU, ce qui à son tour offre l'évolutivité et la flexibilité prévisibles requises pour ces ressources.
Comme les données ne sont plus cloisonnées, elles deviennent une ressource de stockage en réseau accessible, partageable entre plusieurs serveurs GPU selon les besoins, augmentant encore la flexibilité.
Le Western Digital OpenFlex Data24, combiné à la technologie NVIDIA GPUDirect, démontre une formidable capacité à gérer l'IA et d'autres charges de travail accélérées par GPU. En permettant des chemins de données directs entre la mémoire GPU et le stockage NVMe, le Data24 réduit considérablement la latence et maximise la bande passante, garantissant une gestion efficace des données et une utilisation optimale du GPU. Cette intégration permet un traitement plus rapide et plus efficace d'ensembles de données à grande échelle, faisant du Data24 un atout inestimable dans les environnements modernes gourmands en données.
Nos tests en situation réelle, impliquant un important ensemble de données de simulation de tornade, ont mis en évidence les gains de performances remarquables obtenus grâce à cette configuration. La capacité d'OpenFlex Data24 à fournir des transferts de données à haut débit et à faible latence, associée aux capacités de visualisation en temps réel de NVIDIA IndeX, souligne son potentiel dans des applications exigeantes telles que la formation en IA, les simulations scientifiques et l'analyse en temps réel.
L'utilisation de la série Data24 et de la technologie GPUDirect pour les clusters de formation IA peut réduire considérablement les temps de formation en garantissant un flux de données transparent du stockage vers les GPU. Cette configuration minimise les goulots d'étranglement et améliore l'efficacité globale du système, ce qui en fait un élément essentiel dans la recherche de modèles d'IA plus rapides et plus précis.
Au-delà de l'IA, les avantages d'OpenFlex Data24 s'étendent à d'autres charges de travail accélérées par GPU, notamment le calcul haute performance et l'analyse de données en temps réel. La latence réduite et le débit accru permis par cette plate-forme garantissent que les applications nécessitant un accès et un traitement rapides des données peuvent fonctionner à des performances optimales, fournissant des résultats précis et en temps opportun.
Regardez cette démo en action du 6 au 8 août 2024, au stand n° 2024 de FMS 607.
Plateformes Western Digital OpenFlex
[1] Un téraoctet (To) équivaut à un billion d’octets. La capacité réelle des utilisateurs peut être inférieure en raison de l’environnement d’exploitation.
S'engager avec StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS