Le serveur Comino Grando H100 offre 2 GPU NVIDIA H100, un refroidissement liquide et AMD Threadripper PRO 7995WX, conçu pour les charges de travail d'IA et de HPC.
Le serveur Comino Grando H100 est la dernière version de la gamme de l'entreprise. Il s'adresse aux utilisateurs qui ont besoin de puissance avec une précision raffinée et refroidie par liquide. Cette configuration Grando introduit différentes améliorations matérielles et de conception. Cependant, il reste bien adapté aux applications à forte demande, de l'IA et de l'apprentissage automatique aux analyses de données complexes et au rendu visuel.
Dans notre nouvelle configuration H100, Comino a choisi un processeur puissant : l'AMD Ryzen Threadripper PRO 7995WX, qui se distingue par ses performances pour les tâches de calcul à haut cœur et à haut thread.
Ce processeur à 96 cœurs est idéal pour le traitement parallélisé, où les utilisateurs peuvent exécuter des ensembles de données volumineux ou gérer des applications multithread qui s'appuient sur davantage de cœurs et de threads. La carte mère ASUS SAGE WRX90 complète ce processeur et fournit l'architecture nécessaire pour prendre en charge les besoins de mémoire et de connectivité améliorés du H100.
Comino Grando H100 : options de processeur et de mémoire
Avec 96 cœurs/192 threads, une architecture Zen 4 et une technologie avancée de 5 nm, il est conçu pour s'attaquer facilement à des tâches telles que le rendu 3D, le montage vidéo et les simulations complexes. Il dispose d'une horloge de base de 2.5 GHz (pouvant atteindre 5.1 GHz), ce qui le rend idéal pour les tâches multithread et monothread. Il prend en charge jusqu'à 2 To de mémoire DDR5 sur huit canaux, offrant une bande passante massive pour des ensembles de données volumineux. De plus, sa compatibilité avec la plate-forme WRX90 signifie de nombreuses voies PCIe Gen5 pour le stockage à grande vitesse et les configurations GPU.
La configuration GPU de ce modèle Grando comprend deux GPU NVIDIA H100 NVL dotés de 94 Go de mémoire chacun. Cette configuration à double GPU offre une impressionnante mémoire GPU de 188 Go, améliorant les performances des applications exigeantes. Elle est particulièrement avantageuse pour les professionnels de l'intelligence artificielle, du rendu 3D et des simulations scientifiques, où les limitations de la mémoire GPU peuvent avoir un impact sur la productivité. Le modèle Grando est un excellent choix pour ceux qui ont besoin de ressources informatiques puissantes pour gérer efficacement de grands ensembles de données et des tâches complexes. Et grâce au refroidissement liquide de Comino, ces GPU haute puissance peuvent fonctionner dans un format à un seul emplacement, atteignant des densités que les systèmes refroidis par air traditionnels ne peuvent égaler.
Spécifications du GPU NVIDIA H100 NVL
FP64 | 30 téraFLOP |
Noyau tenseur FP64 | 60 téraFLOP |
FP32 | 60 téraFLOP |
Noyau tenseur TF32* | 835 téraFLOP |
Noyau tenseur BFLOAT16* | 1,671 téraFLOPS |
Noyau tenseur FP16* | 1,671 téraFLOPS |
Noyau tenseur FP8* | 3,341 téraFLOPS |
Noyau tenseur INT8* | 3,341 TOPS |
Mémoire GPU | 94GB |
Bande passante mémoire GPU | 3.9 To / s |
Décodeurs | 7 NVDEC 7 XNUMX XNUMX XNUMX JPEG |
Puissance thermique maximale (TDP) | 350-400 W (configurable) |
GPU multi-instances | Jusqu'à 7 MIG à 12 Go chacun |
Facteur de forme | PCIe refroidi par air à double fente |
Interconnect | NVIDIA NVLink : 600 Go/s PCIe Gen5 : 128 Go/s |
Options du serveur | Systèmes partenaires et certifiés NVIDIA avec 1 à 8 GPU |
NVIDIA IA Entreprise | Inclus |
Les utilisateurs peuvent choisir entre une mémoire de bureau haute vitesse avec Kingston Fury (idéale pour les tâches avec une latence plus faible) ou une capacité plus grande de 512 Go avec Kingston Server Premier pour une fiabilité de niveau entreprise et des charges de travail plus gourmandes en mémoire.
Comino Grando H100 : refroidissement et puissance
Comme pour les précédentes itérations du Grando, la philosophie de conception est ici autant axée sur la praticité que sur les performances. Son système de refroidissement interne avancé comprend une configuration de bloc d'eau sur mesure qui maintient tous les composants au frais, même en cas de charges de travail importantes.
Ce système de refroidissement liquide garantit que les GPU conservent des performances optimales sans limitation thermique tout en réduisant les niveaux de bruit. Contrairement aux configurations de serveurs conventionnelles qui reposent sur de gros ventilateurs bruyants, la solution de refroidissement liquide du Grando est efficace et bien conçue. L'architecture de refroidissement comprend un bloc de distribution d'eau centralisé avec des raccords à déconnexion rapide anti-goutte, permettant un entretien facile avec un risque minimal de fuites ou de déversements.
Avec quatre blocs d'alimentation séparés de 1600 100 W, le Grando H7995 peut maintenir sa disponibilité même en cas de panne d'alimentation, une fonctionnalité essentielle pour les environnements d'entreprise où les temps d'arrêt doivent être évités à tout prix. Ces blocs d'alimentation fonctionnent ensemble de manière transparente pour garantir une alimentation électrique constante, même sous des charges extrêmes du 100WX et des deux GPU HXNUMX.
Comino Grando H100 : conception et fabrication
Au-delà de l'alimentation et du refroidissement, la disposition du Comino Grando H100 est organisée pour offrir un accès facile aux composants critiques. Nous avons examiné la conception et la construction en détail dans notre précédent article Avis sur Comino Grando, nous allons donc couvrir les points forts.
Le panneau avant est doté d'une gamme complète d'E/S, notamment de prises audio, de plusieurs ports USB et d'options de connectivité réseau, ce qui le rend adapté aux environnements montés en rack et à une utilisation autonome. L'écran LED intégré est plus qu'une simple touche décorative. Il fournit des données de télémétrie en temps réel, notamment les températures de l'air et du liquide de refroidissement, la vitesse des ventilateurs et l'état de la pompe.
Les boutons de menu rétroéclairés permettent aux utilisateurs de naviguer facilement dans ces informations. Ils permettent également d'accéder à des paramètres et des diagnostics plus approfondis pour la surveillance et les réglages, améliorant ainsi la convivialité et la commodité de la maintenance régulière.
À l'intérieur, chaque composant est disposé de manière à empêcher tout mouvement pendant le transport, avec des renforts supplémentaires autour des pièces sensibles comme les GPU et les SSD. Cela reflète la volonté de Grando de garantir la durabilité et la sécurité de ses serveurs.
Le serveur Comino est également facile à entretenir et à réparer. Les câbles, les tubes et les composants sont très bien acheminés, ce qui confère à l'intérieur un aspect propre, presque modulaire. Cela joue également un rôle pratique dans la circulation de l'air et la facilité de maintenance, ce qui facilite l'isolement et la gestion de tout composant sans perturber le reste de l'installation.
Performances du serveur Comino Grando H100
Nous allons maintenant examiner en détail l'impact de ces choix de construction sur les performances dans le monde réel. Nous comparerons cette configuration aux deux modèles Comino Grando que nous avons examinés plus tôt cette année et discuterons de repères spécifiques dans les tâches informatiques et graphiques. Nous la comparerons également à la Supermicro AS-2115HV-TNRT.
Systèmes testés
Nos Serveur Grando H100 Le système est équipé du processeur AMD Threadripper PRO 7995WX, qui fournit 96 cœurs et 192 threads, ce qui en fait le processeur le plus dense en cœurs de cette gamme. Le système est alimenté par 512 Go de mémoire Kingston Server Premier DDR5, conçue pour les charges de travail à bande passante élevée et le multitâche intensif. La configuration GPU comprend deux GPU NVIDIA H100 NVL avec 94 Go de mémoire chacun.
Vue d'ensemble Supermicro AS-2115HV-TNRT Le système Supermicro utilise le même processeur AMD Threadripper PRO 7995WX mais comprend 520 Go de mémoire DDR5-4800 ECC et quatre GPU NVIDIA RTX 6000 Ada. Ces GPU sont orientés vers le rendu graphique haut de gamme et les tâches de visualisation professionnelles. Le système Supermicro dispose également d'un Micron 7450 Max 3.2 To NVMe.
Thet Grand Serveur Le modèle que nous avons testé plus tôt cette année comprenait le processeur AMD Threadripper PRO 5995WX, un processeur à 64 cœurs et 128 threads, ainsi que 512 Go de RAM et six GPU NVIDIA RTX 4090. Cette configuration mettait fortement l'accent sur les performances graphiques, les RTX 4090 offrant un débit élevé pour le rendu et les charges de travail GPU à usage général. Le système comprenait également 4 blocs d'alimentation de 1600 2 W et un SSD NVMe de XNUMX To.
L'autre système Comino est le 3975W Poste de travail Grando, qui propose 32 cœurs et 64 threads. Sa configuration GPU se compose de quatre GPU NVIDIA A100, mettant l'accent sur un équilibre entre les charges de travail axées sur le calcul et les tâches de visualisation. Il a été associé à 512 Go de RAM et à un SSD NVMe de 2 To, ce qui le rend moins dense en calcul que les systèmes plus récents, mais capable de gérer des flux de travail exigeants.
Il est important de noter que le précédent Grando Server que nous avons examiné offrira probablement des performances supérieures dans les tests axés sur le GPU, en particulier ceux liés aux tâches de rendu et de visualisation. Les GPU RTX 4090 sont conçus pour les charges de travail graphiques haut de gamme, offrant une puissance de calcul substantielle pour ces applications.
Les GPU Nvidia H100 sont des accélérateurs de calcul spécialement conçus qui omettent délibérément les sorties d'affichage et les fonctionnalités grand public, ce qui les rend purement axés sur les charges de travail des centres de données. Contrairement à leurs homologues grand public et station de travail, les H100 n'incluent pas de ports d'affichage ou de pilotes graphiques Windows car ils sont conçus pour un fonctionnement de serveur sans tête. L'absence de matériel d'encodage NVENC souligne encore davantage leur nature de calcul uniquement, optimisant l'espace de la puce pour les tâches d'IA et de HPC plutôt que pour l'encodage multimédia.
Résultats de référence
Mixeur 4.0
Notre premier benchmark est Blender, une suite complète de création 3D open source pour les projets de modélisation, d'animation, de simulation et de rendu. Les benchmarks Blender évaluent les performances d'un système dans le rendu de scènes complexes, un aspect crucial pour les professionnels des effets visuels, de l'animation et du développement de jeux. Ce benchmark mesure les capacités de rendu du CPU et du GPU, qui sont pertinentes pour les serveurs et les stations de travail conçus pour le traitement graphique et les tâches de calcul haut de gamme.
Ici, la configuration Grando H100 Server excelle dans les tests basés sur le processeur en raison du nombre élevé de cœurs de l'AMD Threadripper PRO 7995WX. Il surpasse systématiquement les autres systèmes comme le Supermicro AS-2115HV-TNRT dans les tâches de rendu comme les scènes Monster, Junkshop et Classroom. Cependant, les tests GPU révèlent les limites des GPU H100 dans les charges de travail de rendu graphique. Alors que la configuration H100 fournit des résultats décents, les systèmes dotés de GPU plus polyvalents fonctionnent nettement mieux, comme le RTX 6000 Ada ou le RTX 4090. Cela met en évidence la spécialisation du H100 dans les tâches de calcul plutôt que graphiques.
Mixeur (Échantillons par minute ; plus c'est élevé, mieux c'est) |
Serveur Grando (AMD 7995WX, 2x H100) |
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) | Supermicro AS-2115HV-TNRT overclocké (AMD 7995WX, 4x RTX 6000 Ada) |
Tests du processeur Blender 4.2 | |||
Monster | 1,352.19 | 931 | 969 |
Brocanteur | 969.44 | 682 | 640 |
Salle de classe | 683.30 | 451 | 472 |
Tests GPU Blender 4.2 | |||
Monster | 2,521 | 5,745 | N/D |
Brocanteur | 1,888.28 | 2,698 | N/D |
Salle de classe | 1,401.96 | 2,824 | N/D |
Les serveurs Grando précédemment examinés ont été testés sous Blender version 4.0. Voici les résultats :
Mixeur (Échantillons par minute ; plus c'est élevé, mieux c'est) |
Serveur Grando (TR W5995WX, 512 Go, 6x 4090) |
Poste de travail Grando (TR 3975WX, 512 Go, 4x A100) |
Tests du processeur Blender 4.0 | ||
Monster | 568.02 | 334.40 |
Brocanteur | 386.53 | 231.90 |
Salle de classe | 293.91 | 174.21 |
Tests GPU Blender 4.0 | ||
Monster | 5,880.71 | 1,656.34 |
Brocanteur | 2,809.36 | 1,137.73 |
Salle de classe | 2,895.54 | 953.46 |
Test de vitesse Blackmagic RAW
Le Blackmagic RAW Speed Test mesure la vitesse de traitement des formats vidéo de haute qualité, un aspect essentiel pour les serveurs et les postes de travail dans la production et le montage vidéo. Il évalue la manière dont les systèmes gèrent les fichiers vidéo RAW, affectant l'efficacité du flux de travail et la productivité dans les environnements de production multimédia.
Lors du test de vitesse Blackmagic RAW, le Grando Server H100 affiche de bonnes performances CPU pour le décodage vidéo RAW 8K, mais n'est pas à la hauteur dans les activités basées sur CUDA, contrairement au plus petit T1000. Les systèmes équipés de GPU comme le RTX 4090 et le RTX 6000 Ada offrent la prise en charge de DirectX sous Windows, alors que les GPU destinés aux entreprises ne disposent pas de cette prise en charge native.
Test de vitesse Blackmagic RAW | Serveur Grando (AMD 7995WX, 2x H100) |
Serveur Grando (TR W5995WX, 512 Go, 6x 4090) |
Poste de travail Grando (TR 3975WX, 512 Go, 4x A100) |
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) |
CPU 8K | FPS 156 | FPS 132 | FPS 135 | 132 images/s |
CUDA 8K | FPS 144 | FPS 345 | FPS 309 | 664 images/s |
Compression à 7 fermetures éclair
Le benchmark 7-zip Compression teste l'efficacité d'un système dans la gestion de la compression et de la décompression des données, ce qui est crucial pour gérer de grands ensembles de données et optimiser le stockage. Ce benchmark reflète les performances des serveurs et des postes de travail dans les opérations gourmandes en données, où la rapidité et l'efficacité de la manipulation des données sont vitales.
Ici, le Grando Serveurs Les meilleurs résultats de compression et de décompression ont été obtenus parmi les systèmes testés. Cependant, en termes d'efficacité globale, la configuration overclockée Supermicro AS-2115HV-TNRT s'en rapproche.
7-Zip Compression Benchmark (Plus c'est haut, mieux c'est) | Serveur Grando (AMD 7995WX, 2x H100) |
Serveur Grando (TR W5995WX, 512 Go, 6x 4090) |
Poste de travail Grando (TR 3975WX, 512 Go, 4x A100) |
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) |
Supermicro AS-2115HV-TNRT – Overclocké (AMD 7995WX, 4x RTX 6000 Ada) |
Compression | |||||
Utilisation actuelle du processeur | 5,582% | 3,379% | 3,439% | 5,571% | 6,456% |
Courant nominal/utilisation | 8.627 GIPS | 7.630 GIPS | 7.094 GIPS | 7.835 GIPS | 9.373 GIPS |
Courant | 481.539 GIPS | 257.832 GIPS | 243.994 GIPS | 436.490 GIPS | 605.097 GIPS |
Utilisation résultante du processeur | 5,561% | 3,362% | 3,406% | 5,599% | 6,433% |
Évaluation/utilisation résultante | 8.631 GIPS | 7.697 GIPS | 7.264 GIPS | 7.863 GIPS | 9.420 GIPS |
Note résultante | 480.006 GIPS | 258.756 GIPS | 247.396 GIPS | 440.288 GIPS | 605.984 GIPS |
Décompression | |||||
Utilisation actuelle du processeur | 6,270% | 6,015% | 6,286% | 6,223% | 6,343% |
Courant nominal/utilisation | 7.411 GIPS | 5.585 GIPS | 5.434 GIPS | 7.215 GIPS | 9.810 GIPS |
Courant | 464.701 GIPS | 335.958 GIPS | 341.599 GIPS | 449.012 GIPS | 622.250 GIPS |
Utilisation résultante du processeur | 6,238% | 6,053% | 6,269% | 6,213% | 6,312% |
Évaluation/utilisation résultante | 7.589 GIPS | 5.603 GIPS | 5.468 GIPS | 7.165 GIPS | 9.834 GIPS |
Note résultante | 473.375 GIPS | 339.171 GIPS | 342.766 GIPS | 445.130 GIPS | 620.749 GIPS |
Notes totales | |||||
Utilisation totale du processeur | 5,900% | 4,708% | 4,837% | 5,906% | 6,373% |
Note totale/utilisation | 8.110 GIPS | 6.650 GIPS | 6.366 GIPS | 7.514 GIPS | 9.627 GIPS |
Note totale | 476.690 GIPS | 298.963 GIPS | 295.081 GIPS | 442.709 GIPS | 613.366 GIPS |
Y-Cruncher
Y-Cruncher est une référence informatique qui teste la capacité d'un système à gérer des opérations mathématiques complexes, en calculant précisément Pi à des milliards de chiffres. Ce benchmark indique la puissance de calcul des serveurs et des postes de travail, en particulier pour une utilisation dans la recherche scientifique et les simulations nécessitant des calculs intensifs.
Dans Y-Cruncher, la configuration Grando Server H100 excelle en termes de temps de calcul total pour le calcul de Pi sur tous les niveaux de chiffres. Le nombre élevé de cœurs de l'AMD Threadripper PRO 7995WX garantit que ce système est en tête des tâches gourmandes en ressources CPU. Cependant, la configuration Supermicro AS-2115HV-TNRT overclockée réduit considérablement l'écart, mettant en évidence les avantages d'un réglage optimisé des performances pour ces charges de travail.
Y-Cruncher (temps de calcul total) | Serveur Grando (AMD 7995WX, 2x H100) |
Serveur Grando (TR W5995WX, 512 Go, 6x 4090) |
Poste de travail Grando (TR 3975WX, 512 Go, 4x A100) |
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) | Supermicro AS-2115HV-TNRT – Overlocked (AMD 7995WX, 4x RTX 6000 Ada) |
1 milliard de chiffres | 7.523 secondes | 11.023 secondes | 11.759 secondes | en 8.547 secondes | en 6.009 secondes |
2.5 milliard de chiffres | 15.392 secondes | 28.693 secondes | 32.073 secondes | en 17.493 secondes | en 13.838 secondes |
5 milliard de chiffres | 29.420 secondes | 61.786 secondes | 69.869 secondes | en 33.584 secondes | en 27.184 secondes |
10 milliard de chiffres | 60.089 secondes | 130.547 secondes | 151.820 secondes | en 67.849 secondes | en 58.283 secondes |
25 milliard de chiffres | 214.246 secondes | 353.858 secondes | 425.824 secondes | en 182.880 secondes | en 161.913 secondes |
50 milliard de chiffres | 594.939 secondes | 788.912 secondes | 971.086 secondes | en 417.853 secondes | N/D |
y-cruncher BBP
Ce benchmark y-cruncher utilise les formules Bailey-Borwein-Plouffe (BBP) pour calculer des chiffres hexadécimaux massifs de Pi, mesurant le temps de calcul total du processeur, l'utilisation et l'efficacité multicœur.
Le test de performance BBP de y-cruncher met en évidence l'efficacité du Grando Server H100 dans la gestion des tâches de calcul massives. Dans tous les tests, le Grando Server s'en sort bien, atteignant le temps de calcul total le plus rapide pour les calculs à 1 BBP et 10 BBP. Son efficacité multicœur dans le test à 100 BBP, à 98.68 %, est légèrement inférieure à celle des systèmes Supermicro AS-2115HV-TNRT mais reste très efficace. La configuration Supermicro overclockée surpasse le Supermicro standard en termes de temps total pour tous les niveaux de BBP. Pourtant, le Grando H100 est constamment en tête en termes de vitesse de calcul dans le monde réel pour les tâches BBP plus petites, probablement en raison de ses capacités multithread optimisées et de son changement de contexte rapide.
Cependant, en ce qui concerne l'utilisation du processeur, les systèmes Supermicro démontrent une efficacité d'utilisation du cœur légèrement meilleure, indiquant qu'ils peuvent exploiter leur architecture plus efficacement pour des charges de travail parallèles soutenues.
référence | Serveur Grando (AMD 7995WX, 2x H100) |
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) |
Supermicro AS-2115HV-TNRT – Overlocké (AMD 7995WX, 4x RTX 6000 Ada) |
1 BBP |
|
|
|
10 BBP |
|
|
|
100 BBP |
|
|
|
Geekbench 6
Geekbench 6 mesure les performances de calcul des processeurs et des GPU, couvrant les capacités monocœur et multicœur et la puissance de traitement graphique. Ce benchmark est essentiel pour évaluer l'efficacité informatique globale des serveurs et des postes de travail pour diverses tâches, notamment les simulations, l'analyse des données et le rendu graphique.
Les résultats de Geekbench 6 démontrent que le Grando Server H100 est un acteur de premier plan dans les tâches CPU multicœurs, grâce à son processeur à 96 cœurs. Cependant, en termes de scores GPU, la configuration H100 surpasse le Supermicro AS-2115HV-TNRT, qui exploite les GPU RTX 6000 Ada pour des performances graphiques supérieures.
Geekbench 6 (Plus haut, c'est mieux) | Serveur Grando (AMD 7995WX, 2x H100) |
Serveur Grando (TR W5995WX, 512 Go, 6x 4090) | Station de travail Grando (TR 3975WX, 512 Go, 4x A100) | Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) |
Processeur monocœur | 2,893 | 2,127 | 2,131 | 2,875 |
Processeur multicœur | 28,600 | 21,621 | 20,411 | 24,985 |
GPU | 298,220 | 294,894 | 193,447 | 307,510 |
Cinebench R23
Cinebench R23 mesure la capacité de rendu du processeur, en se concentrant sur les performances monocœur et multicœur. Il s'agit d'une référence essentielle pour évaluer les performances d'un serveur ou d'un poste de travail en matière de création de contenu, de rendu 3D et d'autres tâches gourmandes en CPU. Le MP Ratio (multi-core performance ratio) donne en outre un aperçu de l’efficacité avec laquelle un système utilise ses multiples cœurs.
La configuration H100 est leader en termes de performances multi-cœurs, tirant parti du nombre considérable de cœurs du Threadripper PRO 7995WX. Cependant, ses performances mono-cœur sont comparables à celles des autres systèmes. Le ratio MP met l'accent sur l'évolutivité du 7995WX dans les applications multithread. Néanmoins, la nature indépendante du GPU de ce benchmark empêche la configuration H100 de montrer des limitations liées au GPU, ce qui la rend plus compétitive dans tous les domaines.
Cinebench R23 (Plus haut, c'est mieux) |
Serveur Grando (AMD 7995WX, 2x H100) |
Serveur Grando (TR W5995WX, 512 Go, 6x 4090) | Station de travail Grando (TR 3975WX, 512 Go, 4x A100) | Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) | Supermicro AS-2115HV-TNRT – Overlocked (AMD 7995WX, 4x RTX 6000 Ada) |
Processeur multicœur | 159,930 pts | 73,556 XNUMX points | 49,534 XNUMX points | 111,792 pts | 132,044 points |
Processeur monocœur | 1,876 XNUMX points | 1,484 XNUMX points | 1,468 XNUMX points | 1,864 points | 1,887 points |
Rapport PM | 85.26 x | 49.56x | 33.75x | 59.98x | 69.99x |
Stockage direct du GPU
L'un des tests que nous avons effectué sur ce serveur était le test Magnum IO GPU Direct Storage (GDS). GDS est une fonctionnalité développée par NVIDIA qui permet aux GPU de contourner le CPU lors de l'accès aux données stockées sur des disques NVMe ou d'autres périphériques de stockage à haut débit. Au lieu d'acheminer les données via le CPU et la mémoire système, GDS permet une communication directe entre le GPU et le périphérique de stockage, réduisant ainsi considérablement la latence et améliorant le débit des données.
Comment fonctionne le stockage direct GPU
Traditionnellement, lorsqu'un GPU traite des données stockées sur un disque NVMe, les données doivent d'abord transiter par le processeur et la mémoire système avant d'atteindre le GPU. Ce processus introduit des goulots d'étranglement, car le processeur devient un intermédiaire, ce qui ajoute de la latence et consomme de précieuses ressources système. Le stockage direct GPU élimine cette inefficacité en permettant au GPU d'accéder directement aux données depuis le périphérique de stockage via le bus PCIe. Ce chemin direct réduit la surcharge associée au déplacement des données, permettant des transferts de données plus rapides et plus efficaces.
Les charges de travail de l’IA, en particulier celles impliquant l’apprentissage profond, sont très gourmandes en données. La formation de grands réseaux neuronaux nécessite généralement le traitement de téraoctets de données, et tout retard dans le transfert de données peut entraîner une sous-utilisation des GPU et des temps de formation plus longs. Le stockage direct GPU relève ce défi en garantissant que les données sont transmises au GPU le plus rapidement possible, en minimisant les temps d’inactivité et en maximisant l’efficacité de calcul.
En outre, GDS est particulièrement utile pour les charges de travail impliquant la diffusion de grands ensembles de données, comme le traitement vidéo, le traitement du langage naturel ou l'inférence en temps réel. En réduisant la dépendance au processeur, GDS accélère le déplacement des données et libère les ressources du processeur pour d'autres tâches, améliorant ainsi encore les performances globales du système.
Nous avons testé minutieusement le serveur en effectuant une évaluation GDSIO approfondie sur le Comino Grando, en explorant diverses configurations pour évaluer ses performances dans différents scénarios. Ce type de test est crucial pour un serveur de ce calibre, car il simule des environnements de type poste de travail et fournit des informations sur ses capacités lors de tests ablatifs pour la formation de grands modèles. Pour le stockage, nous avons exploité un Disque SSD Solidigm D7-PS1010 Gen5.
Matrice de configuration des tests
Nous avons testé systématiquement chaque combinaison des paramètres suivants :
- Tailles de blocs : 1 M, 128 K, 64 K, 16 K, 8 K
- Nombre de fils : 128, 64, 32, 16, 8, 4, 1
- Nombre d'emplois : 16, 8, 4, 1
- Tailles des lots : 32, 16, 8, 4, 1
Pour cette analyse, nous nous sommes concentrés sur le débit de lecture et d'écriture séquentielles. Nous avons exécuté chaque charge de travail GDSIO à sa taille de bloc et à son nombre de threads donnés sur plusieurs tailles de tâches et de lots. Les chiffres indiqués sont les moyennes de chaque combinaison de tâches et de nombre de lots.
Analyse de performance
Les charges de travail d'IA, en particulier dans la phase de formation, nécessitent un traitement efficace de volumes massifs de données. Ces charges de travail bénéficient généralement de tailles de blocs importantes qui peuvent maximiser le débit lors de la lecture des ensembles de données de formation ou de l'écriture des points de contrôle du modèle. Dans nos tests complets des capacités de stockage direct du GPU, nous nous sommes concentrés sur divers modèles et configurations d'E/S pour comprendre les caractéristiques de performances du système.
Les performances d'E/S séquentielles avec des tailles de bloc de 1 M ont démontré des résultats impressionnants parmi nos configurations de test. Le système a atteint un débit de lecture séquentielle remarquable de 8.56 Gio/s (taille de bloc de 1 M, taille de lot de 4, profondeur d'E/S de 128 et 128 threads sur 16 tâches). Ce niveau de performance est particulièrement avantageux pour les charges de travail qui impliquent le chargement de grands modèles pré-entraînés, le traitement de vastes ensembles de données pendant les phases d'entraînement ou la gestion de flux de données séquentiels tels que le traitement vidéo pour les applications de vision par ordinateur.
Pour les opérations d'écriture séquentielle, le système a fourni 7.57 Gio/s (taille de bloc de 1 M, taille de lot de 8, profondeur d'E/S de 16, avec 16 threads répartis sur 8 tâches), ce qui le rend très efficace pour les scénarios nécessitant des points de contrôle fréquents du modèle pendant la formation distribuée, l'enregistrement des résultats intermédiaires ou l'écriture des données traitées dans des opérations par lots.
Conclusion
Le serveur Comino Grando H100 est un ajout impressionnant à la gamme de la société, offrant une alternative unique à leurs autres configurations. Alimenté par un processeur AMD Threadripper PRO 7995WX et 512 Go de mémoire DDR5, extensible jusqu'à 1 To, le système Grando est mis en valeur par deux GPU NVIDIA H100 NVL. Bien que cette configuration offre des performances exceptionnelles pour les flux de travail pilotés par l'IA, elle se fait au détriment des performances du GPU dans les tests de rendu traditionnels (tels que Luxmark et OctaneBench), où des systèmes comme le Grando Server équipé de RTX 4090 et les configurations Supermicro alimentées par RTX 6000 Ada sont en tête. Cela dit, les performances du H100 dans les tests gourmands en CPU tels que le rendu multicœur de Blender, la compression 7-Zip et Y-Cruncher surpassent systématiquement les autres systèmes testés.
En termes de conception, le serveur Comino Grando H100 peut accueillir des composants hautes performances dans un format compact, ce qui constitue souvent un défi pour les châssis standard. Grâce à son système de refroidissement liquide direct (DLC) personnalisé, le serveur peut facilement gérer des configurations telles que deux GPU NVIDIA H100. Cette solution de refroidissement avancée maintient la chaleur sous contrôle et garantit la stabilité du système pendant les tâches exigeantes et à hautes performances. Ce nouveau système Comino est particulièrement unique dans la façon dont il parvient à exploiter principalement du matériel grand public pour créer une solution à la fois efficace et relativement abordable, ce qui en fait une option intéressante pour les professionnels et les entreprises qui cherchent à maximiser la puissance du GPU sans se ruiner.
Dans l’ensemble, le Comino Grando H100 est un excellent choix pour les entreprises et les professionnels qui privilégient l’optimisation de l’IA, les tâches de calcul et la fiabilité dans des environnements exigeants. Sa conception unique et ses innovations en matière de refroidissement offrent flexibilité et performances pour les charges de travail pilotées par l’IA. Cependant, des configurations alternatives comme le Grando Server équipé d’une RTX 4090 ou les systèmes alimentés par une RTX 6000 Ada peuvent être plus adaptées aux utilisateurs axés sur le rendu GPU traditionnel.
S'engager avec StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS