Home 消費財 Comino Grando H100 レビュー – 188GB の NVL GPU メモリ

Comino Grando H100 レビュー – 188GB の NVL GPU メモリ

by ライル・スミス

Comino Grando H100 サーバーは、AI および HPC ワークロード向けに設計された 2 つの NVIDIA H100 GPU、液体冷却、AMD Threadripper PRO 7995WX を備えています。

Comino Grando H100 サーバーは、同社の最新リリースです。洗練された液体冷却の精度を備えたパワーを必要とするユーザーのニーズに応えます。この Grando 構成では、さまざまなハードウェアと設計の強化が導入されています。ただし、AI や機械学習から複雑なデータ分析やビジュアル レンダリングまで、需要の高いアプリケーションにも適しています。

コミノ グランド H100 フロント

新しい H100 構成では、Comino は、高コア、高スレッドのコンピューティング タスクに最適な強力な CPU、AMD Ryzen Threadripper PRO 7995WX を選択しました。

コミノ グランド H100 蓋を外した状態

この 96 コア CPU は並列処理に最適で、ユーザーは大規模なデータセットを実行したり、より多くのコアとスレッドを必要とするマルチスレッド アプリケーションを処理したりできます。ASUS SAGE WRX90 マザーボードはこの CPU を補完し、H100 の強化されたメモリと接続のニーズをサポートするアーキテクチャを提供します。

Comino Grando H100: プロセッサとメモリのオプション

96 コア/192 スレッド、Zen 4 アーキテクチャ、高度な 5nm テクノロジーを備え、3D レンダリング、ビデオ編集、複雑なシミュレーションなどのタスクを簡単に処理できるように構築されています。ベース クロックは 2.5 GHz (最大 5.1 GHz までブースト可能) で、マルチスレッドおよびシングルスレッドのタスクに最適です。2 つのチャネルで最大 5 TB の DDR90 メモリをサポートし、大規模なデータセットに広大な帯域幅を提供します。さらに、WRX5 プラットフォームとの互換性により、高速ストレージと GPU セットアップに十分な PCIe GenXNUMX レーンが確保されます。

この Grando モデルの GPU セットアップには、それぞれ 100 GB のメモリを搭載した 94 つの NVIDIA H188 NVL GPU が搭載されています。このデュアル GPU 構成は、3 GB という驚異的な GPU メモリを提供し、要求の厳しいアプリケーションのパフォーマンスを向上させます。これは、GPU メモリの制限が生産性に影響を与える可能性がある人工知能、XNUMXD レンダリング、科学シミュレーションの専門家にとって特に有益です。Grando モデルは、大規模なデータセットや複雑なタスクを効率的に処理するために強力なコンピューティング リソースを必要とする人にとって最適な選択肢です。また、Comino の液体冷却により、これらの高出力 GPU はシングル スロット フォーム ファクターで動作し、従来の空冷システムでは実現できない密度を実現します。

NVIDIA H100 NVL GPU 仕様

FP64 30 テラフロップス
FP64テンソルコア 60 テラフロップス
FP32 60 テラフロップス
TF32 テンソル コア* 835 テラフロップス
BFLOAT16 テンソル コア* 1,671テラフロップス
FP16テンソルコア* 1,671テラフロップス
FP8テンソルコア* 3,341テラフロップス
INT8テンソルコア* 3,341トップス
GPUメモリ 94GB
GPU メモリ帯域幅 3.9TB /秒
デコーダ 7 NVDEC
7 JPEG
最大熱設計電力 (TDP) 350~400W(構成可能)
マルチインスタンス GPU 最大 7 つの MIGS @ 各 12 GB
フォームファクター PCIe
デュアルスロット空冷
インターコネクト NVIDIA NVLink: 600GB/秒
PCIe Gen5: 128GB/秒
サーバーオプション 1~8 個の GPU を搭載したパートナーおよび NVIDIA 認定システム
NVIDIA AI Enterprise 同梱

ユーザーは、Kingston Fury による高速デスクトップ グレードのメモリ (低レイテンシのタスクに最適) か、エンタープライズ グレードの信頼性とメモリを大量に消費するワークロードに対応する Kingston Server Premier による大容量 512 GB のメモリのどちらかを選択できます。

コミノ グランド H100: 冷却とパワー

これまでの Grando シリーズと同様に、ここでの設計哲学は、パフォーマンスだけでなく実用性にも重点を置いています。その高度な内部冷却システムは、カスタム ビルドのウォーター ブロック セットアップを備えており、負荷が高い場合でもすべてのコンポーネントを冷却状態に保ちます。

この液体冷却システムにより、GPU は熱スロットリングなしで最高のパフォーマンスを維持し、ノイズ レベルを低減できます。大型で騒音の大きいファンに依存する従来のサーバー ビルドとは異なり、Grando の液体冷却ソリューションは効率的で、設計も優れています。冷却アーキテクチャには、滴り落ちないクイック ディスコネクト フィッティングを備えた集中型水分配ブロックが含まれ、漏れやこぼれのリスクを最小限に抑えて簡単に保守できます。

コミノ グランド H100 リア

Grando H1600 は 100 つの独立した 7995W PSU を備えており、電源障害が発生しても稼働時間を維持できます。これは、ダウンタイムを何としても回避する必要があるエンタープライズ環境にとって重要な機能です。これらの電源はシームレスに連携し、100WX とデュアル HXNUMX GPU からの極端な負荷下でも、一貫した電力供給を保証します。

コミノ グランド H100: デザインと構築

電源と冷却以外にも、Comino Grando H100のレイアウトは重要なコンポーネントに簡単にアクセスできるように構成されています。以前のレビューでデザインと構造を詳しくレビューしました。 コミノグランドレビューなので、ハイライトを取り上げます。

フロント パネルには、オーディオ ジャック、複数の USB ポート、ネットワーク接続オプションなどの包括的な I/O アレイがあり、ラックマウント環境やスタンドアロンでの使用に適しています。内蔵の LED ディスプレイは単なる装飾的なタッチではありません。空気と冷却剤の温度、ファンの速度、ポンプの状態などのテレメトリ データをリアルタイムで提供します。

バックライト付きメニュー ボタンにより、ユーザーは情報を簡単にナビゲートできます。また、監視や調整のための詳細な設定や診断にもアクセスできるため、定期的なメンテナンスの使いやすさと利便性が向上します。

内部では、各コンポーネントが輸送中に動かないように配置されており、GPU や SSD などの繊細な部品の周囲には補強材が追加されています。これは、サーバーの耐久性と安全な配送を保証するという Grando の取り組みを反映しています。

Comino サーバーはメンテナンスやサービスも簡単です。ケーブル、チューブ、コンポーネントの配線が非常にきれいに整えられており、内部はすっきりとしていて、ほぼモジュール式の外観になっています。これは、空気の流れとメンテナンスのしやすさにも役立ち、セットアップの残りの部分を中断することなく、任意のコンポーネントを分離して対処することが容易になります。

Comino Grando サーバー H100 のパフォーマンス

さて、これらのビルドの選択が実際のパフォーマンスにどのような影響を与えるかを詳しく見ていきます。今年初めにレビューした2つのComino Grandoモデルとこのセットアップを比較し、計算とグラフィックタスクの特定のベンチマークについて説明します。また、 スーパーマイクロ AS-2115HV-TNRT.

テスト済みシステム

私たちの グランドサーバー H100 このビルドには、7995 個のコアと 96 個のスレッドを提供する AMD Threadripper PRO 192WX プロセッサが搭載されており、このラインナップの中で最もコア密度の高い CPU となっています。このシステムは、高帯域幅のワークロードと集中的なマルチタスク処理向けに設計された 512 GB の Kingston Server Premier DDR5 メモリを搭載しています。GPU セットアップには、それぞれ 100 GB のメモリを搭載した 94 つの NVIDIA HXNUMX NVL GPU が含まれています。

Comino Grando H100 GPU

この スーパーマイクロ AS-2115HV-TNRT システムは同じ AMD Threadripper PRO 7995WX を使用していますが、520GB の DDR5-4800 ECC メモリと 6000 つの NVIDIA RTX 7450 Ada GPU が搭載されています。これらの GPU は、ハイエンドのグラフィック レンダリングとプロフェッショナルな視覚化タスク向けです。Supermicro システムには、Micron 3.2 Max XNUMXTB NVMe も搭載されています。

The グランドサーバー 今年初めにレビューしたこのシステムには、5995 コア、64 スレッドの CPU である AMD Threadripper PRO 128WX プロセッサ、512 GB の RAM、4090 つの NVIDIA RTX 4090 GPU が搭載されていました。この構成はグラフィック パフォーマンスに重点を置いており、RTX 4 はレンダリングと汎用 GPU ワークロードに高いスループットを提供します。このシステムには、1600 つの 2W PSU と XNUMX TB NVMe SSD も含まれていました。

もう一つのコミノシステムは3975Wの電力で グランド ワークステーションは、32 コアと 64 スレッドを備えています。GPU 構成は 100 つの NVIDIA A512 GPU で構成され、コンピューティング重視のワークロードと視覚化タスクのバランスを重視しています。2 GB の RAM と XNUMX TB NVMe SSD と組み合わせることで、新しいシステムよりも計算密度は低くなりますが、要求の厳しいワークフローを処理できます。

注目すべきは、私たちがレビューした以前の Grando Server は、GPU に重点を置いたベンチマーク、特にレンダリングや視覚化タスクに関連するベンチマークで優れたパフォーマンスを発揮する可能性が高いということです。RTX 4090 GPU は、ハイエンドのグラフィック ワークロード向けに設計されており、このようなアプリケーションにかなりの計算能力を提供します。

Nvidia H100 GPU は、ディスプレイ出力と消費者向け機能を意図的に省略し、データセンターのワークロードにのみ焦点を絞った専用のコンピューティング アクセラレータです。消費者向けやワークステーション向けの同等製品とは異なり、H100 はヘッドレス サーバー操作用に設計されているため、ディスプレイ ポートや Windows グラフィック ドライバーは含まれていません。NVENC エンコーディング ハードウェアがないため、コンピューティング専用であることがさらに強調され、メディア エンコーディングではなく AI および HPC タスク用にダイ スペースが最適化されます。

ベンチマーク結果

ブレンダー4.0

最初のベンチマークは、モデリング、アニメーション、シミュレーション、レンダリング プロジェクト用の包括的なオープン ソース 3D 作成スイートである Blender です。Blender ベンチマークは、視覚効果、アニメーション、ゲーム開発の専門家にとって重要な側面である、複雑なシーンのレンダリングにおけるシステムのパフォーマンスを評価します。このベンチマークは、ハイエンドのグラフィックス処理と計算タスク用に設計されたサーバーとワークステーションに関連する CPU と GPU のレンダリング機能を測定します。

ここで、Grando H100 Server 構成は、AMD Threadripper PRO 7995WX のコア数が多いため、CPU ベースのテストで優れています。モンスター、ジャンクショップ、教室のシーンなどのレンダリング タスクでは、Supermicro AS-2115HV-TNRT などの他のシステムを一貫して上回っています。ただし、GPU テストでは、グラフィックス レンダリング ワークロードにおける H100 GPU の限界が明らかになりました。H100 構成はまともな結果をもたらしますが、RTX 6000 Ada や RTX 4090 などのより汎用的な GPU を搭載したシステムの方が大幅に優れたパフォーマンスを発揮します。これは、H100 がグラフィック タスクではなく計算タスクに特化していることを強調しています。

ブレンダー
(1 分あたりのサンプル数。高いほど優れています)
グランドサーバー
(AMD 7995WX、2x H100)
Supermicro AS-2115HV-TNRT (AMD 7995WX、4x RTX 6000 Ada) Supermicro AS-2115HV-TNRT オーバークロック (AMD 7995WX、4x RTX 6000 Ada)
Blender 4.2 CPU テスト
モンスター  1,352.19 931 969
ジャンクショップ  969.44 682 640
教室 683.30 451 472
Blender 4.2 GPU テスト
モンスター 2,521 5,745 無し
ジャンクショップ 1,888.28 2,698 無し
教室 1,401.96 2,824 無し

以前レビューした Grando サーバーは Blender バージョン 4.0 でテストされました。結果は次のとおりです。

ブレンダー
(1 分あたりのサンプル数。高いほど優れています)
グランドサーバー
(TR W5995WX、512GB、6x 4090)
グランド ワークステーション
(TR 3975WX、512GB、4x A100)
Blender 4.0 CPU テスト
モンスター  568.02 334.40
ジャンクショップ  386.53 231.90
教室 293.91 174.21
Blender 4.0 GPU テスト
モンスター 5,880.71 1,656.34
ジャンクショップ 2,809.36 1,137.73
教室 2,895.54 953.46

Blackmagic RAW スピードテスト

Blackmagic RAW Speed Testは、ビデオ制作および編集におけるサーバーおよびワークステーションにとって重要な要素である、高品質ビデオフォーマットの処理速度を測定します。システムが RAW ビデオ ファイルをどのように管理し、メディア制作環境におけるワークフローの効率と生産性に影響を与えるかを評価します。

Blackmagic RAW Speed Test では、Grando Server H100 は 8K RAW ビデオのデコードで強力な CPU パフォーマンスを発揮しますが、CUDA ベースのアクティビティでは、このシステムでは小型の T1000 が処理したため、不十分です。RTX 4090 や RTX 6000 Ada などの GPU を搭載したシステムは、Windows で DirectX サポートを提供しますが、エンタープライズ向けの GPU にはネイティブでそのサポートがありません。

Blackmagic RAW スピードテスト グランドサーバー
(AMD 7995WX、2x H100)
グランドサーバー
(TR W5995WX、512GB、6x 4090)
グランド ワークステーション
(TR 3975WX、512GB、4x A100)
Supermicro AS-2115HV-TNRT (AMD 7995WX、4x RTX 6000 Ada)
8K CPU 156のFPS 132のFPS 135のFPS 132 FPS
8K CUDA 144のFPS 345のFPS 309のFPS 664 FPS

7-zip圧縮

7-zip 圧縮ベンチマークは、大規模なデータセットの管理とストレージの最適化に重要な、データの圧縮と解凍の処理におけるシステムの効率をテストします。このベンチマークは、データ操作の速度と効率が重要となる、データ集約型の操作におけるサーバーとワークステーションのパフォーマンスを反映しています。

ここで、グランド サーバー テストしたシステムの中で、最高の圧縮および解凍結果を実現しました。ただし、全体的な効率では、オーバークロックされた Supermicro AS-2115HV-TNRT 構成がそれに近い結果となりました。

7-Zip 圧縮ベンチマーク (高いほど優れています) グランドサーバー
(AMD 7995WX、2x H100)
グランドサーバー
(TR W5995WX、512GB、6x 4090)
グランド ワークステーション
(TR 3975WX、512GB、4x A100)
スーパーマイクロ AS-2115HV-TNRT
(AMD 7995WX、4x RTX 6000 Ada)
Supermicro AS-2115HV-TNRT – オーバークロック
(AMD 7995WX、4x RTX 6000 Ada)
圧縮
現在の CPU 使用率 5,582% 3,379% 3,439% 5,571% 6,456%
電流定格/使用法 8.627GIPS 7.630GIPS 7.094GIPS 7.835GIPS 9.373GIPS
定格電流 481.539GIPS 257.832GIPS 243.994GIPS 436.490GIPS 605.097GIPS
結果として生じる CPU 使用率 5,561% 3,362% 3,406% 5,599% 6,433%
結果として得られる評価/使用法 8.631GIPS 7.697GIPS 7.264GIPS 7.863GIPS 9.420GIPS
結果として得られる評価 480.006GIPS 258.756GIPS 247.396GIPS 440.288GIPS 605.984GIPS
解凍中
現在の CPU 使用率 6,270% 6,015% 6,286% 6,223% 6,343%
電流定格/使用法 7.411GIPS 5.585GIPS 5.434GIPS 7.215GIPS 9.810GIPS
定格電流 464.701GIPS 335.958GIPS 341.599GIPS 449.012GIPS 622.250GIPS
結果として生じる CPU 使用率 6,238% 6,053% 6,269% 6,213% 6,312%
結果として得られる評価/使用法 7.589GIPS 5.603GIPS 5.468GIPS 7.165GIPS 9.834GIPS
結果として得られる評価 473.375GIPS 339.171GIPS 342.766GIPS 445.130GIPS 620.749GIPS
合計評価数
合計 CPU 使用率 5,900% 4,708% 4,837% 5,906% 6,373%
合計評価/使用状況 8.110GIPS 6.650GIPS 6.366GIPS 7.514GIPS 9.627GIPS
総合評価 476.690GIPS 298.963GIPS 295.081GIPS 442.709GIPS 613.366GIPS

Yクランチャー

Y-Cruncher は、複雑な数学的演算を処理するシステムの能力をテストし、Pi を数兆桁まで正確に計算する計算ベンチマークです。このベンチマークは、特に集中的な数値計算を必要とする科学研究やシミュレーションで使用されるサーバーとワークステーションの計算能力を示します。

Y-Cruncher では、Grando Server H100 構成は、すべての桁レベルで円周率を計算する合計計算時間で優れています。AMD Threadripper PRO 7995WX のコア数が多いため、このシステムは CPU を集中的に使用するタスクで優位に立っています。ただし、オーバークロックされた Supermicro AS-2115HV-TNRT 構成では、その差は大幅に縮まり、これらのワークロード向けに最適化されたパフォーマンス チューニングの利点が実証されています。

Y-Cruncher (総計算時間) グランドサーバー
(AMD 7995WX、2x H100)
グランドサーバー
(TR W5995WX、512GB、6x 4090)
グランドワークステーション
(TR 3975WX、512GB、4x A100)
Supermicro AS-2115HV-TNRT (AMD 7995WX、4x RTX 6000 Ada) Supermicro AS-2115HV-TNRT – オーバーロック (AMD 7995WX、4x RTX 6000 Ada)
1億桁 7.523秒数 11.023秒数 11.759秒数 8.547 seconds 6.009 seconds
2.5億桁 15.392秒数 28.693秒数 32.073秒数 17.493 seconds 13.838 seconds
5億桁 29.420秒数 61.786秒数 69.869秒数 33.584 seconds 27.184 seconds
10億桁 60.089秒数 130.547秒数 151.820秒数 67.849 seconds 58.283 seconds
25億桁 214.246秒数 353.858秒数 425.824秒数 182.880 seconds 161.913 seconds
50億桁 594.939秒数 788.912秒数 971.086秒数 417.853 seconds 無し

y-クランチャー BBP

この y-cruncher ベンチマークは、Bailey-Borwein-Plouffe (BBP) 式を使用して円周率の膨大な 16 進数を計算し、CPU の合計計算時間、使用率、およびマルチコア効率を測定します。

y-cruncher BBP ベンチマークは、Grando Server H100 が大量の計算タスクを処理する際の効率性を強調しています。すべてのテストで、Grando Server は優れたパフォーマンスを発揮し、1 BBP および 10 BBP の計算で最速の合計計算時間を達成しました。100 BBP テストでのマルチコア効率は 98.68% で、Supermicro AS-2115HV-TNRT システムよりわずかに低いものの、依然として非常に効率的です。オーバークロックされた Supermicro 構成は、すべての BBP レベルの合計時間で標準の Supermicro を上回っています。それでも、Grando H100 は、最適化されたマルチスレッド機能と迅速なコンテキスト切り替えにより、小規模な BBP タスクの実際の計算速度で一貫してリードしています。

ただし、CPU 使用率に関しては、Supermicro システムはコア使用効率がわずかに優れているため、持続的な並列ワークロードに対してアーキテクチャをより効果的に活用できることがわかります。

ベンチマーク グランドサーバー
(AMD 7995WX、2x H100)
スーパーマイクロ AS-2115HV-TNRT
(AMD 7995WX、4x RTX 6000 Ada)
Supermicro AS-2115HV-TNRT – オーバーロック
(AMD 7995WX、4x RTX 6000 Ada)
1 打点
  • 合計時間: 0.173秒
  • CPU 使用率: 6,140.43%
  • マルチコア効率: 31.98%
  • 合計時間: 0.256秒
  • CPU 使用率: 7,061.79%
  • マルチコア効率: 36.78%
  • 合計時間: 0.178秒
  • CPU 使用率: 3,968.01%
  • マルチコア効率: 41.33%
10 打点
  • 合計時間: 1.301秒
  • CPU 使用率: 16,590.73%
  • マルチコア効率: 84.41%
  • 合計時間: 2.006秒
  • CPU 使用率: 17,317.36%
  • マルチコア効率: 90.19%
  • 合計時間: 1.458 秒
  • CPU 使用率: 8,574.02%
  • マルチコア効率: 89.31%
100 打点
  • 合計時間: 13.966秒
  • CPU 使用率: 18,846.58%
  • マルチコア効率: 98.68%
  • 合計時間: 21.434秒
  • CPU 使用率: 18,989.11%
  • マルチコア効率: 98.90%
  • 合計時間: 15.876秒
  • CPU 使用率: 9,488.48%
  • マルチコア効率: 98.84%

Geekbench 6

Geekbench 6 は、シングルコアとマルチコアの機能およびグラフィック処理能力にわたる CPU と GPU の計算パフォーマンスを測定します。このベンチマークは、シミュレーション、データ分析、グラフィックス レンダリングなどのさまざまなタスクにわたるサーバーとワークステーションの全体的なコンピューティング効率を評価するために不可欠です。

Geekbench 6 の結果は、Grando Server H100 が 96 コア プロセッサを搭載しているため、マルチコア CPU タスクでトップクラスのパフォーマンスを発揮することを示しています。ただし、GPU スコアでは、H100 構成は、RTX 2115 Ada GPU を活用して優れたグラフィック パフォーマンスを発揮する Supermicro AS-6000HV-TNRT を上回っています。

Geekbench 6 (高いほど良い) グランドサーバー
(AMD 7995WX、2x H100)
Grando サーバー (TR W5995WX、512GB、6x 4090) Grando ワークステーション (TR 3975WX、512GB、4x A100) スーパーマイクロ AS-2115HV-TNRT
(AMD 7995WX、4x RTX 6000 Ada)
CPUシングルコア 2,893 2,127 2,131 2,875
CPUマルチコア 28,600 21,621 20,411 24,985
GPU 298,220 294,894 193,447 307,510

Cinebench R23

Cinebench R23 は、シングルコアとマルチコアのパフォーマンスに焦点を当てて、CPU のレンダリング能力を測定します。これは、コンテンツ作成、3D レンダリング、その他の CPU を大量に使用するタスクにおいてサーバーまたはワークステーションがどの程度パフォーマンスを発揮できるかを評価するための重要なベンチマークです。 MP 比率 (マルチコア パフォーマンス比) は、システムが複数のコアをどの程度効果的に利用しているかについての洞察をさらに提供します。

H100 構成は、Threadripper PRO 7995WX の膨大なコア数を活用し、マルチコア パフォーマンスでリードしています。ただし、シングルコア パフォーマンスは他のシステムと同等です。MP 比は、マルチスレッド アプリケーションにおける 7995WX のスケーラビリティを強調しています。それでも、このベンチマークは GPU に依存しないため、H100 構成では GPU 関連の制限が見られず、全体的に競争力が高まっているように見えます。

Cinebench R23
(高いほど良い)
グランドサーバー
(AMD 7995WX、2x H100)
Grando サーバー (TR W5995WX、512GB、6x 4090) Grando ワークステーション (TR 3975WX、512GB、4x A100) Supermicro AS-2115HV-TNRT (AMD 7995WX、4x RTX 6000 Ada) Supermicro AS-2115HV-TNRT – オーバーロック (AMD 7995WX、4x RTX 6000 Ada)
CPUマルチコア  159,930 pts 73,556 ポイント 49,534 ポイント 111,792 pts 132,044ポイント
CPUシングルコア 1,876 ポイント 1,484 ポイント 1,468 ポイント 1,864ポイント 1,887ポイント
MP比 85.26 x 49.56x 33.75x 59.98x 69.99x

GPUダイレクトストレージ

このサーバーで実施したテストの 1 つに、Magnum IO GPU Direct Storage (GDS) テストがあります。GDS は NVIDIA が開発した機能で、NVMe ドライブやその他の高速ストレージ デバイスに保存されているデータにアクセスするときに GPU が CPU をバイパスできるようにします。GDS は、CPU とシステム メモリを介してデータをルーティングする代わりに、GPU とストレージ デバイス間の直接通信を可能にし、レイテンシを大幅に削減し、データ スループットを向上させます。

GPUダイレクトストレージの仕組み

従来、GPU が NVMe ドライブに保存されたデータを処理する場合、データは GPU に到達する前にまず CPU とシステム メモリを通過する必要があります。このプロセスでは、CPU が仲介役となり、遅延が増加し、貴重なシステム リソースが消費されるため、ボトルネックが発生します。GPU ダイレクト ストレージは、GPU が PCIe バスを介してストレージ デバイスから直接データにアクセスできるようにすることで、この非効率性を解消します。この直接パスにより、データ移動に関連するオーバーヘッドが削減され、より高速で効率的なデータ転送が可能になります。

AI ワークロード、特にディープラーニングを伴うワークロードは、非常にデータ集約的です。大規模なニューラル ネットワークのトレーニングには通常、テラバイト単位のデータの処理が必要であり、データ転送が遅れると GPU が十分に活用されず、トレーニング時間が長くなる可能性があります。GPU ダイレクト ストレージは、データが可能な限り迅速に GPU に配信され、アイドル時間を最小限に抑え、計算効率を最大化することで、この課題に対処します。

さらに、GDS は、ビデオ処理、自然言語処理、リアルタイム推論など、大規模なデータセットのストリーミングを伴うワークロードに特に役立ちます。CPU への依存度を下げることで、GDS はデータの移動を高速化し、CPU リソースを他のタスクに解放して、システム全体のパフォーマンスをさらに向上させます。

Comino Grandoで広範なGDSIO評価を実施し、さまざまな構成を調査してさまざまなシナリオでのパフォーマンスを評価し、サーバーを徹底的にテストしました。このタイプのテストは、ワークステーションのような環境をシミュレートし、大規模なモデルをトレーニングするためのアブレーションテスト中にその機能に関する洞察を提供するため、このレベルのサーバーにとって非常に重要です。ストレージには、 ソリディム D7-PS1010 Gen5 SSD.

テスト構成マトリックス

以下のパラメータのあらゆる組み合わせを体系的にテストしました。

  • ブロックサイズ: 1M、128K、64K、16K、8K
  • スレッド数: 128、64、32、16、8、4、1
  • ジョブ数: 16、8、4、1
  • バッチサイズ: 32、16、8、4、1

このレビューでは、シーケンシャル読み取りおよび書き込みスループットに焦点を当てました。各 GDSIO ワークロードを、複数のジョブおよびバッチ サイズにわたって、指定されたブロック サイズとスレッド数で実行しました。報告された数値は、各ジョブとバッチ数の組み合わせの平均です。

パフォーマンス分析

AI ワークロード、特にトレーニング フェーズでは、膨大な量のデータを効率的に処理する必要があります。これらのワークロードでは通常、トレーニング データセットの読み取りやモデル チェックポイントの書き込み時にスループットを最大化できる大きなブロック サイズが役立ちます。当社の包括的な GPU ダイレクト ストレージ機能テストでは、システムのパフォーマンス特性を理解するために、さまざまな I/O パターンと構成に焦点を当てました。

1M ブロック サイズでのシーケンシャル I/O パフォーマンスは、当社のテスト構成の中で印象的な結果を示しました。システムは、8.56 GiB/秒 (1M ブロック サイズ、バッチ サイズ 4、IO 深度 128、128 ジョブで 16 スレッド) という優れたシーケンシャル読み取りスループットを達成しました。このレベルのパフォーマンスは、大規模な事前トレーニング済みモデルの読み込み、トレーニング フェーズでの大規模なデータセットの処理、またはコンピューター ビジョン アプリケーションのビデオ処理などのシーケンシャル データ ストリームの処理を伴うワークロードに特に有益です。

順次書き込み操作の場合、システムは 7.57 GiB/秒 (1M ブロック サイズ、バッチ サイズ 8、IO 深度 16、16 ジョブに 8 スレッド) を実現し、分散トレーニング中に頻繁にモデル チェックポイントを作成したり、中間結果を保存したり、バッチ操作で処理済みデータを書き込んだりする必要があるシナリオに非常に効果的です。

まとめ

Comino Grando H100 サーバーは、同社のラインナップに新たに加わった印象的な製品で、他の構成とは異なるユニークな選択肢を提供します。AMD Threadripper PRO 7995WX CPU と 512GB の DDR5 メモリ (最大 1TB まで拡張可能) を搭載した Grando システムは、100 つの NVIDIA H4090 NVL GPU を搭載しています。このセットアップは AI 駆動型ワークフローに優れたパフォーマンスを提供しますが、従来のレンダリング ベンチマーク (Luxmark や OctaneBench など) での GPU パフォーマンスが犠牲になります。このベンチマークでは、RTX 6000 搭載の Grando サーバーや RTX 100 Ada 搭載の Supermicro 構成などのシステムがリードしています。とはいえ、Blender のマルチコア レンダリング、7-Zip 圧縮、Y-Cruncher などの CPU 負荷の高いテストでは、HXNUMX のパフォーマンスが他のテスト対象システムよりも一貫して優れています。

デザインに関しては、Comino Grando H100 サーバーは、コンパクトなフォーム ファクターに高性能コンポーネントを収容できます。これは、標準シャーシでは難しいことです。カスタム Direct Liquid Cooling (DLC) システムのおかげで、このサーバーはデュアル NVIDIA H100 GPU などの構成を簡単に処理できます。この高度な冷却ソリューションは、熱を抑制し、要求の厳しい高性能タスクの実行中にシステムが安定していることを保証します。この新しい Comino システムの特にユニークな点は、主にコンシューマー グレードのハードウェアを活用して、効率的で比較的手頃な価格のソリューションを作成していることです。そのため、予算を気にせずに GPU のパワーを最大化したいと考えているプロフェッショナルや企業にとって魅力的なオプションとなっています。

全体的に、Comino Grando H100 は、AI の最適化、計算タスク、および要求の厳しい環境での信頼性を優先する企業や専門家にとって優れた選択肢です。独自の設計と冷却技術の革新により、AI 駆動のワークロードに柔軟性とパフォーマンスを提供します。ただし、従来の GPU レンダリングに重点を置くユーザーには、RTX 4090 を搭載した Grando Server や RTX 6000 Ada 搭載システムなどの代替構成の方が適している可能性があります。

コミノシステムズ

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード