Dell PowerEdge XE9680 は、エンタープライズ コンピューティングにおけるイノベーションの証であり、顧客に究極の GPU 柔軟性を提供します。
PowerEdge XE9680 は、デルのこれまでで最も汎用性の高い AI インフラストラクチャ プラットフォームです。PowerEdge R760 スタイルの 2U コンピューティング ノードと、巨大な 4U GPU ドロワーが組み合わされています。この革新的な 6U 設計は、デルのエンタープライズ サーバー エンジニアリングの最高峰と、前例のない GPU 密度と柔軟性を兼ね備えています。
XE9680 は、コア部分でデュアル Intel Xeon スケーラブル プロセッサをサポートしており、CPU あたり最大 5 コアの第 64 世代または最大 4 コアの第 56 世代から選択できます。メモリ容量は大きく、4 個の DIMM スロットで最大 5TB の DDR32 メモリをサポートし、最新のプロセッサで最大 5600 MT/s で動作します。
XE9680の真の特徴は、GPU機能です。このプラットフォームは、200つの高性能GPUをサポートしています。利用可能な構成には、NVIDIAのHGX H141(100GB)とH80(300GB)、AMDのInstinct MI192X(3GB)、IntelのGaudi128(XNUMXGB)があります。新しく導入された 型番 このバリアントは、NVIDIA の次世代 B200 GPU と直接液体冷却をサポートし、密度とパフォーマンスの限界を押し上げます。
ストレージ構成も同様に柔軟で、8 台の 2.5 インチ NVMe/SAS/SATA ドライブまたは 16 台の E3.S NVMe ドライブが提供されます。システムには Dell の H965i NVMe PERC RAID カードを搭載でき、推論ワークロード中の大規模な KV キャッシュにとって重要なストレージ冗長性を簡素化します。
電力供給は、最大限の信頼性を実現するように設計されています。合計 19200W の電源装置 3 台が、3+XNUMX フォールト トレラント冗長 (FTR) 構成になっています。XNUMX 台以上の PSU に障害が発生すると、システムはシャットダウンせずにフォールト トレラント冗長モードに入ります。このモードでは、GPU 電源ブレーキが作動し、GPU クロックが XNUMX 分の XNUMX に抑制され、通常の GPU パフォーマンスの約 XNUMX 分の XNUMX になります。
この思慮深い設計の選択は、数百または数千の GPU が連携して動作する大規模なトレーニング環境では非常に貴重です。ノードが完全にオフラインになると、別のノードでトレーニングの反復を再スケジュールして繰り返す必要が生じますが、システムは次のメンテナンス ウィンドウまでパフォーマンスを低下させて動作を継続できます。電力管理におけるこのような細部への配慮により、中断を最小限に抑えて高いモデル トレーニング スループット (MFU) を維持できます。
拡張機能は幅広く、最大 10 個の PCIe Gen5 x16 フルハイト、ハーフレングス スロットがあり、そのうち 75 つは XNUMXW を超える高出力カードをサポートします。この豊富な PCIe 接続により、最新の AI インフラストラクチャの構築に不可欠な DPU や SmartNIC などのさまざまなネットワーク構成が可能になります。
完全な仕様:
製品仕様 | 詳細 |
---|---|
プロセッサ | 最大 5 つの第 64 世代 Intel® Xeon® スケーラブル プロセッサー (CPU あたり XNUMX コア) 最大 4 つの第 56 世代 Intel® Xeon® スケーラブル プロセッサー (CPU あたり XNUMX コア) |
GPUオプション | XE9680: – NVIDIA HGX H200 (141GB) SXM5 700W – NVIDIA HGX H100 (80GB) SXM5 700W – AMD Instinct MI300X (192GB) OAM 750W – インテル Gaudi3 (128GB) OAM 900W |
メモリ | 32つのDIMMスロット 5600 MT/秒(第5世代) 4800 MT/秒(第4世代) |
Storage | フロントドライブベイ: 8x 2.5 インチ NVMe/SAS/SATA (最大 122.88TB) 16x E3.S NVMe (最大 122.88TB) |
ストレージコントローラ | 内部コントローラー: PERC H965i (Intel Gaudi3ではサポートされません)内部ブート: ブート最適化ストレージサブシステム (NVMe BOSS-N1): HWRAID 1、2 x M.2 SSD |
PCIE スロット | PCIe スロット最大 10 個の PCIe Gen5 x16 スロット (Intel Gaudi8 搭載 3 スロット) |
ネットワーク | 1x OCP 3.0(オプション) 2x 1GbE LOM |
直流安定化電源 | 3200W チタン (277 VAC) 2800W チタン (200-240 VAC) |
寸法 | 高さ:10.36″(263.20mm) 幅:18.97」(482.00mm) 奥行き: 39.71″ (1008.77mm) ベゼル付き |
重量 | 最大 251.44 ポンド (114.05 kg) |
フォームファクター | 6Uラックサーバー |
マネジメント | 組み込み / サーバー側: iDRAC9 iDRACダイレクト Redfish を使用した iDRAC RESTful APIiDRAC サービス モジュールコンソール: CloudIQ for PowerEdge プラグイン OpenManage エンタープライズ OpenManage Power Manager プラグイン OpenManage サービス プラグイン OpenManage Update Manager プラグイン ツール: デル システム アップデート Dell Repository Manager エンタープライズカタログ Redfishを使用したiDRACRESTful API IPMI RACADM CLIOpenManage統合: BMC トゥルーサイト OpenManage と ServiceNow の統合 |
セキュリティ | 暗号署名されたファームウェア 保存データの暗号化 (ローカルまたは外部キー管理を使用する SED) 安全な立ち上げ 保護されたコンポーネントの検証 (ハードウェアの完全性チェック) 消去を確保 シリコンの信頼の根 システム ロックダウン(iDRAC9 Enterprise または Datacenter が必要) |
冷却 | 空冷式の |
Dell PowerEdge XE9680 の構築と設計
PowerEdge XE9680 は、高さ 10.36 インチ (263.20 mm)、幅 18.97 インチ (482.00 mm)、ベゼルを取り付けた状態での奥行き 39.71 インチ (1008.77 mm) という堂々としたハードウェアです。フル装備時の重量は 251.44 ポンド (114.05 kg) です。重量は GPU の選択によって決まり、NVIDIA H100/H200 モデルは 238 ポンド、AMD MI300X ユニットは 251 ポンドです。
これは、テスト環境に適切にロードするために慎重に検討する必要があった最初のサーバーでした。サーバーの重量とハードウェアをラックに載せるために必要な人数を考慮すると、限界を超える余裕はありますが、ある時点で、1人または2人で持ち上げることはできません。Dellは、このプラットフォームがどのように適合するかを理解するのに役立つ「リフトテーブル」を提供しています。疑問に思っているすべての人のために、 ケビンはXE9680を自分でラックに取り付けた.
シャーシ重量 | 説明 |
---|---|
40ポンド – 70ポンド | 持ち上げる場合は2人で行うことを推奨します。 |
70ポンド – 120ポンド | 持ち上げる場合は3人で行うことをお勧めします。 |
≥ 121ポンド | サーバーリフトが必要です。 |
XE9680 は複雑で、デルが専門のサービス技術者を推奨しているにもかかわらず、非常にユーザーフレンドリーなサービス要素を備えています。サーバーのパネルには詳細なサービス手順とわかりやすいグラフィックが含まれており、経験豊富な IT スタッフにとってメンテナンス手順が驚くほど簡単になっています。これらのビジュアル ガイドは、システムを実際に操作しているときに非常に役立ち、さまざまなコンポーネントを自信を持ってサービスすることができました。
PowerEdge XE9680 のカバーを開けて、上部の小さな変電所から伸びる多数の電源ケーブルを通り過ぎると、PowerEdge R760 とよく似た外観になります。このユニットは、それぞれ 8468Ghz で 48 コアの Intel Xeon Platinum 2.1 プロセッサ 80 基を搭載しています。各プロセッサは 9680 個の PCIe レーンを備えており、このユニット内の多数の PCIe スイッチを経由して、XEXNUMX に搭載されている GPU、NIC、その他のハードウェアをサポートします。
最も印象的なエンジニアリング機能の 10 つは、PCIe スイッチ ボード (PSB) 設計です。これらのボードは、最大 75 枚のフルハイト、ハーフレングスの PCIe カード (そのうち XNUMX 枚は XNUMXW を超える電力消費が可能) への接続を提供し、GPU ベースボードに直接統合されます。この直接統合により GPU ダイレクト テクノロジーが実現され、SSD とネットワーク カードが GPU と直接通信できるようになり、CPU をバイパスして、I/O 集約型の AI ワークロードのレイテンシが短縮されます。
各拡張スロットは、レイアウトの左端と右端にある 5 つの下部スロットを含め、完全な PCIe Gen16 x9680 インターフェイスをサポートします。上部の 3 つのスロットは独自の PSB を介して接続されますが、下部の XNUMX つのスロットは PCIe ベース ボード (PBB) に直接接続されます。これらの XNUMX つのスロットは、高電力消費カードもサポートします。また、PowerEdge XEXNUMX に選択した GPU タイプによって PCIe レイアウトが若干異なることに注意してください。AMD 搭載モデルは SmartNIC/DPU をサポートしておらず、Intel GaudiXNUMX モデルではエアフローの問題により XNUMX つのスロットがブロックされています。
冷却も、デルのエンジニアリングの専門知識が光るもう 16 つの分野です。このシステムには、最大 9680 個の高性能ゴールド グレード ファン (中央トレイに 10 個、背面に 35 個) が搭載されています。PowerEdge XE30 は、周囲温度が 3 ~ 1,200 ℃ (Intel GaudiXNUMX GPU の場合は XNUMX ℃) の幅広い設置シナリオをサポートします。サーバーは、最大速度で XNUMX CFM という驚異的な風量をホット アイルに送り込みます。
この堅牢な冷却ソリューションは、AMD MI300X、Intel Gaudi3、NVIDIA H100 GPU などの最も厳しい熱負荷にも対応し、最適な動作温度を維持します。PowerEdge XE9680 は、負荷がかかった状態ではノイズ出力がかなり大きくなります。Dell は、さまざまな状況での XE9680 の完全な音響仕様シートを提供していますが、負荷がかかった状態では騒音の大きいプラットフォームになるだろうと断言できます。
マネジメント
XE9680 の管理機能は、包括的なサーバーライフサイクル管理と監視を提供する、エンタープライズで実証済みの Dell の iDRAC9 を中心に構築されています。この iDRAC のバージョンには、詳細な GPU テレメトリ、電力消費分析、高密度 AI ワークロード向けに設計された広範な熱監視など、AI に最適化された機能がいくつか搭載されています。
このプラットフォームの管理スタックは、AI インフラストラクチャの導入において特に注目に値します。Redfish をサポートする iDRAC9 の RESTful API を通じて、組織は GPU 使用率、メモリ帯域幅、温度条件をプログラムで監視および管理できます。これらは、最適な AI トレーニングと推論パフォーマンスを維持するために重要な指標です。このシステムは OpenManage Enterprise と統合されているため、大規模な AI クラスターに不可欠な、統合コンソールから複数の XE9680 をフリート全体で管理できます。
セキュリティとコンプライアンスは、管理アーキテクチャの基本要素です。このプラットフォームは、シリコン ルート オブ トラストとセキュア コンポーネント検証を実装し、起動から操作までハードウェアの整合性を保証します。これらの機能は、機密性の高い AI ワークロードを実行したり、独自のモデルの重みを処理したりする場合に特に役立ちます。
CloudIQ 統合による予測障害分析機能は、機械学習を使用して、ワークロードに影響が出る前に潜在的なハードウェアの問題を予測します。このプロアクティブなアプローチは、予期しないダウンタイムによって数日間計算が失われる可能性がある長時間実行される AI トレーニング ジョブにとって特に重要です。Dell の ProSupport Plus サービスと組み合わせると、この予測機能によってケースの作成と部品の発送が自動的に開始され、多くの場合、システムの劣化が発生する前に予防保守が行われます。
既存の管理ツールとの統合を必要とする組織の場合、XE9680 は、ServiceNow や BMC TrueSight などの OpenManage 統合を通じてさまざまな管理フレームワークをサポートし、確立された IT サービス管理ワークフローにシームレスに組み込むことができます。
iDRAC9 インターフェースは、直感的なダッシュボードを通じて重要なコンポーネントの詳細なリアルタイム監視を提供します。GPU 監視では、AI ワークロード分散の最適化に不可欠な、XNUMX つのアクセラレータ全体の温度、電力消費、使用率などの包括的なメトリックが表示されます。
ストレージ監視インターフェースは、NVMe アレイ全体のドライブの状態、温度、パフォーマンス メトリックを即座に可視化します。これは、高スループットの推論キャッシュやトレーニング データセットを管理する場合に特に役立ちます。
メモリ、ストレージ、スケール
Dell PowerEdge XE300 に搭載された 9680 つの AMD MI192X GPU は、カードあたり 3 GB の HBM200 メモリを搭載し、GPU メモリ容量の大幅な向上を実現しています (NVIDIA H141 の 36 GB と比較して)。メモリ容量が XNUMX% 増加したことは、スペックシート上の数字に過ぎません。大規模な言語モデルの展開には不可欠です。
この大規模なメモリ プールと MI300X の 5.3 TB/秒のメモリ帯域幅を組み合わせることで、組織は高スループットと低レイテンシを維持しながら、小規模なモデルの複数のインスタンスを実行したり、大規模なモデルを GPU 間で分割したりできるようになります。
これを大局的に見ると、BF3.1 で 405 TB を超える VRAM を必要とする Meta の Llama 1 16B モデルは、量子化なしで MI9680X GPU を搭載した単一の XE300 に、コンテキスト長 128k 全体で快適に分散できます。これにより、量子化技術に関連する潜在的な品質低下がなくなり、モデルを XNUMX 台のサーバーに分散する場合と比較して、XNUMX 秒あたりのトークン数を増やすことができます。
ストレージフットプリントを最大化するために、 ソリダイム 61.44TB ドライブはメモリの洗練された拡張機能として機能し、高速 GPU メモリと従来のストレージ間のギャップを埋めます。SSD は推論中にキーと値のキャッシュ ペアを保存するのに優れており、長いコンテキストの生成のために GPU のメモリ容量を効果的に拡張します。その大容量と NVMe パフォーマンスにより、モデルの重みにすばやくアクセスするのに最適で、効率的なモデル切り替えとウォーム スタートが可能になります。
以下で詳しく説明する Metrum AI デプロイメントのようなアプリケーションでは、SSD はベクトル データベースのストレージ バックエンドとして二重の役割を果たしており、大規模な埋め込みストレージの容量を維持しながら、リアルタイムの類似性検索に必要なパフォーマンスを提供します。
これらの大容量ドライブの価値は、推論を超えてトレーニング ワークフローにまで及びます。トレーニング バッチをキューに入れるための理想的なローカル ストレージを提供し、データをコンピューティング リソースの近くに保持することでネットワーク オーバーヘッドを削減します。トレーニング中、これらのドライブはモデル チェックポイントをローカルに保存するのに優れています。これは、トレーニングの進行状況を維持し、迅速な回復を可能にするために重要です。このローカル ストレージ戦略は、処理された各レイヤーとバッチの直後のネットワーク トラフィックを削減することで、ネットワーク使用率を最適化するのにも役立ちます。
XE61.44の9680ベイに渡るXNUMXTBの容量は期待できそうですが、さらに大きな容量が予定されています。 Solidigmが新たに発表した122.88TBドライブ、XE のストレージ密度をほぼ 1 ペタバイトまで倍増して、さらなるトレーニングの最適化と推論キャッシュの寿命を延ばすことができます。
Metrum AI ヘルスケア アシスタント – 患者ケアに革命を起こす
医療部門は、時間のかかる患者の文書管理と記録管理という課題に常に直面しており、直接的な患者ケアが妨げられることも少なくありません。AMD アクセラレータを搭載した Dell PowerEdge XE9680 サーバーに導入された Metrum AI のヘルスケア アシスタントは、高度な AI インフラストラクチャが医療ワークフローを変革し、効率を高めて患者の転帰を改善できることを示す好例です。
このシステムは、医療コンテキストの理解力で定評のある Llama 3.1 70B Instruct を主な言語モデルとして利用しています。これにより、複雑な患者データを簡単に処理できます。この言語モデルは、gte-v1.5 埋め込みモデルおよび Milvus Vector DB とペアになっており、医療データの処理に不可欠な自然言語処理とコンテキスト理解のための堅牢な基盤を提供します。
Metrum AI のヘルスケア アシスタントには、組織病理学画像分析用の HistoGPT と医師のメモをリアルタイムで書き起こす OpenAI の Whisper を組み込んだマルチモーダル アプローチも含まれています。これらのモデルを組み合わせることで、臨床ワークフローが合理化され、医師が自然に話すことができ、システムが情報をリアルタイムで書き起こし、分類し、患者の記録に統合できるようになります。
Metrum AIは、個々の患者データは比較的小さいかもしれないが、交通量の多い病院の総合的なストレージ需要は数百テラバイトにまで膨れ上がる可能性があることを認識しています。Dell PowerEdge XE9680は、ローカルオンボードNVMeストレージでこれに対応できます。私たちの構成では、PCIe Gen2.5の速度で動作する2つの4インチU.9680 NVMeストレージベイが提供されます。XEXNUMXをテストしたところ、 61.44TB Soldigim D5-P5336 QLC SSDこの容量はさらに拡張可能です。Soldigimは最近、新しい D5-P5336 122.88TB QLCモデルこれにより、すでに大容量の SSD の容量が 2 倍になり、パフォーマンスも維持されます。
Metrum は、さまざまなシナリオで患者データが時間の経過とともにどのように変化するかを推定しました。これを合計ストレージ容量に換算すると、最大容量の SSD を使用してユニットがサポートできる追加の患者数がわかります。患者 57 人あたりの推定データ フットプリントと各 SSD の使用可能容量 (61 TB SSD の場合は 114 TB、122 TB SSD の場合は XNUMX TB) を比較すると、高密度 SSD を使用すると、サーバーに年間で意味のある方法で保存できるデータ量が大幅に増加することがわかります。
患者1人あたりの年間推定総費用 | Notes | 推定ストレージ | 61TB SSDあたりの患者数 | 122TB SSDあたりの患者数 |
---|---|---|---|---|
拡張ストレージのニーズ (DICOM 画像/バリアント、拡張、処理済みコピー、音声転写、詳細記録) | 複数の画像コピー、音声転写、記録が含まれます | 〜8.4 GB | 6,786 | 13,571 |
大容量ストレージのシナリオ (処理負荷が高く、アクセス頻度が高い) | 頻繁な訪問、高度な画像処理要件 | 〜10.5 GB | 5,428 | 10,857 |
最初の 1 年間の見積もりはかなり高いように思われますが、患者データは静的ではないことに注意することが重要です。新しいデータが取得され、新しい診察がスケジュールされるため、ストレージの需要が高まります。これが、医療画像処理の分野でストレージが重要な役割を果たす部分です。追加のストレージ容量は、ソリューションが効果的にサポートできる患者の数に直接影響します。
患者10人当たりXNUMX年間の保存量推定値 | Notes | 推定ストレージ | 61TB SSDあたりの患者数 | 122TB SSDあたりの患者数 |
---|---|---|---|---|
強化されたシナリオ(複数のコピー、詳細な記録、音声、拡張) | 記録の拡張、頻繁な画像化、処理 | 〜84 GB | 679 | 1,357 |
ハイシナリオ(高処理、包括的な履歴) | 10年間にわたる最大の処理および保管ニーズ | 〜105 GB | 543 | 1,086 |
AMD MI9680X アクセラレータを搭載し、Metrum AI の Healthcare Assistant と統合された Dell PowerEdge XE300 は、医療提供者にスケーラブルで効率的なソリューションを提供します。時間のかかるタスクを自動化し、重要な洞察に迅速にアクセスできるようにすることで、このセットアップにより、臨床医は増大する需要に対応しながら患者のケアに集中できます。言語、画像、音声の各モダリティにわたる AI コンポーネントのシームレスな統合により、Healthcare Assistant は AI 主導の医療ソリューションの大きな進歩を示し、管理上の負担を軽減し、患者の全体的な転帰を改善します。
まとめ
進化を続けるエンタープライズ AI の分野で、Dell PowerEdge XE9680 は新たな基準を打ち立て、専用ハードウェアがさまざまな業界に革命をもたらす方法を示しています。Metrum AI Healthcare Assistant の実装は、無数の可能性の XNUMX つを示しています。金融機関が複雑なリスク分析モデルをリアルタイムで実行したり、研究室が創薬のための膨大なデータセットを処理したりすることを想像してみてください。これらはすべて、この優れたシステムによって実現されます。
XE9680 は、NVIDIA の H100 から AMD の MI300X、Intel の Gaudi3 まで、GPU オプションにおいて優れた汎用性を備えています。この柔軟性と、堅牢なメモリ容量、ストレージ オプション、革新的な冷却ソリューションを組み合わせることで、単なる AI サーバーではなく、データ センターや医療オフィスなど、さまざまなアプリケーションで最も要求の厳しいワークロードを処理できる完全なエンタープライズ コンピューティング プラットフォームとなっています。
ストレージの観点から見ると、このサーバーには NVMe ベイが 61.44 つしかありませんが、Solidigm のおかげで、5 TB の SSD を使用して、上で説明したヘルスケア アシスタントの作業スペースとしてシステムに約 5336 ペタバイトを組み込むことができます。それだけでは十分ではないかもしれませんが、Solidigm は D122.88-PXNUMX の容量を XNUMX TB に倍増したと発表しました。つまり、このようなシステムでは、アクセラレータの隣に約 XNUMX ペタバイトのフラッシュ ストレージを配置でき、効率的な AI ワークロードが可能になります。
Dell のエンジニアリングは、思慮深い電源管理機能からユーザーフレンドリーな保守性まで、XE9680 のあらゆる側面に反映されています。部分的な電源障害時でも動作を維持できるプラットフォームの能力は、システムの信頼性と継続的な動作が最も重要である AI 要件に対する Dell の深い理解を証明しています。
Dell の包括的なサポート インフラストラクチャと、さまざまな取り組みを通じて AI 機能を向上させる取り組みに支えられた PowerEdge XE9680 は、エンタープライズ コンピューティングにおけるイノベーションの証です。純粋な計算能力、アーキテクチャの柔軟性、エンタープライズ グレードの信頼性を兼ね備えたこの製品は、再び Best of 2024 賞を受賞しました。
StorageReview と連携する
ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード
このレビューはケビン・オブライエンとディビアンシュ・ジェインが共同執筆しました。