CoolIT は、企業が電力を大量に消費するサーバーに液体冷却を導入できるように設計されたコールド プレート、マニホールド、冷却分配ユニットを備えています。
当社は CoolIT Systems と提携して、ラボに液体冷却を導入しました。その取り組みの一環として、ミニ水冷装置を組み立て、Dell PowerEdge R760 を改造して、空冷から水冷に変換しました。私たちは液冷の旅を始めたばかりですが、直接液冷 (DLC) がもたらす利点についてはすでに重要な発見をしています。
最新のワークロードをサポートするには、何らかの形での液体冷却が必要になります。膨大な CPU と GPU の熱設計能力 (TDP) を備えた空冷サーバーでは、この計算はもはや機能しません。コールド プレート経由で配信される DLC は最も一般的なソリューションであり、どのサーバー ベンダーにも少なくとも 1 つのオプションがあります。デルに関しては、CoolIT Systems と提携して、PowerEdge ポートフォリオ全体に液体冷却を提供しています。
私たちのラボは、ほとんどのデータセンターと同様、最初から液体冷却を利用するように設計されていませんでした。しかし、多くのデータセンターと同様に、最高出力のサーバーには何らかの形で液体冷却が必要になるため、これらのシステムを活用したい場合は適応する必要があります。これは、データセンターが AI に投資しており、これらのシステムのほとんどが間もなく運用のために何らかの液体ループを必要とするようになるため、企業内でよく聞かれる話です。
私たちの場合、ラボにある Dell PowerEdge R760 サーバーの XNUMX 台を改造することから始めることにしました。明確にしておきますが、顧客が水冷サーバーを必要とする場合、そのサーバーはデルにそのように注文されます。デルは CoolIT との統合を担当し、顧客はコールド プレートが取り付けられ、液体冷却用のホースが接続されたサーバーを受け取ります。 DLC PowerEdge システムには空冷サーバーとは異なる微妙な点がいくつかあり、私たちはこの作業で比較的未知の領域に足を踏み入れました。たとえば、iDRAC カードは異なります。DLC バージョンにはリーク検出用のリードが付いています。変換プロセスは成功しましたが、独自のコールド プレートの取り付けはサポートされていません。
CoolIT DLC キット
CoolIT は、顧客がデータセンターに液体冷却を追加するプロセスを実行する際の小規模な概念実証に通常使用されるミニ システムを提供してくれました。とはいえ、このシステムは 10kW まで拡張できるため、液冷を初めて使用する人にとっては、半分のラック程度で経験を積むのに最適な方法です。このセットアップには、コールド プレート、ラック マニホールド、冷却剤分配ユニット (CDU) という XNUMX つの主要なコンポーネントがあります。
コールド プレートは特定の TDP ユースケース向けに設計されており、冷却対象の CPU または GPU に完全にフィットします。一見シンプルに見えますが、プレート自体にポンプや可動部品はありませんが、TDP が向上しているため、エンジニアリングは簡単ではありません。見通しとして、CoolIT は最近、 新しいコールドプレートライン 最大1500Wまでサポートできます。比較すると、R760 の CPU は少し平凡で、Intel Xeon 8580 CPU の TDP はそれぞれ「わずか」 350 W です。
コールド プレートの取り付けは非常に簡単で、ブロックにはあらかじめ放熱グリスが塗布されており、非常にシンプルなドロップイン キットです。前述したように、DLC システム用には別の iDRAC カードがあり、コールド プレートから漏れ検出ケーブルの接続ポイントが伸びています。ホースは、DLC iDRAC キットに付属する別のブラケットを介して、R760 の背面から配線されます。
コールド プレートは、ラベルが付いたウォーム/コールド接続を介してマニホールドに接続されます。マニホールド自体はステンレス鋼で作られており、継手は滴下なしのクイックディスコネクト式です。サーバーをマニホールドに接続するのに数秒かかりますが、マニホールドは事前に入力されています。ちなみに、マニホールドはラックの背面にありましたが、必要に応じて前面に構成することもできます。この使用例にはミニ マニホールドがあります。より伝統的な DLC ラックには、ラック全体をカバーするマニホールドがあります。マニホールドは CDU に直接接続されます。
CDU はこのループで面倒な作業を行います。 CoolIT AHx10。これは、周囲 5℃ で 7kW の負荷を処理できる 25U の液体から空気への CDU です。 CoolIT は、このユニットを 10kW まで拡張する拡張キットを提供しています。シャーシの内部には、液体から空気への熱交換器と冗長ポンプがあります。 CDU は、マニホールドと同様に、あらかじめ充填されています。ここではラック内の比較的低い位置に CDU を配置しましたが、ラックのセットアップ方法に応じて CDU をどこにでも配置できます。
AHx10 の最大消費電力は 750 W で、これは省電力に関する全体的な経済性の議論に役立ちます。このシステムには、リモート アクセス サポートを提供する直感的なタッチスクリーン ディスプレイが搭載されています。最初にポンプ圧力を設定すること以外に、CDU で行う必要があることはほとんどありません。CDU は設定しただけで、ほとんど忘れてしまいます。私たちのものは、追加の介入なしで数週間実行されています。
この CoolIT ギアでは、熱そのものを解決しているわけではないことに注意してください。事実上、R760 の CPU から CDU 内の熱交換器に熱を移動させています。熱を研究室の外に伝えるための設備がないため、以前と同じように研究室を冷却する必要があります。とはいえ、このような小型システムは数台の水冷サーバーに最適であり、小規模な AI 導入を行う企業には最適かもしれません。 デル PowerEdge XE9640 うまくペアリングするでしょう。
研究室では依然として DLC R760 からの熱と闘わなければなりませんが、液冷への移行にはいくつかの利点があります。
DLCのメリット
空冷から液冷に移行する場合、最大かつ最も明白な利点は、ファンの使用量の削減です。 R760 は、DRAM やストレージなどのシステム コンポーネントにエアフローを必要としますが、それほど高速に回転する必要はありません。これによりサーバーの動作音が静かになりますが、DLC ループの最も優れた点は電力消費量の削減です。私たちが発見したもう 760 つの点は、少し驚くべきことでした。DLC RXNUMX のパフォーマンスは、空冷の場合よりもわずかに優れていました。
R760 の電力消費をより詳しく見るために、次のように設定しました。 Quaarch QTL2843 主電源解析モジュール。工場出荷時の空冷ヒートシンクと CoolIT コールド プレートの両方を使用してサーバーを実行しました。 CPU に負担をかけるため、円周率計算を 50 億桁まで実行しました。これにより、CPU と DRAM に非常に大きな負荷がかかります。私たちの目的は、CPU を可能な限り強く押して、ファンが必要な最大限の役割を果たせるようにすることでした。
DLC 実装の影響はすぐに明らかでした。 R760 を空冷構成で実行すると、予想どおり、ワークロード中にファンが 100% まで回転します。 DLC 構成では、R760 はファンを 32% で回転させることを選択しましたが、これは劇的な低下です。これは、サーバー 200 台だけで 41 ワットの節約に相当します。際立っているのはファンの速度だけではありません。CPU 自体の温度は、空冷時の 42/88 ℃と比較して、DLC では約半分の 89/XNUMX ℃と報告されています。
しかし、液冷化によって得られるのは電力の節約だけではありません。予想していなかったパフォーマンスのわずかな向上が見られました。コールド プレートがより優れた冷却を提供することで、CPU は最大限に動作できます。空冷構成では、R760 は 50 億 Pi の計算を 369 秒で完了しました。 DLC 構成では、R760 の方が少し速くなり、347 秒で計算が完了しました。これはパフォーマンスが約 6% 向上したことになり、Intel CPU の能力をもう少し引き出すことができます。
最終的な考え
私たちは研究室で液体冷却を始めたばかりですが、この最初の取り組みで CoolIT と協力できたことに興奮しています。 PowerEdge R760 ではコールド プレートが完璧に機能しており、マニホールドと CDU が一体となって、何の心配も継続的な調整も必要なく「正常に機能」します。データセンターに液体を持ち込むことに不安を抱いている人にとって、継続的なシンプルさは非常に重要です。また、予想通り、漏れやその他の壊滅的な出来事も発生していません。これは故障率が非常に低いエンタープライズ機器です。
ハイパワー AI システムをデータセンターに導入しようとしている企業にとって、液体冷却は当然の結論です。 8 ウェイ GPU サーバーは空冷を放棄し、このような DLC ループ、または少なくともクローズド ループとラジエーターを選択する予定です。いずれにせよ、ある程度の液体がデータセンターに侵入することになります。大幅な電力削減と適度なパフォーマンス向上により、企業が DLC サーバーを採用する理由はたくさんあります。
CoolIT はこの分野の明確なリーダーであり、デルとの関係により、ほとんど心配することなく簡単に消耗できる方法で、さまざまな液体冷却ソリューションを市場に提供しています。私たちは小さなループをさらに探索することを楽しみにしており、ラボでさらに多くの水冷サーバーを見るのが待ちきれません。
StorageReview と連携する
ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード