ホーム Enterprise Intel Optane PMem によるビッグ データ分析とビッグ メモリの融合

Intel Optane PMem によるビッグ データ分析とビッグ メモリの融合

by トム・フェントン

Intel® Optane™ Persistent Memory (PMem) が最初に登場したとき、私たちはそれがデータセンターでのビジネスのやり方を根本的に変えることを知っていましたが、それがどのような方法で行われるかを完全に予測することはできませんでした。すべての新しいテクノロジーの場合と同様、私たちは永続メモリの初期の使用例を知っていましたが、それらが広く利用可能になると追加の使用例が現れることも理解していました。

Intel® Optane™ Persistent Memory (PMem) が最初に登場したとき、私たちはそれがデータセンターでのビジネスのやり方を根本的に変えることを知っていましたが、それがどのような方法で行われるかを完全に予測することはできませんでした。すべての新しいテクノロジーの場合と同様、私たちは永続メモリの初期の使用例を知っていましたが、それらが広く利用可能になると追加の使用例が現れることも理解していました。

DellEMC PowerEdge PMEM 200 シリーズ サーバー

企業との話し合いの中で、競争力を維持するにはインメモリ システムによるパフォーマンスの向上が必要であることがわかりました。これに DRAM を使用するにはコストとサイズの制限があり、メモリに保存したいデータのサイズを考慮することが困難でした。このペーパーでは、Intel Optane PMem が Hazelcast と MemVerge によってどのように活用され、DRAM の制限を克服して、大規模なデータ セットを使用する高速なリアルタイム アプリケーションをサポートするインフラストラクチャ構造を作成するかを見ていきます。

私たちは MemVerge、Hazelcast、Intel、Dell Technologies と協力して、リアルタイム分析を可能にするインフラストラクチャの展開方法を実証しました。具体的には、インメモリ データ マートに保存される前に取り込まれて変換されるリアルタイム データの高速受信ストリームを備えた環境をセットアップしました。主な目的は、インテル Optane PMem が大規模なリアルタイム システムを実現するためにいかに重要であるか、またインテル Optane PMem の可能性を最大限に発揮するには追加のソフトウェアが必要であることを示すことでした。

私たちが行ったテストを紹介する前に、Intel Optane PMem について簡単に復習しておきます。 ハシバミ,メムバージ.

インテル Optane PMem

永続メモリは概念としては 1980 年代半ばから存在していましたが、商用データセンターで実際に使用できる製品になったのは、インテルがインテル Optane 永続メモリ モジュール (PMM) をリリースし始めた 2018 年になってからです。 Intel Optane PMem は、DRAM よりはわずかに遅いですが、ソリッド ステート ドライブ (SSD) よりはかなり高速であるため、業界の変革をもたらします。

Intel Optane PMem は DRAM よりも遅いですが、かなり安価で、従来の DRAM よりも大きなメモリ容量を備えているため、DRAM よりも明確な利点がいくつかあります。名前が示すように、アプリ内ダイレクト モードを有効にすると永続的になります。つまり、そこに保存されているデータは、停電や、そのデータが存在するデバイスの再起動後も存続します。

インテル データ ピラミッド 2022

Intel Optane PMem の低レイテンシの秘密の 1 つは、メモリ バス上に常駐し、DRAM と同様にデータにアクセスできることです。

DDR4 の理論上のモジュールあたりの最大容量は 128 GB ですが、最も一般的に使用される容量は 4 GB ~ 64 GB です (ただし、64 GB モジュールは入手可能であっても、一般的には使用されていません)。

Intel は現在、Intel Optane PMem を 128GB、256GB、および 512GB モジュールで出荷しています。これにより、DRAM の最大 16 倍の容量が提供されます。

GB あたりのコストに基づいて、Intel Optane PMem は DRAM の約半分です。サーバーは、大容量で低価格であるため、DRAM のみを搭載したサーバーよりも低コストで、アプリケーションで利用できる低遅延データをより多く持つことができます。そして、私たちのテストからわかるように、多くのアプリケーションでは、実際の使用では DRAM と PMem のレイテンシの差は無視できます。

Intel Optane PMem 128GB 側面図このテクノロジーの名前には「永続性」という言葉が含まれていますが、Intel Optane PMem に存在するデータの永続性は見落とされることが多く、これまで十分に活用されていませんでした。しかし、MemVerge は、データの永続性を利用して企業に追加のサービスを提供する方法を考案しました。

メムバージ

Intel Optane PMem が提供する優れた機能には、それを賢く使用する責任が伴います。ここで MemVerge の出番です。ほとんどのサーバー監視および管理ツールが CPU、ディスク、ネットワーク メトリクスなどのレガシー ハードウェアに注目するのに対し、MemVerge® メモリはMachine™ は、DRAM と Intel Optane PMem の監視、管理、利用に重点を置いています。

Intel Optane PMem の初期の課題の 1 つは、アプリケーションにそれを使用できるようにする方法を決定することでした。 MemVerge メモリー マシンがなければ、DRAM の代替として Intel Optane PMem を使用できますが、Intel Optane PMem は特殊な API を使用するため、ドロップイン代替としては使用できません。 MemVerge はその API を抽象化し、インテル Optane PMem がすべてのアプリケーションにとって DRAM のように見えるようにします。 Memory Machine を使用すると、DRAM がアプリケーションに提供されるのと同じように、Intel Optane PMem がアプリケーションに提供されます。これにより、既存のアプリケーションは再設計することなくインテル Optane PMem を使用できるため、企業はアプリケーションの再プログラミングにかかる​​コストと、さらに重要なことに、再プログラミングにかかる​​時間を節約できます。特許取得済みのテクノロジーを通じて、Memory Machine はメモリのプールを作成し、Intel Optane PMem と DRAM を階層化して、アプリケーションのパフォーマンスを最適化するために必要に応じて 2 つの間でデータを移動することで、アプリケーションへの影響を最大化します。

Memory Machine の革新的な ZeroIO により、メモリ間のスナップショット (つまり、DRAM に含まれるデータの Intel Optane PMem へのスナップショット) が可能になり、これにより DRAM が永続化されます。

PMem メモリ マシン管理センター

以前は、インメモリ スナップショットを従来のストレージに保存する必要があり、このプロセスには 1 時間ほどかかる場合もありました。ただし、ZeroIO を使用すると、同じ操作を中断することなく数秒で実行できます。

MemVerge は ZeroIO を利用して他のメモリ データ サービスを提供します。タイム トラベルを使用すると、アプリケーションは以前に作成したスナップショットに戻すことができます。この機能と密接に連携しているのが、時間ベースの間隔で自動的にスナップショットを作成する自動保存です。メモリに保存されているデータを別の物理サーバーに移動する必要がある場合は、ZeroIO スナップショットをそのサーバーに移動できます。

メモリの監視と上記のサービスの促進は、MemVerge Memory Machine Management Center (M3C) を通じて行われます。

Memory Machine はデータベースで使用されると述べましたが、アニメーションやレンダリング用の Autodesk の Maya 3D から TensorFlow (機械学習フレームワーク)、さらには当社製品 Hazelcast などの他のアプリケーションまで、幅広いアプリケーションもサポートしています。この記事ではハイライトします。

ハシバミ

Hazelcast は、インメモリ コンピューティング プラットフォームの成長分野における主要なイノベーターであり、リーダーです。同社のプラットフォームは、金融、電子商取引、およびリアルタイム情報が重要なその他の種類の組織で使用されています。たとえば、不正行為の検出や取引の意思決定を支援します。

Hazelcast は 2 つのレベルで高速アプリケーションをサポートします。まず、クラスタ内の複数のサーバーにデータを分散して、高速メモリのスケーラブルな仮想プールを可能にするインメモリ ストアを提供します。データを追加するプロセスには、クラスターに別のサーバーを追加するだけです。 2 番目に、Hazelcast には、サーバーのクラスター内のすべての CPU に分散されるサブタスクに分割されたアプリケーション ロジックを処理するコンピューティング エンジンが含まれています。これにより、クラスターの集合的なコンピューティング能力を活用するだけでなく、効率的かつ高速な方法でのデータの並列処理 (これには、変換、強化、集約、分析が含まれます) も可能になります。 Hazelcast は、ストリーミング データ機能を介してデータを作成するとすぐに処理できるため、次世代のリアルタイム アプリケーションの構築に役立ちます。

リアルタイムデータの分析

リアルタイム システムは主に、速度とスケールという 2 つの主要な特性によって駆動されます。速度によって作成されるデータに確実に対応できるのに対し、スケールによってそのデータの量を処理できることが保証されます。問題をさらに複雑にしているのは、データがさまざまなソースから取得されている可能性があることです。もちろん、高価な DRAM をより手頃な価格の Intel Optane PMem に置き換えるなど、革新的な手段を利用しない限り、高速化と大規模化はコストの増加につながります。

リアルタイムのデータ分析機能は、企業や組織が直面する可能性のあるさまざまな状況を即座に洞察し、対応するために必要な情報を提供します。たとえば、銀行が以前よりも高い流動性を維持することが求められるバーゼル III のような取り組みに準拠することは、収益を生み出すために活用できる資金が少なくなることを意味します。同時に、監査人や監督者からさらに高い流動性要件を課せられないように、日々のリスクを理解していることを証明する必要があります。リスク管理とコンプライアンスのためのリアルタイム システムを導入することで、銀行は取引ポジションを瞬時に把握し、リスク エクスポージャーをより効果的に理解し、報告できるようになります。

別の例を強調すると、株式取引分析システムは取引を追跡し、リアルタイムで分析可能な形式で表示します。これらのシステムは、株式取引から得られる収益による明らかな投資収益率 (ROI) により、高い出費を正当化できます。

テストシナリオ

これらのテクノロジーを調査するために私たちが使用することを選択したアプリケーションは、コスト効率の高い「オンデマンド分析」がいかに高コストのリアルタイム システムに代わる適切な手段であるかを示すために Hazelcast によって作成された取引監視コード ベースに基づいています。

これは小規模な研究プロジェクトであったため、いくつかのトレードオフを行って、テスト環境が典型的な運用環境を完全に反映しないようにしました。たとえば、私たちが使用した Dell EMC サーバーの計算能力は、利用可能なデータ ソースが必要とするものよりもはるかに強力であったため、サーバーで利用可能な CPU 能力を最大限に活用することができませんでした。また、わかりやすくするために、外部データ配信システムは最適化しませんでした。実稼働システムでは、このセットアップのパフォーマンスと費用対効果を向上させるために、すべてのコンポーネントが最適化および調整されているはずです。

テストの目的

私たちのテストで最も重要な点は、Intel Optane PMem がリアルタイムのデータ フィードを維持できるかどうかを確認することでした。

Intel Optane PMem によってサポートされているインメモリ データ マート内の集約/インデックス付けされたデータのアクセス速度のテストを回避しました。 MemVerge と Hazelcast による以前のテストでは、ベンチマークはデータ アクセス速度が DRAM の速度に非常に近く (多くの場合、読み取りと書き込みの両方で同一の速度が実証されました)、したがってディスクまたは SSD ベースのデータよりもはるかに高速であることを示しました。アクセスします。データ アクセス速度が他のアーキテクチャ構成よりも有利であることがわかっていたため、テストは取り込み側のみに焦点を当てました。

テストのために、データ ソース サーバー上に架空のデータを生成しました。受信データ フィード内の各データ要素は株式取引を表していました。銘柄記号、数量、価格、時間は最も重要な値でした。各銘柄記号は、特定の銘柄について 1 日に複数の取引をシミュレートするために、生成されたデータセット内で複数回使用されました。これらの個別の取引が集計されて、特定の銘柄記号の取引合計が算出されました。

生成されたデータは、データの高速ストリームをキャプチャする機能があるため、Apache Kafka に保存されました。 Kafka の各レコードには、ペイロード内のすべてのメタデータを含めて 210 バイトが必要でした。 Kafka は、XNUMX つの個別のブローカーをすべて XNUMX つのデータ ソース マシン上で実行し、各ブローカーに XNUMX つのパーティションを設定するように構成されていました。もちろん、この構成は実稼働環境では使用されません。分散テクノロジー用の単一ソース マシンを使用するのは非現実的だからです。ただし、テストの目的には適していました。

テスト環境

テストには 750 台の Dell EMC PowerEdge R74 サーバーと XNUMX 台の Dell EMC PowerEdge RXNUMXxd サーバーを使用しました。 XNUMX つは MemVerge Memory Machine と Hazelcast を使用して分析アプリケーションを実行し、XNUMX つ目はテスト データを作成して保存しました。

分析サーバー

モデル Dell EMC PowerEdge R750
CPU デュアル Intel® Xeon® Gold 6330 プロセッサー @ 2GHz (Ice Lake)

各 28 コア (合計 56 コア、インテル® ハイパー スレッディング テクノロジー搭載 112)

DRAM 16GB DRAM DDR64 の DIMM 4 個

サーバーあたり 1 TB

インテル Optane PMem 16GB Intel Optane PMem DDR-T インターフェイスの DIMM 128 枚

サーバーあたり 2 TB

ネットワーク·インタフェース 10 GbE
ソフトウェア MemVerge メモリ マシン 1.2

ヘーゼルキャスト プラットフォーム 5.0

データソースサーバー

モデル Dell EMC PowerEdge R740xd
CPU デュアル Intel® Xeon® Gold 6140 プロセッサー @ 2.3GHz (Skylake)

各 18 コア (合計 36、インテル® ハイパー スレッディング テクノロジー搭載の 72)

DRAM 12GB DRAM DDR32 (4GB) DIMM 384 個

2GB NVDIMM DDR16 (4GB) の DIMM 32 枚

インテル Optane PMem 必要ありません
ネットワーク·インタフェース 10 GbE
ソフトウェア Apache カフカ 2.8

Hazelcast が提供するデータ生成ツール

テスト中に、分析サーバーの DRAM の量が大幅に少なくなる可能性があることがわかりました。 DRAM は主にオペレーティング システムで使用されていましたが、アプリケーションでは主に少量の DRAM を備えた Intel Optane PMem が使用されていました。コスト削減を最適化するには、サーバー上の DRAM を絶対的に最小限にすることが合理的な構成となります。

試験結果

データ ソースを作成するために、Kafka に保存された約 5 億のレコードを作成しました。次に、XNUMX つのアプリケーション サーバー上で実行されている取り込みアプリケーションが開始され、XNUMX つの Hazelcast インスタンス (Dell Technologies サーバーごとに XNUMX つの Hazelcast サーバー) 全体でデータの取り込みが開始されました。

DRAM のみを使用する場合にアプリケーションをテストし、MemVerge で Intel Optane PMem を使用する場合と比較しました。テストの結果、主に書き込みであるワークロードの場合、Intel Optane PMem のみを使用すると、純粋な DRAM と比較して 32% のパフォーマンスの低下が見られることがわかりました (242K 対 357K)。ただし、Intel Optane PMem + DRAM 構成を使用した場合、ペナルティは 9% のみでした。クラスター内のサーバーの数を増やして書き込みをさらに分散させることで、この幅をさらに狭めることができた可能性があります。特定のワークロードが、このテストされたハードウェア構成の CPU 能力全体を活用するとは限らないため、追加サーバーの追加コストは、低能力の CPU を調達することで相殺できます。

  パフォーマンス (1 秒あたりのレコード数)
DRAMのみ 357,000
50GB DRAM + メモリ マシンをサポートする Intel Optane PMem 325,000
Intel Optane PMem + メモリ マシンのみ 242,000

テストした各構成の価格を検討しましたが、コストやその他の要因の潜在的な変動により、これらの見積もりがすぐに古くなってしまう可能性があることを考慮して、そうすることは断念しました。ただし、セットコストに関係なく、DRAM をサポートする Intel Optane PMem は、DRAM のみベースのサーバーよりも大幅に安くなります。

テストの解釈

テストから得られた重要な点は、Intel Optane PMem 対応サーバーのクラスターは、DRAM のみを使用したクラスターとほぼ同じ速度で実行できるにもかかわらず、コストは大幅に低いということでした。

私たちにとってもう 1 つの重要な点は、Intel Optane PMem を使用することで、数週間または数か月のデータをキャプチャして保存できることです。これにより、企業はリアルタイムでデータを分析できるだけでなく、履歴データの高速分析にもデータを利用できるようになります。データ。これにより、機械学習 (ML) などの高度な分析ツールを使用して、さらなる洞察を明らかにする可能性のある傾向とパターンを分析する機会が生まれます。

言い換えれば、企業は、データ ウェアハウスやデータ レイクを導入する際にコストや速度を犠牲にすることなく、幅広い時間範囲をカバーするリアルタイム分析環境を導入し、新しい形式の分析を模索することができます。

その他の試験

環境をセットアップした一方で、MemVerge Memory Machine の他の機能、特にスナップショットとリカバリ機能のいくつかもテストしたいと考えていました。幸いなことに、Memory Machine は Hazelcast クラスターと統合されているため、スナップショットとスナップショットのリカバリを M3C で直接管理できます。

スナップショットは、オンデマンドまたは設定されたスケジュールでいつでも取得でき、クラスターのピーク運用中に両方の方法をテストしました。スナップショットは、問題や分析のパフォーマンスに影響を与えることなく、数秒で完了しました。停電など、Hazelcast クラスターに何かが起こった場合でも、スナップショットの 1 つを使用してデータを復元できた可能性があります。

スナップショット機能は保護だけでなく、サーバーの稼働率向上にも活用できます。金融機関では、通常の取引時間中はサーバーが頻繁に利用されますが、営業時間外は比較的アイドル状態になります。ホットスタート方式を利用することで、サーバの稼働率を飛躍的に向上させることができます。たとえば、取引日の終わりに、取引データベースのスナップショットを取得できます。その後、取引データベースがシャットダウンされると、サーバーはデータ マイニングなどの他のデータ処理タスクに設定できます。取引日の開始時に取引データベースを迅速に復元し、取引操作を再開できます。

まとめ

Intel Optane PMem は、データセンターを再構築し始めているエキサイティングで革新的なテクノロジーですが、他のすべてのテクノロジーと同様、幸いなことに、孤立して存在するわけではありません。 Dell Technologies、Intel、MemVerge、Hazelcast などの先進的な企業は相乗効果を見出し、この新しいテクノロジーを活用してデータセンターでの真の可能性を見出し始めています。Intel Optane PMem モジュールは DRAM の約半分のコストで提供されます。 Dell Technologies には、Intel Optane PMem が提供する大量の低遅延メモリ容量をサポートするサーバーがあります。 Hazelcast を使用すると、アプリケーションはこれらのテクノロジーを大規模に利用できるようになります。 MemVerge は、Intel Optane PMem の監視、管理、およびデータ サービスを提供します。また、DRAM API を抽象化することで、既存のアプリケーションに対して Intel Optane PMem が DRAM のように見えるようになり、変更や再構築を行わずに実行できるようになります。

他のすべてが同じであれば、企業はバッチ アクティビティではなくリアルタイム アクティビティを選択するでしょう。ただし、すべてが同じではないため、リアルタイム処理に伴うコストを回避するためにバッチ処理が選択されるパターンがよくあります。しかし、リアルタイム指向がますます高まる世界で顧客の期待が高まり続ける中、企業は競争上の優位性を生み出す新しい方法を見つける必要があります。インメモリ コンピューティングの従来のコストに悩まされることなくリアルタイム速度を活用することで、大手企業は Intel Optane PMem、MemVerge、Hazelcast などのテクノロジーを活用して飛躍し、自社や顧客の要求に応えるソリューションを構築できます。 、これまでよりも速くなります。

ハシバミ

メムバージ

このレポートは MemVerge によって後援されています。このレポートで表明されているすべての見解や意見は、検討中の製品に対する当社の公平な見解に基づいています。 Intel、Intel ロゴ、および Intel Optane は、Intel Corporation またはその子会社の商標です。

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | Facebook | TikTok | RSSフィード