Startseite Unternehmen StorageReview hat in 100 Tagen 54 Billionen Pi-Stellen berechnet und damit Google Cloud übertroffen

StorageReview hat in 100 Tagen 54 Billionen Pi-Stellen berechnet und damit Google Cloud übertroffen

by Jordan Ranous
AMD Genua nackte CPU

Pi stellt das Verhältnis des Umfangs eines Kreises zu seinem Durchmesser dar und hat unendlich viele Dezimalstellen, die sich nie wiederholen oder enden. Die Berechnung des unendlichen Pi ist nicht nur für Mathematiker eine spannende Aufgabe; Es ist auch eine Möglichkeit, Rechenleistung und Speicherkapazität einem ultimativen Härtetest zu unterziehen. Bisher hielt Googles Cloud mit 100 Billionen Stellen den Weltrekord für die größte Pi-Lösung. Bis heute hat StorageReview diese Zahl erreicht, und das in einem Bruchteil der Zeit.

Pi stellt das Verhältnis des Umfangs eines Kreises zu seinem Durchmesser dar und hat unendlich viele Dezimalstellen, die sich nie wiederholen oder enden. Die Berechnung des unendlichen Pi ist nicht nur für Mathematiker eine spannende Aufgabe; Es ist auch eine Möglichkeit, Rechenleistung und Speicherkapazität einem ultimativen Härtetest zu unterziehen. Bisher hielt Googles Cloud mit 100 Billionen Stellen den Weltrekord für die größte Pi-Lösung. Bis heute hat StorageReview diese Zahl erreicht, und das in einem Bruchteil der Zeit.

100 Billionen Ziffern von Pi

Pi im Himmel, über den Wolken

Letztes Jahr gab Google Cloud Developer Advocate Emma Haruka Iwao bekannt, dass sie und ihr Team Pi auf 100 Billionen Stellen berechnet hatten und damit ihren bisherigen Rekord von 31.4 Billionen Stellen aus dem Jahr 2019 gebrochen hatten. Sie verwendeten ein Programm namens y-cruncher, das auf der Compute Engine von Google Cloud läuft. Die Fertigstellung und Verarbeitung von rund 158 Petabyte an Daten dauerte etwa 82 Tage. Am Ende hätte dieser Lauf auch eine enorme Rechnung für Cloud-Computing und -Speicherung nach sich gezogen, verbunden mit der zunehmenden Dynamik für Unternehmen, bestimmte Workloads wieder vor Ort zu verlagern, was uns auf eine interessante Idee brachte …

Wir waren von der Leistung von Emma und der Google Cloud beeindruckt, fragten uns aber auch, ob wir es schneller und mit geringeren Gesamtkosten schaffen könnten. Bei StorageReview.com haben wir Zugriff auf einige der neuesten und besten Hardware der Branche, darunter AMD EPYC-Prozessoren der 4. Generation, Solidigm P5316 SSDs und obszöne Mengen an Lithiumbatterien. Wie ein himmlisches Paar haben wir einen Hochleistungsserver mit knapp 600 TB QLC-Flash und einer einzigartigen hochverfügbaren Stromversorgungslösung gebaut.

Hier sind die Spezifikationen unseres Rechensystems:

  • 2 x AMD EPYC 9654 (96 Kerne, 2.4 GHz, 3.7 GHz Boost)
  • 24 x 64 GB DDR5-4800 DIMMs, insgesamt 1.5 TB
  • 19 x Solidigm 30.72 TB QLC P5316 SSDs
  • Windows Server 2022 Standard 21H2
  • Programm (kann in Englisch und Deutsch durchgefuehrt werden) Y-Cruncher von Alexander Yee

Auch wenn die Gesamthardware extrem erscheinen mag, betragen die Kosten für den Kauf unserer Hardware immer noch nur einen Bruchteil der sechsmonatigen Ausführung derselben Arbeitslast in der Cloud.

Rechenzentrum: Entworfen von Madmen

Eine der ersten Fragen, die uns beim Entwerfen unseres Rigs für diesen Test aufkamen, war: „Wie stellen wir ein zusammenhängendes Volumen dar, das groß genug ist, um eine Textdatei mit 100 Billionen Ziffern von Pi zu speichern?“ (Dies ist definitiv eine direkte Frage Zitat, das wir völlig gesagt haben). Die Rechnung ist recht einfach: 1 Pi-Ziffer = 1 Byte. Da wir 100 Billionen Dezimalstellen haben, benötigen wir dafür 100 TB und zusätzlich 83 TB für die 83 Billionen Hexadezimalzahlen, die ebenfalls berechnet werden. Zum Glück ist dies StorageReview, und wenn wir eines können, dann ist es, große Datenmengen unter übermäßigem Stress zu speichern.

Leider hat selbst Kevin (noch) kein 183-TB-Flash-Laufwerk in seinem Hausmeister-großen Schlüsselbund aus Flash-Laufwerken. Nachdem wir uns im Labor verschiedene Methoden angeschaut und getestet und mehrere Möglichkeiten zum Zuordnen eines NAS oder einer Dateifreigabe untersucht hatten, stellten wir beim Testen fest, dass Y-Cruncher gerne eine direkte IO-Steuerung der Festplatten hat, mit denen es arbeitet; nicht nur die Auslagerungsplatten, sondern auch das Dateiausgabeverzeichnis. Unsere einzige Option war, dem Y-Cruncher ein Volume zu geben, an das er SCSI-Befehle senden kann, da dies die optimale Leistung bietet.

Daher war es als nächstes nur logisch, ein iSCSI-Ziel zu verwenden Supermicro-Speicherserver zum Speichern der Ausgabedateien, die zu groß waren, um auf ein einzelnes Volume auf dem lokalen Rechenhost zu passen. Diese Plattform war eher traditionell im Sinne von Speicher mit hoher Kapazität und hostete „nur“ 200 TB auf vier 50-TB-LUNs, die wir auf unserer Rechenplattform verteilt haben.

Auch wenn RAID 0 für Aufregung sorgen könnte, muss man zu unserer Verteidigung sagen, dass der Dateiserverspeicher aus einem gespiegelten Windows-Speicherplatzpool herausgelöst wurde, sodass auf dem Remote-Host Redundanz verfügbar war. Anschließend wurde es über eine 10G-Schnittstelle mit zwei Ports multipathisiert, direkt angeschlossen und zwischen beiden Servern fest verdrahtet. Das Entfernen eines Schalters aus dieser Gleichung war Absicht, da diese Pi-Plattform so konzipiert war, dass sie für den Fall, dass das Hauptlabor offline gehen sollte, vollständig separat betrieben werden kann.

Während der Schutz der Stromversorgung im StorageReview-Labor nicht immer ein großes Problem darstellt, erforderte ein Projekt dieser Größenordnung (das sich über Monate erstreckte) extreme Maßnahmen, um die Betriebszeit sicherzustellen. Wir haben drei genutzt Tragbare Kraftwerke EcoFlow Delta Pro, jeweils mit einer Ausgangsleistung von 3600 W und einem 3600-Wh-Akku.

Der AMD Genoa-Server nutzte zwei mit einem Eaton 5PX Unterbrechungsfreie Stromversorgung zwischen einem Delta Pro, um die Umschaltverzögerung vom EcoFlow während eines Ausfalls zu verringern. Dem Dateiserver war ein Delta Pro zugeordnet, mit einem Eaton 5PX G2 für Transferverzögerungen.

Kurz gesagt, wir haben eine USV auf Basis von Steroiden entwickelt, die die Vorteile tragbarer Hochleistungskraftwerke mit der Zuverlässigkeit moderner Batterie-Backup-Geräte für Rechenzentren kombiniert. Bei maximaler Rechenlast hatten wir eine Laufzeit von 4 bis 8 Stunden im Akkubetrieb. Wir hatten während des gesamten 100T-Pi-Laufs zahlreiche Stürme, konnten aber ruhig schlafen, da wir wussten, dass der Pi-Lauf betriebsbereit bleiben würde.

Fleisch, Kartoffeln und Pi. Viele, viele Pi…

Wir haben mit der Berechnung am Do, 9. Februar, 17:40:47 2023 EST begonnen und sie am Montag, 10. April, 05:27:37 2023 EST abgeschlossen. Die verstrichene Pi-Berechnungszeit betrug 54 Tage, 17 Stunden, 35 Minuten und 48.96 Sekunden, wobei die gesamte Wand-zu-Wand-Zeit, einschließlich Schreiben und Validieren, 59 Tage, 10 Stunden, 46 Minuten und 49.55 Sekunden betrug.

Die gesamte verfügbare Speichergröße betrug 530.1 TB, ohne 200 TB iSCSI-Ziel für das Ausschreiben. Hier sind einige Highlights der Zähler aus der Y-Cruncher-Validierungsdatei: zum Download und zur Überprüfung verfügbar.

Die Zahlen

Startdatum: Do, 9. Februar 17:40:47 2023

Arbeitendes Model:

  • Konstante: Pi
  • Algorithmus: Chudnovsky (1988)
  • Dezimalstellen: 100,000,000,000,000
  • Hexadezimale Ziffern: 83,048,202,372,185
  • Arbeitsspeicher: 1,512,978,804,672 (1.38 TiB)
  • Gesamtspeicher: 1,514,478,305,280 (1.38 TiB)

Zähler für logische Festplatten:

  • Logisch größter Kontrollpunkt: 150,215,548,774,568 (137 TiB)
  • Logische Spitzenauslastung der Festplatte: 514,540,112,731,728 (468 TiB)
  • Gesamtzahl der gelesenen Bytes der logischen Festplatte: 40,187,439,132,182,512 (35.7 PiB)
  • Gesamtzahl der geschriebenen Bytes der logischen Festplatte: 35,439,733,386,707,040 (31.5 PiB)

Zahlen lügen nicht:

  • Gesamtrechenzeit: 4728948.966 Sekunden
  • Wandzeit von Anfang bis Ende: 5136409.559 Sekunden
  • Letzte Dezimalstellen:
    • 4658718895 1242883556 4671544483 9873493812 1206904813: 99,999,999,999,950
    • 2656719174 5255431487 2142102057 7077336434 3095295560: 100,000,000,000,000

Enddatum: Montag, 10. April, 05:27:37 Uhr 2023

Die zehn Ziffern von Pi, die zu 100 Billionen führen, sind 3095295560.

Wir haben Pi in etwa einem Drittel der Zeit auf 100 Billionen Stellen berechnet, was zum Teil dem gesamten lokalen Swap-Speicherplatz im Vergleich zur Google-Methode zu verdanken ist. Dies zeigt die unglaubliche Leistung, Dichte und Effizienz der lokal angeschlossenen Solidigm P5316 QLC SSDs und natürlich der AMD EPYC Prozessoren der 4. Generation.

Lokaler Speicher war ein wesentlicher Bestandteil dieses Geschwindigkeitslaufs. Während Googles Lauf nahezu unbegrenzte Speichermengen nutzen konnte, war er auf eine 100-GB-Netzwerkschnittstelle beschränkt. Es ist seltsam zu sagen, dass 100 GB langsam sind, aber im Maßstab unseres Tests wird es zu einem riesigen Engpass. Während unserer Swap-Schreibstöße haben wir kumulative Übertragungsgeschwindigkeiten zu den Solidigm P5316 QLC SSDs von über 38 GB/s gemessen.

Die Lesegeschwindigkeit war sogar noch höher. Netzwerktechnisch gesehen benötigen Sie mehrere 400-Gbit-Verbindungen (Redundanz), um diese Datenmenge zu übertragen. Obwohl dies nicht unmöglich ist, sind viele Cloud-Umgebungen einfach nicht für diese Bandbreite ausgelegt. Die Bare-Metal-Dense-I/O-Instanzen von Oracle kommen dieser reinen Geschwindigkeitsskala wahrscheinlich am nächsten, sind jedoch auf acht NVMe-SSDs und eine Gesamtkapazität von 54.4 TB beschränkt.

Solidigm QLC Flash für Leistung, Ausdauer und Dichte

Um eine so wichtige Berechnung durchführen zu können, brauchten wir Platz, und zwar so schnell wie möglich, und zwar viel davon. Der Swap-Modus ist eine Funktion in Y-Cruncher, die die Durchführung von Berechnungen über die Festplatte ermöglicht, die für die Durchführung großer Berechnungen erforderlich ist, die nicht in den Hauptspeicher passen. Für eine bessere Leistung ist die parallele Verwendung mehrerer Laufwerke erforderlich. Um die Leistung weiter zu verbessern, können Solid State Drives (SSDs) verwendet werden. Allerdings wurde dies in der Vergangenheit nicht empfohlen, da die theoretische Analyse ihres Schreibverschleißes nicht ermutigend ist.

Die Verwendung des Swap-Modus von y-cruncher ist unerlässlich, anstatt sich auf die Auslagerungsdatei des Betriebssystems zu verlassen, da die Speicherzugriffsmuster in y-cruncher nicht direkt festplattenfreundlich sind. Glücklicherweise ist der Swap-Modus von y-cruncher darauf ausgelegt, diese Einschränkung zu überwinden, indem er Festplattensuchen minimiert und sequenzielle Festplattenzugriffe verwendet. Der Swap-Modus von y-crunchers wurde in einer RAID 0-Konfiguration mit 19 Laufwerken verwendet, was der Anwendung für optimale Leistung direkten E/A-Zugriff auf die NVMe-Festplatten ermöglichte.

Die Solidigm P5316 SSDs, die wir in unserem Test verwendet haben, nutzen eine PCIe Gen4-Schnittstelle und sind mit 144-Layer-QLC-NAND-Flash-Speicher ausgestattet. Sie bieten außergewöhnliche Leistung mit einer sequentiellen Lesegeschwindigkeit von bis zu 7 GB/s und einer sequentiellen Schreibgeschwindigkeit von bis zu 3.6 GB/s.

QLC-Solid-State-Laufwerke sind für ihre Fähigkeit bekannt, die Kosten zu senken, ohne die Speicherkapazität und effiziente Leistung zu beeinträchtigen. Dies macht die QLC-SSD-Technologie für viele Geschäftssituationen von Vorteil. VAST Data integriert diese Laufwerke beispielsweise in seine Produkte, um Festplattenlaufwerke überflüssig zu machen. Gleichzeitig verwendet Pliops eine Beschleunigerkarte mit QLC-Antrieben für eine schnelle und kostengünstige Auflösung.

Wir haben diese Laufwerke seit Ende 2021 in unserem Labor und haben sie vielen Tests unterzogen, aber dies war einer der intensivsten und umfangreichsten Tests bisher. Von den 19 von uns verwendeten Laufwerken hatten alle zu Beginn der Berechnung einen Zustand von 99–100 %.

In den 54.5 Tagen dieser Berechnung hatten wir insgesamt 33,127,095 GB Schreibzugriff auf die Laufwerke, also etwa 1,742,500 GB pro Laufwerk. Rechnet man dies in einen täglichen Überschuss über unseren Lauf um, sind das etwas mehr als 29 TB pro Laufwerk und Tag.

Die Extrapolation für eine simulierte längerfristige Arbeitslast beträgt etwa 10.69 PB pro Jahr an Datenschreibvorgängen pro Laufwerk. Solidigm gibt die Ausdauer des P5316 mit 22.9 PBW für zufällige Arbeitslasten und 104.6 PBW für sequentielle Arbeitslasten an. Da die Pi-Arbeitslast über die gesamte Dauer im Burst-Modus blieb, ohne den Blitz stark zu belasten, agierte sie sehr sequenziell, wodurch die Arbeitslast am oberen Ende des Ausdauerspektrums von Solidigm angesiedelt wurde.

Das bedeutet, dass Sie diese fast ein Jahrzehnt lang einer ähnlichen Arbeitsbelastung aussetzen könnten, bevor Ihnen das Leben ausgeht. Gelinde gesagt beeindruckend, wenn man bedenkt, dass es sich um QLC NAND handelt und die Laufwerksgarantie fünf Jahre beträgt. Jeder, der Bedenken hinsichtlich der Abnutzung dieser Laufwerke hat, kann diesen Anwendungsfall als weiteren Beweis dafür nutzen, dass QLC für Unternehmen geeignet ist.

Am Ende des 59.5-tägigen Laufs wurde für alle Laufwerke im Server ein Gesundheitszustand von 97–98 % gemeldet. Die Haltbarkeit dieser Antriebe hatten wir kaum beeinträchtigt.

Epische AMD EPYC-CPUs

AMD EPYC-Prozessoren der 4. Generation basieren auf der Zen 4-Mikroarchitektur und dem 5-nm-Prozess und sind damit die branchenweit ersten 5-nm-x86-Rechenzentrumsprozessoren. Sie unterstützen bis zu 12 Kanäle DDR5-Speicher, AVX-512 VNNI und BFloat16-Anweisungen für eine verbesserte Leistung in KI- und ML-Anwendungen. Sie bieten bis zu 30 % mehr Leistung pro Kern als die Ice Lake-Prozessoren von Intel und bis zu doppelt so viel Leistung wie die EPYC Milan-Prozessoren der vorherigen Generation von AMD.

AMD Genua nackte CPU

Die Optimierung war ein wichtiger Teil dieses Laufs, da wir kleinere, zuvor gespeicherte Aufzeichnungen von Pi-Berechnungen, wie 1 Milliarde und 10 Milliarden, ausgiebig getestet und iteriert hatten. Durch einige Feinabstimmungen mit dem BIOS und die Verwendung der 10-Milliarden-Laufzeit als Maß konnten wir für diese Arbeitslast erhebliche Leistungsverbesserungen erzielen. Dies verschaffte uns einen erheblichen Vorteil gegenüber der Nutzung von Cloud-Ressourcen, da wir eine detaillierte Kontrolle über die Plattform hatten, um sie für unsere Anwendung zu optimieren, was bei handelsüblichen Cloud-Instanzen nicht möglich ist.

Wir haben mit der Deaktivierung von SMT im BIOS begonnen und einige % Verbesserungen bei der Laufzeit der kleineren Tests festgestellt. Die nächste Option, die wir untersucht haben, waren C-States. Wir haben festgestellt, dass die CPU beim Ausführen von y-cruncher häufig dazu neigte, in und aus C-Zuständen mit geringerer Leistung zu springen, da sie verschiedene Prozesse durchlief.

Die Optimierung der BIOS-Einstellungen, einschließlich der Deaktivierung von SMT und der Steuerung von C-States, zusammen mit einigen Leistungsoptimierungen am Betriebssystem, war ein entscheidender Faktor für die Leistungsverbesserung bei dieser Arbeitslast. Ein großes Dankeschön an Alexander Yee von y-Cruncher und einen Freund aus der Übertaktungsszene, Forks, die uns dabei geholfen haben, auf einige Optimierungen und Einstellungen in Windows und y-Cruncher hinzuweisen, die dazu beitragen, dass dieser Lauf zustande kommt.

Pi; 100T Speed ​​Run, 100 %. Was jetzt?

Nun, Leute, zum Abschluss dieser Pi-lgrimage nehmen wir uns einen Moment Zeit, um in der Herrlichkeit zu schwelgen, satte 100 Billionen Ziffern von Pi in nur 54 kleinen Tagen berechnet zu haben! Dank des y-cruncher-Programms, der enormen Stärke der AMD EPYC-Prozessoren der 4. Generation und der blitzschnellen Solidigm P5316 QLC-SSDs haben wir eine Errungenschaft erlebt, die Ihren Rechner zum Erröten bringen wird.

Unser zuverlässiges Team aus lokal angeschlossenen QLC-Flash-Speichereinheiten hat die Grenzen der reinen Computerleistung und der Datenspeicherung in Ozeangröße immer weiter ausgereizt. Solidigm P5316 SSDs sind mit ihrer außergewöhnlichen Ausdauer und Leistung wie die Superhelden-Kumpels der Geschäftswelt. Und vergessen wir nicht unsere tragbaren Kraftwerke und leistungsstarken Batterie-Backup-Geräte, die dafür sorgten, dass unsere Pi-rade weiterlief – selbst als Mutter Natur versuchte, unser perfekt gebackenes Fest zu verderben.

Während wir uns also von dieser rekordverdächtigen Pi-Extravaganz verabschieden, werfen wir einen Blick auf die endlosen Möglichkeiten in der Welt der Mathematik und Informatik, die vor uns liegen. Beifall!

Besuchen Sie Solidigm

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed