Casa Impresa StorageReview Lab batte il record mondiale di calcolo Pi con oltre 202 trilioni di cifre

StorageReview Lab batte il record mondiale di calcolo Pi con oltre 202 trilioni di cifre

by Jordan Ranous

In una sorprendente dimostrazione di abilità computazionale, il team di StorageReview Lab ha stabilito un record mondiale consecutivo calcolando il pi greco fino all'incredibile cifra di 202,112,290,000,000 di cifre. Questo notevole risultato eclissa il precedente record di 105 trilioni di cifre, anch’esso detenuto dal team. Mette in mostra le capacità senza pari dei moderni computer ad alte prestazioni e delle piattaforme hardware di base adeguatamente progettate.

In una sorprendente dimostrazione di abilità computazionale, il team di StorageReview Lab ha stabilito un record mondiale consecutivo calcolando il pi greco fino all'incredibile cifra di 202,112,290,000,000 di cifre. Questo notevole risultato eclissa il precedente record di 105 trilioni di cifre, anch’esso detenuto dal team. Mette in mostra le capacità senza pari dei moderni computer ad alte prestazioni e delle piattaforme hardware di base adeguatamente progettate.

Un'impresa computazionale senza precedenti

Il team di StorageReview Lab ha utilizzato una configurazione altamente avanzata per realizzare questa impresa. Sfruttando CPU Intel Xeon 8592+ e Solidig P5336 Con SSD NVMe da 61.44 TB, il team ha eseguito un calcolo quasi continuo per 85 giorni, consumando quasi 1.5 petabyte di spazio su 28 SSD Solidigm. Questo progetto innovativo dimostra progressi significativi sia in termini di potenza computazionale che di efficienza.

"Questo nuovo record evidenzia lo straordinario potenziale dell'attuale infrastruttura di calcolo ad alte prestazioni", ha affermato Jordan Ranous, System Architect del team StorageReview Lab. “Raggiungendo questo traguardo, non solo stiamo stabilendo nuovi parametri di riferimento nella matematica computazionale, ma stiamo anche aprendo la strada a future innovazioni in varie discipline scientifiche e ingegneristiche”.

Nel marzo 2024, il team di StorageReview Lab ha raggiunto un record mondiale calcolando il pi greco 105 trilioni di cifre. Utilizzando un sistema AMD EPYC a doppio processore con 256 core e quasi un petabyte di SSD Solidigm QLC, il team ha affrontato sfide tecniche significative, tra cui limitazioni di memoria e archiviazione. Questo traguardo ha dimostrato le capacità dell'hardware moderno e ha fornito preziose informazioni sull'ottimizzazione dei sistemi informatici ad alte prestazioni.

"Non solo le unità Solidigm e Dell PowerEdge R760 hanno funzionato perfettamente insieme, ma anche il fatto che questo nuovo record sia stato praticamente automatico è stato un gradito cambiamento dopo i pericoli del nostro ultimo tentativo di record", ha affermato Kevin O'Brien, direttore di StorageReview Lab. "Dopo quello che abbiamo affrontato nell'ultimo test fino a 105, sono felice di aver scelto la piattaforma che abbiamo scelto per il grande record", ha continuato. Per maggiori dettagli sul precedente tentativo da 105 trilioni di cifre e sulle sfide, puoi leggere l'articolo completo qui.

CompSci e lezione di matematica

Quando abbiamo iniziato a cercare modi divertenti per testare SSD di grande capacità, la risposta ovvia era nelle nostre recensioni di CPU e sistema: y-cruncher. Quando si utilizza lo spazio di swap per calcoli estesi, il requisito di spazio è di circa 4.7:1 sulle cifre, quindi 100 trilioni di cifre necessitano di circa 470 TiB di spazio. Senza entrare troppo nei dettagli della matematica e dell’informatica, y-cruncher, l’algoritmo di Chudnovsky, si basa su una serie in rapida convergenza derivata dalla teoria delle funzioni modulari e delle curve ellittiche. Il nucleo dell'algoritmo si basa sulle seguenti serie infinite:

La domanda numero uno che abbiamo ricevuto riguardo ai nostri calcoli 100T e 105T è stata: “Okay, niente di grave. Perché ci vuole così tanto tempo e tanta memoria?" Questa domanda era tra le altre fastidiose preoccupazioni sull'open source e sulle capacità di programmazione di Alex Yee. Facciamo un passo indietro e guardiamo la questione dal livello di sistema.

Calcolare un vasto numero di cifre del Pi greco, come 100 trilioni, richiede uno spazio notevole a causa delle grandi operazioni aritmetiche coinvolte. La sfida risiede principalmente nella moltiplicazione di grandi numeri, che richiede intrinsecamente una memoria significativa. Ad esempio, i migliori algoritmi per moltiplicare i numeri a N cifre richiedono circa 4N byte di memoria, la maggior parte dei quali funge da spazio di lavoro. È necessario accedere a questa memoria più volte durante il calcolo, trasformando il processo in un'attività ad uso intensivo di I/O del disco anziché in un'attività legata alla CPU.

La formula di Chudnovsky, ampiamente utilizzata per calcolare molte cifre del Pi greco, richiede estese operazioni aritmetiche. Queste operazioni di moltiplicazione, divisione e quadratura sono spesso ridotte a grandi moltiplicazioni. Storicamente, i supercomputer utilizzavano algoritmi AGM che, nonostante fossero più lenti, erano più facili da implementare e beneficiavano della forza bruta di numerose macchine. Tuttavia, i progressi moderni hanno spostato il collo di bottiglia dalla potenza di calcolo alle velocità di accesso alla memoria.

Le unità aritmetiche logiche del processore (ALU) e le unità a virgola mobile (FPU) gestiscono questi grandi numeri di moltiplicazione in modo simile alla moltiplicazione manuale su carta, suddividendoli in operazioni più piccole e gestibili. In precedenza, i calcoli Pi erano legati al calcolo, ma la potenza computazionale di oggi supera le velocità di accesso alla memoria, rendendo l’archiviazione e l’affidabilità i fattori critici nell’impostazione dei record Pi. Ad esempio, è stata osservata una piccola differenza di prestazioni tra la nostra macchina Intel a 128 core e una AMD Bergamo a 256 core; l'attenzione si è concentrata sull'efficienza dell'I/O del disco.

Gli SSD Solidigm svolgono un ruolo cruciale in questi calcoli, non per la loro velocità intrinseca ma per la loro eccezionale densità di archiviazione. Le unità NVMe di livello consumer possono archiviare fino a 4 TB in un volume ridotto, mentre gli SSD aziendali impilano questi chip per una capacità ancora maggiore. Sebbene la NAND QLC possa essere più lenta rispetto ad altri tipi di memoria flash, il parallelismo in questi SSD densi offre una larghezza di banda aggregata più elevata, rendendoli ideali per calcoli Pi su larga scala.

SSD Solidigm QLC NVMe, abilitando la follia

Ok, se sei ancora sveglio e con me qui, tutto ciò che devi sapere è che quando i numeri calcolati sono troppo grandi per essere contenuti nella memoria, i computer devono utilizzare algoritmi software per l'aritmetica multiprecisione. Questi algoritmi scompongono i grandi numeri in parti gestibili ed eseguono la divisione utilizzando tecniche speciali. Questo è dove il Solidig P5336 Arrivano gli SSD NVMe da 61.44 TB. y-cruncher prende questi blocchi gestibili, li accumula prima nella memoria di sistema e poi li scambia in uno spazio su un'unità scratch.

Ricorda, abbiamo bisogno di circa 4.7:1 per lo scambio, poiché ogni parte di quella formula spaventosa lassù deve essere rappresentata da molti, molti bit.

y-cruncher ha uno stimatore integrato per la quantità di spazio su disco necessario (ancora etichettato disk*cough*) che abbiamo riscontrato essere perfettamente accurato in questa e nelle esecuzioni precedenti.

Anche se potresti lanciargli qualche HDD o qualche oggetto di archiviazione, la dimensione grezza è solo una singola parte di un'equazione molto complessa, come abbiamo scoperto nel nostro primo turno. La capacità di ottenere spazio di archiviazione sufficientemente grande e sufficientemente veloce vicino al dispositivo di elaborazione è un tema ricorrente nella nostra vita in StorageReview in questi giorni con l'ondata dell'intelligenza artificiale. Le prestazioni dello spazio di swap rappresentano il collo di bottiglia più grande in questo calcolo. NVMe collegato direttamente offre le prestazioni più elevate disponibili e, sebbene alcune opzioni possano avere il throughput più veloce per dispositivo, la nostra vasta e fitta gamma di QLC, nel complesso, è stata più che all'altezza del compito.

Consumer Drive e prestazioni della CPU. NON il sistema di registrazione

y-cruncher ha un benchmark integrato che ti consente di tirare tutte le leve e regolare le manopole per trovare le migliori impostazioni di prestazione per il tuo array di dischi. Questo è estremamente importante. Lo screenshot qui sopra mostra che il benchmark fornisce feedback per questo sistema consumer, con parametri sulla velocità con cui la CPU può eseguire il crunch e le prestazioni dell'SSD.

Alex sì disponibile una vasta documentazione, ma per riassumere, dopo settimane di test abbiamo scoperto che lasciare semplicemente che y-cruncher interagisca direttamente con le unità è la soluzione migliore. Abbiamo testato target di rete, unità dietro una scheda RAID SAS, schede RAID NVMe e target iSCSI. Quando si dà il controllo dell'hardware a y-cruncher, le prestazioni sono notte e giorno. Anche iSCSI sembra accettabile, ma lo abbiamo testato solo per il file di output, che può utilizzare "Direct IO" per tale interazione. Il codice RAID della modalità swap deve essere relativamente ben congegnato e possiamo dedurre dai nostri test e dalla conversazione con lo sviluppatore che funziona con le unità a basso livello.

Le unità Solidigm da 61.44 TB stanno iniziando a emergere come la migliore risposta a molti problemi in questo spazio. Eseguendo il benchmark sul nostro sistema, vediamo che le unità funzionano secondo le specifiche sia in lettura che in scrittura. Abbiamo selezionato specificatamente le CPU Intel in modo che potessero avvicinarsi il più possibile al rapporto ottimale 2:1 tra unità e calcolo. Questo è il rapporto ottimale, quindi non sprechi tempo sulla CPU aspettando che le unità funzionino. Man mano che la tecnologia delle unità diventa più veloce, possiamo eseguire esecuzioni più estese e rapide selezionando CPU con un numero di core più elevato.

Server Dell PowerEdge R760 "personalizzato".

Come dice il proverbio, la terza volta è un incantesimo. Questo non è il nostro primo rodeo con record strepitosi con Pi; abbiamo preso lezioni dalle nostre prime due iterazioni per costruire la migliore piattaforma Pi. La nostra prima build sfruttava un server 2U con 16 alloggiamenti NVMe e tre slitte SSD interne. Con gli SSD Solidigm P30.72 da 5316 TB, abbiamo contenuto lo spazio di archiviazione di swap per y-cruncher, ma abbiamo dovuto sfruttare un server di archiviazione basato su HDD per il file di output. Si è rivelato tutt'altro che ottimale, soprattutto durante la fine della fase di scrittura. La nostra seconda piattaforma utilizzava lo stesso server, con un JBOF NVMe esterno collegato, che ci ha fornito un ulteriore alloggiamento NVMe, ma a scapito di cavi sensibili e prestazioni sbilanciate. Lo svantaggio di entrambe le piattaforme era la necessità di fare affidamento su hardware esterno durante l'intera esecuzione dell'y-cruncher, al costo di maggiore potenza e ulteriori punti di guasto.

Per questa corsa, volevamo sfruttare un singolo server NVMe completamente diretto e avere spazio sufficiente per il nostro spazio di archiviazione di scambio e di output sotto un unico tetto in lamiera. Inserisci Dell PowerEdge R760 con il backplane NVMe Direct Drives a 24 alloggiamenti. Questa piattaforma sfrutta uno switch PCIe interno per far sì che tutte le unità NVMe comunichino contemporaneamente al server, ignorando qualsiasi necessità di hardware aggiuntivo o dispositivi RAID. Abbiamo quindi messo insieme una configurazione riser PCIe da più R760 nel nostro ambiente di laboratorio, ottenendo quattro slot PCIe nella parte posteriore per ulteriori SSD NVMe montati su U.2. Un vantaggio è stato quello di eliminare i dissipatori di calore più grandi da un altro R760, dandoci il massimo margine di turbo boost possibile. Il raffreddamento diretto a liquido è arrivato nel nostro laboratorio con un mese di ritardo per essere implementato in questa serie.

"Il calcolo del pi greco effettuato dal team di StorageReview Lab fino a oltre 202 trilioni di cifre, ottenuto utilizzando 5th Il processore Intel Xeon di prima generazione sottolinea la potenza e l'efficienza di queste CPU. Sfruttando l'aumento del numero di core e le funzionalità prestazionali avanzate del 5th Processore Gen Xeon, questa pietra miliare stabilisce un nuovo punto di riferimento nella matematica computazionale e continua ad aprire la strada alle innovazioni in vari carichi di lavoro scientifici e ingegneristici”, disse Suzi Jewett, direttore generale di Intel per 5th Prodotti con processori Intel Xeon di generazione

Anche se tecnicamente potevi ordinare una configurazione Dell esattamente come quella utilizzata in questa corsa, non era qualcosa che avevano in giro e che doveva essere messo insieme. (Forse Michael eseguirà un lotto “Pi” di R760 in edizione limitata con questa esatta configurazione, vernice personalizzata e il logo SR.)

Anche la dimensione dell'alimentatore è stata fondamentale per questa corsa. Mentre la maggior parte penserebbe immediatamente che le CPU assorbano la maggior parte della potenza, avere 28 SSD NVMe sotto lo stesso tetto ha un notevole impatto energetico. La nostra build ha sfruttato gli alimentatori da 2400 W che, come si è scoperto, funzionavano a malapena. Abbiamo avuto alcuni momenti di consumo energetico a livello quasi critico in cui saremmo stati sottodimensionati se il sistema avesse interrotto una connessione di alimentazione. Questo ha colpito presto; il consumo energetico è salito alle stelle mentre i carichi della CPU hanno raggiunto il picco e il sistema ha aumentato l'attività I/O su tutti gli SSD. Se dovessimo rifarlo, sarebbero stati preferiti i modelli da 2800W.

Specifiche delle prestazioni

Caratteristiche tecniche

  • Cifre totali calcolate: 202,112,290,000,000
  • Hardware utilizzato: Dell PowerEdge R760 con 2 CPU Intel Xeon 8592+, DRAM DDR1 da 5 TB, 28 Solidigm 61.44 TB P5336
  • Software e algoritmi: y-cruncher v0.8.3.9532-d2, Chudnovsky
  • Archiviazione dei dati  : 3.76 PB scritti per unità, 82.7 PB sui 22 dischi per l'array di scambio
  • Durata del calcolo: 100.673 giorni

Telemetria y-cruncher

  • Checkpoint logico più grande: 305,175,690,291,376 (278 TiB)
  • Utilizzo picco disco logico: 1,053,227,481,637,440 (958 TiB)
  • Byte del disco logico letti: 102,614,191,450,271,272 (91.1 PiB)
  • Byte del disco logico scritti: 88,784,496,475,376,328 (78.9 PiB)
  • Data di inizio: martedì 6 febbraio 16:09:07 2024
  • Data di fine: lunedì 20 maggio 05:43:16 2024
  • Pi greco: 7,272,017.696 secondi, 84.167 giorni
  • Tempo di calcolo totale: 8,698,188.428 secondi, 100.673 giorni
  • Tempo di wall dall'inizio alla fine: 8,944,449.095 secondi, 103.524 giorni

La cifra più grande conosciuta del Pi greco è 2, alla posizione 202,112,290,000,000 (duecentodue trilioni, centododici miliardi, duecentonovanta milioni).

Implicazioni più ampie

Anche se calcolare il pi greco con un numero così elevato di cifre potrebbe sembrare una sfida astratta, le applicazioni pratiche e le tecniche sviluppate durante questo progetto hanno implicazioni di vasta portata. Questi progressi possono migliorare varie attività computazionali, dalla crittografia alle simulazioni complesse in fisica e ingegneria.

Il recente calcolo del pi greco da 202 trilioni di cifre evidenzia progressi significativi nella densità di storage e nel costo totale di proprietà (TCO). La nostra configurazione ha raggiunto l'incredibile cifra di 1.720 petabyte di spazio di archiviazione SSD NVMe all'interno di un singolo chassis 2U. Questa densità rappresenta un balzo in avanti nelle capacità di archiviazione dei dati, soprattutto considerando che il consumo energetico totale ha raggiunto il picco di soli 2.4 kW sotto pieno carico della CPU e dell'unità.

Questa efficienza energetica contrasta con i tradizionali record HPC che consumano molta più energia e generano calore eccessivo. Il consumo energetico aumenta in modo esponenziale quando si considerano nodi aggiuntivi per i sistemi di archiviazione scalabili se è necessario espandere lo spazio di archiviazione condiviso a bassa capacità rispetto allo spazio di archiviazione locale ad alta densità. La gestione del calore è fondamentale, soprattutto per data center e armadi server più piccoli. Raffreddare i tradizionali sistemi di registrazione HPC non è un'impresa da poco, poiché richiede refrigeratori per data center in grado di assorbire più energia rispetto alle apparecchiature funzionanti da sole. Riducendo al minimo il consumo energetico e la produzione di calore, la nostra configurazione offre una soluzione più sostenibile e gestibile per le piccole imprese. Come bonus, la maggior parte della nostra corsa è stata eseguita con raffreddamento ad aria fresca.

Per mettere questo in prospettiva, immagina le sfide che devono affrontare coloro che utilizzano storage condiviso in rete e piattaforme non ottimizzate. Tali configurazioni richiederebbero uno o più refrigeratori per data center per tenere sotto controllo le temperature. In questi ambienti, ogni watt risparmiato si traduce in una minore necessità di raffreddamento e in minori costi operativi, rendendo il nostro approccio ad alta densità e basso consumo una scelta ideale. Un altro vantaggio fondamentale derivante dall'utilizzo di una piattaforma snella ed efficiente per una corsa da record è la protezione dell'intera configurazione con hardware di backup della batteria. Come accennato in precedenza, avresti bisogno di batterie di backup per server di elaborazione, commutazione, server di archiviazione, refrigeratori e pompe dell'acqua per mantenerlo in vita per una buona parte dell'anno.

Nel complesso, questo risultato da record mette in mostra il potenziale delle attuali tecnologie HPC e sottolinea l’importanza dell’efficienza energetica e della gestione termica nei moderni ambienti informatici.

Garantire l'accuratezza: la formula Bailey-Borwein-Plouffe

Calcolare il pi greco fino a 202 trilioni di cifre è un compito colossale, ma garantire la precisione di tali cifre è altrettanto cruciale. È qui che entra in gioco la formula Bailey–Borwein–Plouffe (BBP).

La formula BBP ci consente di verificare le cifre binarie di pi greco in formato esadecimale (base 16) senza dover calcolare tutte le cifre precedenti. Ciò è particolarmente utile per il controllo incrociato delle sezioni del nostro massiccio calcolo.

Due dei calcoli di verifica.

Ecco una spiegazione semplificata:

  1. Uscita esadecimale: Per prima cosa generiamo le cifre di pi greco in esadecimale durante il calcolo principale. La formula BBP può calcolare direttamente qualsiasi cifra individuale arbitraria di pi greco in base 16. Puoi farlo con altri programmi come GPUPI, ma anche y-cruncher ha una funzione integrata. Se preferisci un approccio open source, le formule sono ben note.
  2. Verifica incrociata: Possiamo confrontare questi risultati con il nostro calcolo principale calcolando posizioni specifiche delle cifre esadecimali di pi greco indipendentemente con la formula BBP. Se corrispondono, indica fortemente che l'intera sequenza è corretta. Abbiamo effettuato questo controllo incrociato più di sei volte; qui ce ne sono due.

Ad esempio, se il nostro calcolo primario produce in vari punti le stesse cifre esadecimali ottenute dalla formula BBP, possiamo affermare con sicurezza l'accuratezza delle nostre cifre. Questo metodo non è solo teorico; è stato praticamente applicato in tutti i calcoli pi significativi, garantendo robustezza e affidabilità nei risultati.

R= Risultato ufficiale della corsa, V= Risultato della verifica

  • R: f3f7e2296 822ac6a8c9 7843dacfbc 1eeb4a5893 37088*
  • V: *3f7e2296 822ac6a8c9 7843dacfbc 1eeb4a5893 370888

I lettori più attenti noteranno che le verifiche degli screenshot e il confronto di cui sopra sono un po' spostati(*). Sebbene non sia necessario, dal momento che l'esagono verrebbe influenzato alla fine, abbiamo anche controllato alcune altre posizioni (come 100 trilioni e 105 trilioni di cifre) per garantire che la sequenza corrispondesse. Mentre lo è teoricamente è possibile calcolare qualsiasi cifra decimale del pi greco utilizzando un metodo simile, non è chiaro se ciò avrebbe una precisione superiore a soli 100 milioni di cifre o se sarebbe anche computazionalmente efficiente per farlo, piuttosto che fare i calcoli di Chudnovsky e ottenerli tutti. (Se Eric Weisstein lo vede, contattalo; mi piacerebbe provarci.)

Integrando questo processo matematico di controllo incrociato, possiamo garantire l'integrità del nostro calcolo da record di 202 trilioni di cifre pi greco, dimostrando la nostra precisione computazionale e il nostro impegno per l'accuratezza scientifica.

La strada davanti

Il fatto di aver calcolato pi greco con oltre 202 trilioni di cifre da parte del team di StorageReview Lab è una testimonianza dei notevoli progressi compiuti nella tecnologia di elaborazione e archiviazione ad alte prestazioni. Questa impresa da record, che utilizza CPU Intel Xeon 8592+ nei nostri SSD Dell PowerEdge R760 e Solidigm QLC NVMe da 61.44 TB, evidenzia le capacità dell'hardware moderno di gestire attività complesse e ad uso intensivo di risorse con un'efficienza senza precedenti. Il successo del progetto non solo dimostra l'abilità del team StorageReview, ma sottolinea anche il potenziale dell'attuale infrastruttura HPC di ampliare i confini della matematica computazionale e di altre discipline scientifiche.

“Questo nuovo record mondiale del Pi è un risultato entusiasmante perché questo carico di lavoro computazionale è intenso quanto molti dei carichi di lavoro dell’intelligenza artificiale che vediamo oggi. Gli SSD Solidigm D5-P5336 da 61.44 TB hanno dimostrato, ancora una volta, che la potente combinazione di capacità ultraelevata, prestazioni di lettura saturanti PCIe 4 ed elevati Petabyte scritti, può resistere e liberare alcune delle applicazioni più impegnative di oggi", ha affermato Greg Matson, vicepresidente, gruppo di archiviazione del data center di Solidigm. "Siamo entusiasti di aver avuto l'opportunità di consentire un altro tentativo da record di calcolare Pi con i nostri partner di Dell Technologies e gli esperti di StorageReview."

Questo impegno offre inoltre preziose informazioni sull’ottimizzazione della densità di storage e dell’efficienza energetica, aprendo la strada a soluzioni informatiche più sostenibili e gestibili. Mentre continuiamo a esplorare le possibilità dell’HPC, le lezioni apprese da questo progetto guideranno senza dubbio le innovazioni future, avvantaggiando vari campi, dalla crittografia all’ingegneria. Il risultato ottenuto dal team di StorageReview Lab rappresenta una pietra miliare nella storia dell'informatica, dimostrando che possiamo raggiungere nuove vette di scoperta scientifica e progresso tecnologico con la giusta combinazione di hardware e competenze.

Ringraziamenti

Il team di StorageReview Lab ringrazia Solidigm, Dell Technologies, Intel e y-cruncher Alex Yee per il loro incrollabile supporto e contributo a questo progetto.

 

Interagisci con StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed