Em uma demonstração surpreendente de habilidade computacional, a equipe do StorageReview Lab estabeleceu um recorde mundial consecutivo ao calcular pi com incríveis 202,112,290,000,000 milhões de dígitos. Esta conquista notável eclipsa o recorde anterior de 105 trilhões de dígitos, também detido pela equipe. Ele mostra os recursos incomparáveis da computação moderna de alto desempenho e das plataformas de hardware commodity adequadamente projetadas.
Em uma demonstração surpreendente de habilidade computacional, a equipe do StorageReview Lab estabeleceu um recorde mundial consecutivo ao calcular pi com incríveis 202,112,290,000,000 milhões de dígitos. Esta conquista notável eclipsa o recorde anterior de 105 trilhões de dígitos, também detido pela equipe. Ele mostra os recursos incomparáveis da computação moderna de alto desempenho e das plataformas de hardware commodity adequadamente projetadas.
Façanha computacional sem precedentes
A equipe do StorageReview Lab utilizou uma configuração altamente avançada para realizar esse feito. Aproveitando CPUs Intel Xeon 8592+ e Solidigm P5336 SSDs NVMe de 61.44 TB, a equipe executou um cálculo quase contínuo por 85 dias, consumindo quase 1.5 petabytes de espaço em 28 SSDs Solidigm. Este projeto inovador demonstra avanços significativos em poder e eficiência computacional.
“Este novo recorde destaca o extraordinário potencial da infraestrutura de computação de alto desempenho atual”, disse Jordan Ranous, arquiteto de sistemas da equipe do StorageReview Lab. “Ao atingir este marco, não estamos apenas estabelecendo novos padrões em matemática computacional, mas também abrindo caminho para inovações futuras em várias disciplinas científicas e de engenharia.”
Em março de 2024, a equipe do laboratório StorageReview alcançou um recorde mundial ao calcular pi para 105 trilhões de dígitos. Utilizando um sistema AMD EPYC de processador duplo com 256 núcleos e quase um petabyte de SSDs Solidigm QLC, a equipe enfrentou desafios técnicos significativos, incluindo limitações de memória e armazenamento. Este marco demonstrou as capacidades do hardware moderno e forneceu informações valiosas sobre a otimização de sistemas de computação de alto desempenho.
“Não só as unidades Solidigm e o Dell PowerEdge R760 funcionaram juntos perfeitamente, como também a natureza quase sem intervenção deste novo recorde foi uma mudança bem-vinda após os perigos da nossa última tentativa de recorde”, disse Kevin O'Brien, diretor do StorageReview Lab. “Depois do que passamos no último teste para 105, estou feliz por termos escolhido a plataforma que fizemos para o grande recorde”, continuou ele. Para mais detalhes sobre a tentativa anterior de 105 trilhões de dígitos e os desafios, você pode ler o artigo completo aqui.
Lição CompSci e Matemática
Quando começamos a procurar maneiras divertidas de testar SSDs de grande capacidade, a resposta óbvia estava em nossas análises de CPU e sistema: y-cruncher. Ao utilizar espaço de troca para cálculos extensos, o requisito de espaço é de aproximadamente 4.7:1 nos dígitos, portanto, 100 trilhões de dígitos precisam de cerca de 470TiB de espaço. Sem se aprofundar muito nas ervas daninhas da matemática e da ciência da computação, o y-cruncher, o algoritmo Chudnovsky, é baseado em uma série rapidamente convergente derivada da teoria de funções modulares e curvas elípticas. O núcleo do algoritmo depende das seguintes séries infinitas:
A pergunta número um que recebemos em relação aos nossos cálculos de 100T e 105T foi: “Ok, não é grande coisa. Por que isso demora tanto e precisa de tanta memória?” Esta questão estava entre outras preocupações irritantes sobre o código aberto e as capacidades de programação de Alex Yee. Vamos dar um passo atrás e analisar isso do nível do sistema.
O cálculo de um grande número de dígitos de Pi, como 100 trilhões, necessita de espaço substancial devido às grandes operações aritméticas envolvidas. O desafio reside principalmente na multiplicação de grandes números, o que requer inerentemente uma memória significativa. Por exemplo, os melhores algoritmos para multiplicar números de N dígitos precisam de aproximadamente 4N bytes de memória, a maioria dos quais serve como espaço de rascunho. Essa memória deve ser acessada diversas vezes durante a computação, transformando o processo em uma tarefa intensiva de E/S de disco, em vez de uma tarefa vinculada à CPU.
A fórmula de Chudnovsky, amplamente utilizada para calcular muitos dígitos de Pi, exige extensas operações aritméticas. Essas operações de multiplicação, divisão e quadratura são frequentemente reduzidas a grandes multiplicações. Historicamente, os supercomputadores utilizavam algoritmos AGM, que, apesar de mais lentos, eram mais fáceis de implementar e beneficiavam da força bruta de inúmeras máquinas. No entanto, os avanços modernos mudaram o gargalo do poder computacional para as velocidades de acesso à memória.
As unidades lógicas aritméticas do processador (ALUs) e as unidades de ponto flutuante (FPUs) lidam com esses grandes números de multiplicação de maneira semelhante à multiplicação manual no papel, dividindo-os em operações menores e gerenciáveis. Anteriormente, os cálculos do Pi eram limitados pela computação, mas o poder computacional atual ultrapassa as velocidades de acesso à memória, tornando o armazenamento e a confiabilidade os fatores críticos na configuração dos registros do Pi. Por exemplo, pouca diferença de desempenho foi observada entre nossa máquina Intel de 128 núcleos e uma AMD Bergamo de 256 núcleos; o foco estava na eficiência de E/S de disco.
Os SSDs Solidigm desempenham um papel crucial nesses cálculos, não devido à sua velocidade inerente, mas devido à sua excepcional densidade de armazenamento. As unidades NVMe de consumo podem armazenar até 4 TB em um volume pequeno, enquanto os SSDs corporativos empilham esses chips para obter capacidade ainda maior. Embora o QLC NAND possa ser mais lento que outros tipos de memória flash, o paralelismo nesses SSDs densos oferece maior largura de banda agregada, tornando-os ideais para cálculos Pi em grande escala.
SSDs Solidigm QLC NVMe, permitindo a loucura
Ok, se você ainda está acordado e comigo aqui, tudo que você precisa saber é que quando os números computacionais são grandes demais para caber na memória, os computadores devem usar algoritmos de software para aritmética de precisão múltipla. Esses algoritmos dividem os grandes números em partes gerenciáveis e realizam a divisão usando técnicas especiais. É aqui que Solidigm P5336 Entram os SSDs NVMe de 61.44 TB. O y-cruncher pega esses pedaços gerenciáveis, acumula-os primeiro na memória do sistema e depois os troca em um espaço de disco temporário.
Lembre-se, precisamos de cerca de 4.7:1 para a troca, já que cada parte daquela fórmula assustadora tem que ser representada por muitos, muitos bits.
O y-cruncher possui um estimador integrado para a quantidade de espaço em disco necessário (ainda rotulado como disco*tosse*) que consideramos perfeitamente preciso nesta e em execuções anteriores.
Embora você possa jogar alguns HDDs ou algum armazenamento de objetos nele, o tamanho bruto é apenas uma parte de uma equação muito complexa, como descobrimos em nossa primeira rodada. A capacidade de obter armazenamento grande e rápido o suficiente próximo ao dispositivo de computação é um tema recorrente em nossa vida no StorageReview atualmente, com o surgimento da IA. O desempenho do espaço de troca é o maior gargalo neste cálculo. O NVMe de conexão direta tem o desempenho mais alto disponível e, embora algumas opções possam ter o rendimento mais rápido por dispositivo, nosso grande e muito denso conjunto de QLC, em conjunto, estava mais do que à altura da tarefa.
Drive do consumidor e desempenho da CPU. NÃO o sistema de registro
O y-cruncher possui um benchmark integrado que permite puxar todas as alavancas e ajustar os botões para encontrar as melhores configurações de desempenho para o seu conjunto de discos. Isso é extremamente importante. A captura de tela acima mostra que o benchmark fornece feedback para este sistema de consumidor, com métricas sobre a rapidez com que a CPU pode funcionar e o desempenho do SSD.
Alex tem alguma extensa documentação disponível, mas, para resumir tudo, descobrimos, durante semanas de testes, que apenas deixar o y-cruncher interagir diretamente com as unidades é a melhor opção. Testamos alvos de rede, unidades atrás de uma placa SAS RAID, placas NVMe RAID e alvos iSCSI. Ao dar o controle do hardware ao y-cruncher, o desempenho é noite e dia. O iSCSI também parece aceitável, mas testamos isso apenas para o arquivo de saída, que pode utilizar “Direct IO” para essa interação. O código RAID do modo swap deve ser relativamente bem pensado, e podemos deduzir de nossos testes e conversas com o desenvolvedor que ele funciona com as unidades em um nível baixo.
Os drives Solidigm de 61.44 TB estão começando a emergir como a melhor resposta para muitas dificuldades nesse espaço. Executando o benchmark em nosso sistema, vemos que as unidades funcionam de acordo com as especificações de leitura e gravação. Selecionamos especificamente as CPUs Intel para que possam estar o mais próximo possível da proporção ideal de unidade para computação de 2:1. Essa é a proporção ideal, para que você não perca tempo com a CPU esperando o desempenho das unidades. À medida que a tecnologia de drive se torna mais rápida, podemos realizar execuções mais extensas e rápidas selecionando CPUs com maior número de núcleos.
Servidor Dell PowerEdge R760 “personalizado”
Como diz o ditado, a terceira vez é uma delícia. Este não é o nosso primeiro rodeio com recordes incríveis com Pi; tiramos lições de nossas duas primeiras iterações para construir a melhor plataforma Pi. Nossa primeira construção aproveitou um servidor 2U com 16 compartimentos NVMe e três sleds SSD internos. Com SSDs Solidigm P30.72 de 5316 TB, incluímos o armazenamento swap para o y-cruncher, mas tivemos que aproveitar um servidor de armazenamento baseado em HDD para o arquivo de saída. Não foi o ideal, especialmente durante o final da fase de redação. Nossa segunda plataforma usou o mesmo servidor, com um JBOF NVMe externo conectado, o que nos proporcionou um compartimento NVMe adicional, mas ao custo de cabeamento sensível e desempenho desequilibrado. A desvantagem de ambas as plataformas era a necessidade de depender de hardware externo durante toda a execução do y-cruncher, ao custo de energia adicional e pontos adicionais de falha.
Para esta execução, queríamos aproveitar um único servidor NVMe totalmente direto e ter espaço suficiente para nosso armazenamento de troca e armazenamento de saída y-cruncher sob o mesmo teto de chapa metálica. Conheça o Dell PowerEdge R760 com backplane NVMe Direct Drives de 24 compartimentos. Esta plataforma aproveita um switch PCIe interno para fazer com que todas as unidades NVMe se comuniquem com o servidor simultaneamente, evitando qualquer necessidade de hardware adicional ou dispositivos RAID. Em seguida, montamos uma configuração de riser PCIe de vários R760s em nosso ambiente de laboratório, fornecendo quatro slots PCIe na parte traseira para SSDs NVMe montados em U.2 adicionais. Um bônus foi retirar dissipadores de calor maiores de outro R760, dando-nos o máximo de espaço para turbo boost possível. O Direct Liquid Cooling chegou ao nosso laboratório com um mês de atraso para ser implementado nesta execução.
“O cálculo da equipe do StorageReview Lab de pi para mais de 202 trilhões de dígitos, alcançado usando 5th O processador Gen Intel Xeon destaca o poder e a eficiência dessas CPUs. Aproveitando o aumento da contagem de núcleos e os recursos avançados de desempenho dos 5th Processador Gen Xeon, este marco estabelece um novo marco em matemática computacional e continua a abrir caminho para inovações em várias cargas de trabalho científicas e de engenharia”, dito Suzi Jewett, gerente geral da Intel para 5th Produtos de processador Intel Xeon da geração
Embora tecnicamente você pudesse solicitar uma configuração Dell exatamente como a usada nesta execução, não era algo que eles tivessem por aí e precisasse ser montado. (Talvez Michael execute um lote “Pi” de edição limitada de R760s com esta configuração exata, pintura personalizada e o logotipo SR.)
O tamanho da fonte de alimentação também foi crítico para esta execução. Embora a maioria pense imediatamente que as CPUs consomem a maior parte da energia, ter 28 SSDs NVMe sob o mesmo teto é um impacto considerável na energia. Nossa construção aproveitou as fontes de alimentação de 2400 W, que, no final das contas, mal funcionaram. Tivemos alguns momentos de consumo de energia de nível quase crítico em que teríamos ficado com pouca potência se o sistema tivesse perdido uma conexão da fonte de alimentação. Isso aconteceu logo no início; o consumo de energia disparou enquanto as cargas da CPU atingiam o pico e o sistema aumentava a atividade de E/S para todos os SSDs. Se tivéssemos que fazer isso novamente, os modelos de 2800 W teriam sido preferidos.
Especificações de desempenho
Destaques técnicos
- Total de dígitos calculados 202,112,290,000,000
- Hardware usado: Dell PowerEdge R760 com 2 CPUs Intel Xeon 8592+, 1 TB DDR5 DRAM, 28x Solidigm 61.44 TB P5336
- Software e Algoritmos: y-cruncher v0.8.3.9532-d2, Chudnovsky
- Armazenamento de dados: 3.76 PB gravados por unidade, 82.7 PB nos 22 discos para matriz de troca
- Duração do cálculo: 100.673 dias
Telemetria y-cruncher
- Maior ponto de verificação lógico: 305,175,690,291,376 (278 TiB)
- Uso de disco de pico lógico: 1,053,227,481,637,440 (958 TiB)
- Leitura de bytes de disco lógico: 102,614,191,450,271,272 (91.1 PiB)
- Bytes de disco lógico gravados: 88,784,496,475,376,328 (78.9 PiB)
- Data de início: terça, 6 de fevereiro, 16:09:07 de 2024
- Data de término: segunda-feira, 20 de maio 05:43:16 2024
- Pi: 7,272,017.696 segundos, 84.167 dias
- Tempo total de computação: 8,698,188.428 segundos, 100.673 dias
- Tempo de parede do início ao fim: 8,944,449.095 segundos, 103.524 dias
O maior dígito conhecido de Pi é 2, na posição 202,112,290,000,000 (duzentos e dois trilhões, cento e doze bilhões, duzentos e noventa milhões).
Implicações mais amplas
Embora calcular pi para um número tão vasto de dígitos possa parecer um desafio abstrato, as aplicações práticas e técnicas desenvolvidas durante este projeto têm implicações de longo alcance. Esses avanços podem aprimorar diversas tarefas computacionais, desde criptografia até simulações complexas em física e engenharia.
O recente cálculo de pi de 202 trilhões de dígitos destaca avanços significativos na densidade de armazenamento e no custo total de propriedade (TCO). Nossa configuração alcançou surpreendentes 1.720 petabytes de armazenamento SSD NVMe em um único chassi de 2U. Essa densidade representa um avanço nas capacidades de armazenamento de dados, especialmente considerando o consumo total de energia que atingiu o pico de apenas 2.4 kW sob carga total de CPU e unidade.
Essa eficiência energética contrasta com os registros tradicionais de HPC que consomem significativamente mais energia e geram calor excessivo. O consumo de energia aumenta exponencialmente quando você considera nós adicionais para sistemas de armazenamento escaláveis se precisar expandir o armazenamento compartilhado de baixa capacidade em comparação ao armazenamento local de alta densidade. O gerenciamento de calor é fundamental, especialmente para data centers menores e gabinetes de servidores. Resfriar sistemas de registro HPC tradicionais não é uma tarefa fácil, exigindo chillers de data center que possam consumir mais energia do que o equipamento funcionando sozinho. Ao minimizar o consumo de energia e a produção de calor, a nossa configuração oferece uma solução mais sustentável e gerível para pequenas empresas. Como bônus, a maior parte de nossa corrida foi realizada com refrigeração por ar fresco.
Para colocar isso em perspectiva, imagine os desafios enfrentados por aqueles que trabalham com armazenamento compartilhado em rede e plataformas não otimizadas. Essas configurações exigiriam um ou mais chillers de data center para manter a temperatura sob controle. Nestes ambientes, cada watt poupado traduz-se numa menor necessidade de arrefecimento e em custos operacionais mais baixos, tornando a nossa abordagem de alta densidade e baixo consumo de energia uma escolha ideal. Outro benefício crítico de executar uma plataforma enxuta e eficiente para uma execução recorde é proteger toda a configuração com hardware de backup de bateria. Conforme mencionado anteriormente, você precisaria de backups de bateria para servidores de computação, comutação, servidores de armazenamento, resfriadores e bombas de água para mantê-los funcionando durante boa parte do ano.
No geral, esta conquista recorde mostra o potencial das atuais tecnologias de HPC e sublinha a importância da eficiência energética e da gestão térmica em ambientes de computação modernos.
Garantindo a precisão: a fórmula Bailey – Borwein – Plouffe
Calcular Pi com 202 trilhões de dígitos é uma tarefa monumental, mas garantir a precisão desses dígitos é igualmente crucial. É aqui que entra em jogo a fórmula Bailey-Borwein-Plouffe (BBP).
A fórmula BBP nos permite verificar os dígitos binários de Pi no formato hexadecimal (base 16) sem a necessidade de calcular todos os dígitos anteriores. Isto é particularmente útil para verificar seções cruzadas do nosso cálculo massivo.
Dois dos cálculos de verificação.
Aqui está uma explicação simplificada:
- Saída hexadecimal: Primeiro geramos os dígitos de Pi em hexadecimal durante o cálculo principal. A fórmula BBP pode calcular diretamente qualquer dígito individual arbitrário de pi na base 16. Você pode fazer isso com outros programas como GPUPI, mas o y-cruncher também possui uma função integrada. Se você preferir uma abordagem de código aberto, as fórmulas são bem conhecidas.
- Verificação cruzada: Podemos comparar esses resultados com nosso cálculo principal calculando posições específicas dos dígitos hexadecimais de Pi independentemente da fórmula BBP. Se corresponderem, isso indica fortemente que toda a nossa sequência está correta. Fizemos essa verificação cruzada seis vezes; Aqui estão dois deles.
Por exemplo, se o nosso cálculo primário produzir os mesmos dígitos hexadecimais que os obtidos a partir da fórmula BBP em vários pontos, podemos afirmar com segurança a precisão dos nossos dígitos. Este método não é apenas teórico; tem sido aplicado de forma prática em todos os cálculos de pi significativos, garantindo robustez e confiabilidade nos resultados.
R= Resultado Oficial da Execução, V= Resultado da Verificação
- R: f3f7e2296 822ac6a8c9 7843dacfbc 1eeb4a5893 37088*
- V: *3f7e2296 822ac6a8c9 7843dacfbc 1eeb4a5893 370888
Leitores astutos notarão que as verificações das capturas de tela e da comparação acima estão um pouco alteradas (*). Embora não seja necessário, já que o hexadecimal seria afetado no final, também verificamos alguns outros locais (como 100 trilhões e 105 trilhões de dígitos) para garantir que a execução correspondesse. Enquanto é teoricamente possível calcular qualquer dígito decimal de pi usando um método semelhante, não está claro se isso teria uma precisão superior a apenas 100 milhões de dígitos ou seria mesmo computacionalmente eficiente para fazê-lo, em vez de fazer a matemática de Chudnovsky e obter todos eles. (Se Eric Weisstein vir isso, entre em contato; eu gostaria de tentar.)
Ao integrar este processo de verificação cruzada matemática, podemos garantir a integridade do nosso cálculo recorde de 202 biliões de dígitos pi, demonstrando a nossa precisão computacional e o nosso compromisso com a precisão científica.
A estrada adiante
A conquista do cálculo do pi com mais de 202 trilhões de dígitos pela equipe do StorageReview Lab é uma prova dos avanços notáveis na computação de alto desempenho e na tecnologia de armazenamento. Esse feito recorde, utilizando CPUs Intel Xeon 8592+ em nossos SSDs Dell PowerEdge R760 e Solidigm 61.44 TB QLC NVMe, destaca os recursos do hardware moderno para lidar com tarefas complexas e que exigem muitos recursos com eficiência sem precedentes. O sucesso do projeto não apenas demonstra a habilidade da equipe StorageReview, mas também ressalta o potencial da infraestrutura HPC atual para ampliar os limites da matemática computacional e de outras disciplinas científicas.
“Este novo recorde mundial do Pi é uma conquista emocionante porque esta carga de trabalho computacional é tão intensa quanto muitas das cargas de trabalho de IA que vemos hoje. Os SSDs Solidigm D5-P5336 de 61.44 TB provaram, mais uma vez, que a poderosa combinação de capacidade ultra-alta, desempenho de leitura saturante PCIe 4 e altos petabytes gravados pode suportar e liberar algumas das aplicações mais exigentes da atualidade”, disse Greg Matson, vice-presidente do grupo de armazenamento de data center da Solidigm. “Estamos entusiasmados por ter tido a oportunidade de possibilitar outra tentativa recorde de calcular Pi com nossos parceiros da Dell Technologies e os especialistas da StorageReview.”
Este esforço também oferece informações valiosas sobre a otimização da densidade de armazenamento e da eficiência energética, abrindo caminho para soluções de computação mais sustentáveis e gerenciáveis. À medida que continuamos a explorar as possibilidades da HPC, as lições aprendidas com este projeto irão, sem dúvida, impulsionar inovações futuras, beneficiando vários campos, da criptografia à engenharia. A conquista da equipe do StorageReview Lab é um marco na história da computação, demonstrando que podemos alcançar novos patamares de descoberta científica e avanço tecnológico com a combinação certa de hardware e experiência.
Agradecimentos
A equipe do StorageReview Lab agradece à Solidigm, à Dell Technologies, à Intel e ao y-cruncher Alex Yee por seu apoio inabalável e contribuições para este projeto.
Envolva-se com a StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed