A IA está aumentando o consumo de energia do servidor – a única maneira de manter esses chips resfriados é com refrigeração líquida no data center.
A Dell Tech World se destaca não apenas pelos robustos lançamentos de produtos da Dell, mas também pelas soluções que seus parceiros exibiram na exposição. Nada atraiu mais atenção este ano do que a variedade de soluções de refrigeração líquida no salão da exposição. Há tanto interesse na refrigeração líquida que nossos vídeos nas redes sociais destacando essas tecnologias obtiveram milhões de visualizações apenas nas últimas semanas. A menos que suas cargas de trabalho sejam totalmente comuns, a refrigeração líquida chegará ao seu data center. Aqui está uma cartilha que destaca quais tecnologias podem ser adequadas, dependendo de onde você está no ciclo de refrigeração líquida.
Loop interno direto para chip
De longe, a abordagem mais fácil para adotar a refrigeração líquida no data center é através de um circuito interno fechado. Muito parecido com um cooler de CPU em um PC para jogos, esses sistemas utilizam uma placa fria com um grande radiador para retirar o calor dos principais componentes. JetCool oferece soluções como essa, eles estavam demonstrando sistemas Intel e AMD da Dell com circuito interno fechado.
Ver este post no Instagram
A melhor parte desses sistemas é que eles proporcionam economias de energia significativas, de 10 a 15% de acordo com a JetCool, sem a complexidade de captação de água nas instalações. Em alguns data centers, um circuito completo de refrigeração líquida pode nem ser uma opção, portanto esse método é a melhor alternativa aos servidores refrigerados a ar.
Loop interno JetCool
Embora a economia de energia com um circuito fechado não seja tão alta quanto outras alternativas, mesmo uma economia de 10% é enorme em data centers que são prejudicados pela quantidade de energia que podem suportar em um único rack. Uma pequena economia de energia, graças a um circuito interno fechado, pode significar suporte para um ou dois servidores adicionais por rack.
Também é importante notar que a Dell está usando um loop interno no servidor GPU PowerEdge XE8640, você pode ver mais sobre isso e o XE9640 em um Vídeo do YouTube que fizemos recentemente.
Loop líquido completo direto para chip
A progressão de um loop interno é conectada à água da instalação, para ajudar não apenas a retirar o calor dos servidores, mas também do data center. Porém, existem meias-medidas, apresentamos Sistemas CoolIT em uma revisão recente onde modernizou um R760 para refrigeração líquida, adicionando pratos frios. Também instalamos um pequeno coletor e uma unidade de distribuição de refrigerante, embora nossa CDU seja líquido-ar. Isso significa que estamos retirando o calor do R760, mas ainda o estamos despejando no data center e precisamos removê-lo.
Nossa mini implantação pode suportar alguns servidores, mas se você estiver preparado para o novo sistema de refrigeração líquida Servidor GPU Dell PowerEdge XE9680L por exemplo, você precisará de uma solução mais robusta. CoolIT tem sido uma grande parte do roteiro de refrigeração líquida da Dell até agora, e eles estavam apresentando seu novo Pratos frios Omni, novos CDUs e uma variedade de outras tecnologias de resfriamento.
Mas mesmo o resfriamento Direct-to-Chip não é uma coisa, existem várias maneiras de implementá-lo. Isto não é mais óbvio do que com o ZutaCore solução, que usa uma abordagem exclusiva de duas fases para fornecer resfriamento aos chips. ZutaCore teve alguns displays em funcionamento, com destaque para um retrofit XE9680 O servidor GPU ZutaCore foi convertido com 14 placas frias – 8x para as GPUs, 4x para os switches e 2x para as CPUs. Esta é uma tecnologia muito atraente e que temos uma extenso podcast sobre se você quiser saber mais.
Ver este post no Instagram
Para destacar mais uma versão do resfriamento Direct-to-Chip, destaco o Chilldyne. Embora não estejamos tecnicamente na exposição DTW, nos encontramos com alguns membros da equipe em um bar do hotel, que, em nossa opinião, é próximo o suficiente. Para ser justo, Chilldyne é parceiro da Dell, vimos o kit deles nos laboratórios da Dell.
A fama de Chilldyne é um circuito de líquido com pressão negativa, o que significa que se uma linha for cortada, não há perda de fluido. Vazamentos são o principal medo que impede a adoção de líquidos no data center, então Chilldyne está definitivamente no caminho certo aqui. Reunimos um pequeno vídeo que destaca sua tecnologia, que é um dos nossos vídeos sociais mais populares este ano.
Ver este post no Instagram
Trocadores de calor da porta traseira (RDHx)
Os trocadores de calor da porta traseira podem ser trocadores de calor passivos ou ativos que substituem a porta traseira de um rack de servidor. Basicamente, eles sugam o calor do ar de exaustão do servidor, descarregando-o em um circuito de líquido para resfriamento. As portas passivas são essencialmente silenciosas, sem ventiladores. O Active RDHx pode adicionar ventiladores ao RDHx para maior eficiência.
Embora os RDHx não fossem uma grande parte do DTW, vale a pena mencioná-los por dois motivos principais, nos dois extremos do espectro. Primeiro, eles são um primeiro passo relativamente fácil para adicionar refrigeração líquida ao seu data center e podem ser implantados em uma variedade de configurações independentes. Alternativamente, o RDHx pode ser combinado com outras tecnologias de refrigeração líquida para obter 100% de recuperação de calor por meio de refrigeração líquida, algo que foi tema de conversa em Las Vegas na semana passada.
Liebert DCD50 RDHx
Os RDHx estão disponíveis de uma forma ou de outra para praticamente qualquer pessoa que trabalhe em escala de rack, incluindo empresas da Dell Tech World como CoolIT e Vertiv. Também é importante notar que a Dell está lançando o RDHx como parte do impulso XE9680L, “Um design de 70KW que usa refrigeração a ar com trocadores de calor de porta traseira (RDHx), suportando 64 GPUs – ideal para NVIDIA H100/H200/B100. Também temos um design de 100KW que usa refrigeração líquida com RDHx, suportando 72 GPUs B200 – esta é a arquitetura em escala de rack mais compacta do setor.”
Resfriamento líquido por imersão total
Até este ponto, todas as opções de refrigeração líquida para data centers que mencionei são relativamente convencionais. A Imersão Total é onde, de acordo com o feedback que estamos recebendo, as coisas ficam um pouco mais arriscadas. Como o nome indica, essa tecnologia basicamente pega servidores no estado em que se encontram, com algumas modificações, e os mergulha em um fluido projetado (refrigerantes dielétricos proprietários). BP e concha ambos produzem fluidos para esse fim, entre outros. Vimos racks de imersão total aparecendo em feiras como a DTW por 3 a 4 anos. Este ano ambos Submersão e GRC ofereceu demonstrações de imersão.
Ver este post no Instagram
A ideia de resfriamento por imersão monofásico (duas fases teve um momento, mas caiu em desuso) faz sentido de várias maneiras e é uma das favoritas entre os mineradores de criptografia. Ao considerar servidores corporativos como o PowerEdge, as regras mudam um pouco. Com servidores, o primeiro passo é remover os ventiladores, o que oferece economia imediata de energia. A convecção, ou assistida por bombas, move o fluido sobre os componentes do servidor. A partir daí o calor pode ser capturado através do trocador de calor e removido do data center.
Este sistema eliminou a necessidade de resfriamento a ar e tanto o GRC quanto o Submer apontam para dados que sugerem que os servidores em resfriamento por imersão na verdade têm vida útil mais longa e menos eventos de serviço do que os servidores resfriados a ar. Mas aqui reside um dos maiores obstáculos: os servidores precisam sair do pool para manutenção e, embora isso não seja difícil, é mais complicado do que fazer a manutenção de equipamentos tradicionalmente montados. Um servidor em imersão deve sair do fluido, secar um pouco e depois ser colocado sobre uma mesa para servir. Não é uma ação impossível, mas exige um pouco de esforço.
Existem outras preocupações sobre o peso dos tanques e a eficiência de fluidos e espaço em comparação com racks verticais padrão. A indústria de imersão argumenta que os tanques podem ser empilhados e os sistemas que estão em tanques de imersão são, na verdade, mais eficientes. Nós temos uma bom podcast sobre imersão se você quiser saber mais.
Conclusão
Não há como impedir que o resfriamento líquido chegue ao seu data center se sua organização estiver envolvida com IA ou outros aplicativos que fazem uso de caixas de GPU densas. É altamente provável que, se você comprar um servidor GPU de 8 vias hoje, quando ele aparecer na sua doca de carregamento em um ano, ele terá um circuito fechado interno, caso você não tenha investido em um circuito líquido completo até esse ponto. . A boa notícia é que a indústria está identificando os problemas que dificultam a adoção, como a falta de conectores universais, e trabalhando para resolver esses problemas, de modo que o resfriamento líquido seja mais fácil de ser adotado pelas empresas.
Envolva-se com a StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed