Inicio Empresa Se anuncia una nueva ola de innovación HPC de NVIDIA

Se anuncia una nueva ola de innovación HPC de NVIDIA

by harold fritts

NVIDIA aprovechó SC22 para hacer anuncios que destacan una nueva ola de innovación de HPC que permite descubrimientos científicos revolucionarios. NVIDIA destacó Quantum-2, Omniverse, HPC en el borde y Digital Twin Simulation. Aquí está la compilación de NVIDIA.

NVIDIA aprovechó SC22 para hacer anuncios que destacan una nueva ola de innovación de HPC que permite descubrimientos científicos revolucionarios. NVIDIA destacó Quantum-2, Omniverse, HPC en el borde y Digital Twin Simulation. Aquí está la compilación de NVIDIA.

Primero está el anuncio de que ha habido una amplia adopción de su próxima generación GPU H100 Tensor Core y Banda Infinita Cuántica-2, incluidas nuevas ofertas en la nube de Microsoft Azure y más de 50 nuevos sistemas asociados para acelerar el descubrimiento científico.

Nvidia HGX-H100

NVIDIA lanzó actualizaciones significativas para sus bibliotecas de aceleración cuQuantum, CUDA y BlueField DOCA y anunció el soporte para su plataforma de simulación Omniverse en los sistemas con tecnología NVIDIA A100 y H100. H100, Quantum-2 y las actualizaciones de la biblioteca son parte de la plataforma HPC de NVIDIA. La plataforma HPC incluye una pila de tecnología completa con CPU, GPU, DPU, sistemas, redes y una amplia gama de software de IA y HPC que brinda a los investigadores la capacidad de acelerar de manera eficiente su trabajo en sistemas potentes, en las instalaciones o en la nube.

Azure ofrece NVIDIA Quantum-2 para cargas de trabajo de HPC

La adopción de Microsoft Azure de la plataforma de red Quantum-2 InfiniBand siguió a la disponibilidad general de NVIDIA Quantum-2 anunciada en GTC en marzo.

Nuevos servidores turbocargados con H100, NVIDIA AI

ASUS, Atos, Dell, HPE, Lenovo y Supermicro son solo algunos de los socios de NVIDIA que anuncian servidores con tecnología H100. Se incluye una licencia de cinco años para NVIDIA AI Enterprise con cada GPU H100 PCIe. Esto garantiza que las organizaciones tengan acceso a los marcos y herramientas de IA necesarios para crear soluciones de IA aceleradas por H100, desde imágenes médicas hasta modelos meteorológicos, sistemas de alerta de seguridad y más.

Entre la ola de nuevos sistemas se encuentra el Dell PowerEdge XE9680, también anunciado durante SC22, que aborda las cargas de trabajo de alto rendimiento y IA más exigentes. Este es el primer sistema de ocho vías de Dell basado en la plataforma NVIDIA HGX diseñada específicamente para la convergencia de simulación, análisis de datos e IA.

El PowerEdge XE8640, el nuevo sistema HGX H100 de Dell con cuatro GPU Hopper, permite a las empresas desarrollar, capacitar e implementar modelos de inteligencia artificial y aprendizaje automático. Un sistema de rack 4U, el XE8640 ofrece un rendimiento de entrenamiento de IA más rápido y mayores capacidades centrales con hasta cuatro ranuras PCIe Gen5, tecnología NVIDIA Multi-Instance GPU (MIG) y Almacenamiento NVIDIA GPUDirect apoyo.

Actualizaciones importantes a las bibliotecas de aceleración

Para ayudar a impulsar el descubrimiento científico, NVIDIA ha lanzado importantes actualizaciones para sus bibliotecas de aceleración CUDA, cuQuantum y DOCA, que incluyen:

  • Las bibliotecas NVIDIA CUDA ahora incluyen un Eigensolver de varios nodos y varias GPU que permite una escala y un rendimiento sin precedentes para las principales aplicaciones de HPC como VASP, un paquete para cálculos mecánicos cuánticos básicos.
  • El kit de desarrollo de software NVIDIA cuQuantum para acelerar los flujos de trabajo de computación cuántica ahora admite métodos de red de tensor aproximados. Esto permite a los investigadores simular decenas de miles de qubits y habilita automáticamente la compatibilidad con varios nodos y varias GPU para la simulación cuántica con un rendimiento sin igual utilizando el dispositivo cuQuantum.
  • NVIDIA DOCA, el SDK de nube abierta y el marco de aceleración para las DPU NVIDIA BlueField, incluye programabilidad, seguridad y funcionalidad avanzadas para admitir nuevos casos de uso de almacenamiento.

Estas bibliotecas permiten a los investigadores escalar a través de múltiples servidores y equiparlos con aumentos de rendimiento para impulsar el descubrimiento científico. Las bibliotecas de aceleración NVIDIA HPC están disponibles en las principales plataformas en la nube AWS, Google Cloud, Microsoft Azure y Oracle Cloud Infrastructure.

Portales abiertos omniversos para científicos

A continuación, NVIDIA anunció que NVIDIA Omniverse ahora se conecta al software de visualización de computación científica líder y admite nuevas cargas de trabajo de procesamiento por lotes en sistemas con GPU NVIDIA A100 y H100 Tensor Core.

NVIDIA también presentó gemelos digitales científicos e industriales en tiempo real para la comunidad informática de alto rendimiento, habilitados por NVIDIA OVX, un sistema informático diseñado para impulsar gemelos digitales Omniverse a gran escala, y Omniverse Cloud, un software e infraestructura como un -oferta de servicios.

Omniverse ahora admite cargas de trabajo por lotes que los investigadores, científicos e ingenieros de IA y HPC pueden ejecutar en sus sistemas A100 o H100 existentes.

NVIDIA también reveló conexiones a herramientas informáticas científicas populares como ParaView de Kitware, una aplicación para visualización; NVIDIA IndeX para renderizado volumétrico; Módulo NVIDIA para desarrollar modelos físicos-ML; y NeuraVDB para la representación de datos volumétricos dispersos a gran escala.

Mediante el uso de cargas de trabajo de nube híbrida y Omniverse, los clientes de computación científica pueden conectar canalizaciones de visualización y simulación heredadas para lograr una interacción distribuida, completamente interactiva y en tiempo real real con sus modelos y conjuntos de datos. Clientes de NVIDIA como Argonne National Laboratory, Lockheed Martin y Princeton Plasma Physics Laboratory ya están viendo los beneficios de Omniverse para cargas de trabajo de HPC.

Omniverse recibe apoyo de líderes científicos globales.

El Laboratorio Nacional de Argonne está utilizando NVIDIA Omniverse en su supercomputadora Polaris con tecnología A100 para conectar sus herramientas de visualización heredadas como un primer paso para desarrollar las bases de futuros gemelos digitales.

Princeton Plasma Physics Laboratory (PPPL), el laboratorio nacional del Departamento de Energía de EE. UU. para la física del plasma y la ciencia de la fusión, está utilizando Omniverse para conectar y acelerar simuladores de HPC en tiempo real, sintéticos y de última generación para modelar dispositivos de fusión y controlar sistemas y, en última instancia, mejorar la operación del experimento hacia una nueva fuente de energía limpia comercialmente viable.

En consonancia con la iniciativa Earth-2 de NVIDIA para acelerar la investigación climática, el líder aeroespacial Lockheed Martin recientemente comenzó a utilizar NVIDIA Omniverse para proporcionar a la Administración Nacional Oceánica y Atmosférica (NOAA) de EE.

Disponibilidad

Estas nuevas características ahora son compatibles con NVIDIA Omniverse y están disponibles para desarrolladores y empresas.

La plataforma NVIDIA resuelve los problemas de HPC en el perímetro

Las universidades y empresas que comparten trabajo a largas distancias requieren un lenguaje común y una canalización segura para que todos los dispositivos, desde microscopios y sensores hasta servidores y redes de campus, vean y comprendan los datos transmitidos. La creciente cantidad de datos que deben almacenarse, transmitirse y analizarse solo agrava el desafío.

NVIDIA está abordando el problema mediante la introducción de una plataforma informática de alto rendimiento que combina la computación perimetral y la IA para capturar y consolidar la transmisión de datos desde instrumentos científicos perimetrales, lo que permite que los dispositivos se comuniquen entre sí a largas distancias.

La plataforma consta de tres componentes principales, las DPU NVIDIA Holoscan, MetroX-3 y NVIDIA BlueField-3. NVIDIA Holoscan es un kit de desarrollo de software que los científicos de datos y los expertos en dominios pueden usar para construir canalizaciones aceleradas por GPU para sensores que transmiten datos. MetroX-3 es un nuevo sistema de larga distancia que amplía la conectividad de la plataforma NVIDIA Quantum-2 InfiniBand. Y las DPU NVIDIA BlueField-3 brindan una migración de datos segura e inteligente.

Los investigadores pueden usar la nueva plataforma NVIDIA para computación de borde HPC para comunicarse de manera segura y colaborar en la resolución de problemas y unir sus dispositivos y algoritmos dispares para operar como una gran supercomputadora.

Holoscan para HPC en el borde

Acelerado por las plataformas informáticas GPU que incluyen los sistemas NVIDIA IGX, HGX y DGX, NVIDIA Holoscan ofrece el rendimiento extremo necesario para procesar flujos masivos de datos generados por los instrumentos científicos del mundo.

NVIDIA Holoscan para HPC incluye nuevas API para C++ y Python que los investigadores de HPC pueden usar para crear flujos de trabajo de procesamiento de datos de sensores que sean lo suficientemente flexibles para formatos que no son de imagen y lo suficientemente escalables para traducir datos sin procesar en información en tiempo real.

Holoscan también administra la asignación de memoria para garantizar intercambios de datos sin copias, de modo que los desarrolladores puedan concentrarse en la lógica del flujo de trabajo y no preocuparse por administrar la E/S de archivos y memoria.

Las nuevas características de Holoscan estarán disponibles para todos los desarrolladores de HPC el próximo mes.

MetroX-3 recorre la distancia

El sistema de larga distancia NVIDIA MetroX-3, disponible el próximo mes, amplía las últimas capacidades nativas de la nube de la plataforma NVIDIA Quantum-2 InfiniBand desde el perímetro hasta el núcleo del centro de datos HPC. Permite que las GPU entre sitios compartan datos de forma segura a través de la red InfiniBand a una distancia de hasta 25 km (40 millas).

Aprovechando el acceso nativo directo a la memoria remota, los usuarios pueden migrar fácilmente datos y trabajos de cómputo desde un miniclúster conectado a InfiniBand al centro de datos principal o combinar clústeres de cómputo dispersos geográficamente para lograr un mayor rendimiento general y escalabilidad.

Los operadores de centros de datos pueden aprovisionar, monitorear y operar en todas las redes de centros de datos conectadas a InfiniBand utilizando NVIDIA Unified Fabric Manager para administrar sus sistemas MetroX-3.

BlueField para HPC segura y eficiente

Las DPU NVIDIA BlueField descargan, aceleran y aíslan los servicios avanzados de red, almacenamiento y seguridad para aumentar el rendimiento y la eficiencia de la HPC moderna.

NVIDIA lleva la simulación de gemelos digitales a los operadores de centros de datos de HPC

La simulación y los gemelos digitales pueden ayudar a los diseñadores, constructores y operadores de centros de datos a crear instalaciones de alto rendimiento y eficiencia. La plataforma de simulación NVIDIA Omniverse ayuda a optimizar el proceso de diseño virtual colaborativo.

Omniverse ahora permite a los operadores de centros de datos agregar información en tiempo real desde sus aplicaciones centrales de diseño, simulación y monitoreo asistidos por computadora de terceros para que puedan ver y trabajar con sus conjuntos de datos completos en tiempo real.

La demostración de SC22 Omniverse muestra cómo Omniverse permite a los usuarios aprovechar el poder de la computación acelerada, la simulación y los gemelos digitales operativos conectados al monitoreo en tiempo real y la IA. Esto permite a los equipos optimizar el diseño de las instalaciones, acelerar la construcción y el despliegue, y optimizar las operaciones en curso.

La demostración también destacó NVIDIA Air, una plataforma de simulación de centro de datos diseñada para funcionar con Omniverse para simular la red. Con NVIDIA Air, los equipos pueden modelar toda la pila de red, lo que les permite automatizar y validar el hardware y el software de la red antes de la puesta en marcha.

Creación de gemelos digitales para elevar el diseño y la simulación

En la planificación y construcción de una de las últimas supercomputadoras de inteligencia artificial de NVIDIA, se recopilaron múltiples conjuntos de datos CAD de ingeniería de herramientas de la industria de terceros, como Autodesk Revit, PTC Creo y Trimble SketchUp. Esto permitió a los diseñadores e ingenieros ver el modelo basado en la descripción de la escena universal con total fidelidad, y pudieron iterar el diseño de forma colaborativa en tiempo real.

PATCH MANAGER es una aplicación de software empresarial para planificar cableado, activos y conectividad punto a punto de capa física en dominios de red. Con PATCH MANAGER conectado a Omniverse, la compleja topología de las conexiones de puerto a puerto, los diseños de racks y nodos y el cableado se pueden integrar directamente en el modelo en vivo. Esto permite a los ingenieros del centro de datos ver la vista completa del modelo y sus dependencias.

Para predecir el flujo de aire y las transferencias de calor, los ingenieros utilizaron Cadence 6SigmaDCX, un software para dinámica de fluidos computacional. Los ingenieros también pueden usar sustitutos de IA entrenados con NVIDIA Modulus para análisis hipotéticos casi en tiempo real. Esto permite a los equipos simular cambios en térmicas y enfriamiento complejos, y pueden ver los resultados al instante.

Y con NVIDIA Air, la topología de red exacta, incluidos los protocolos, la supervisión y la automatización, se puede simular y prevalidar.

Una vez que se construye un centro de datos, sus sensores, sistema de control y telemetría se pueden conectar al gemelo digital dentro de Omniverse, lo que permite el monitoreo en tiempo real de las operaciones.

Los ingenieros pueden simular peligros comunes, como picos de energía o fallas del sistema de enfriamiento con un gemelo digital perfectamente sincronizado. Los operadores pueden beneficiarse de los cambios recomendados por IA que optimizan las prioridades clave, como aumentar la eficiencia energética y reducir la huella de carbono. El gemelo digital también les permite probar y validar actualizaciones de software y componentes antes de implementarlas en el centro de datos físico.

Interactuar con StorageReview

Boletín informativo | Canal de YouTube | Podcast iTunes/Spotify | @Instagram | Twitter | @TikTok | RSS Feed