Hoy, en la GTC (Conferencia de tecnología de GPU organizada por NVIDIA) reprogramada, NVIDIA reveló que comenzó a enviar su primera GPU de 7 nm a los fabricantes de dispositivos. Al igual que AMD, que lanzó una GPU de 7 nm hace dos años en 2018, NVIDIA elige centrarse en los casos de uso del centro de datos para su primera GPU de 7 nm. NVIDIA ha estado enfatizando los desarrollos en inteligencia artificial y otra computación de alto rendimiento. Incluso la empresa comprado recientemente Mellanox. A principios de este mes, NVIDIA anunció que buscaba adquirir cúmulos .
Hoy, en la GTC (Conferencia de tecnología de GPU organizada por NVIDIA) reprogramada, NVIDIA reveló que comenzó a enviar su primera GPU de 7 nm a los fabricantes de dispositivos. Al igual que AMD, que lanzó una GPU de 7 nm hace dos años en 2018, NVIDIA elige centrarse en los casos de uso del centro de datos para su primera GPU de 7 nm. NVIDIA ha estado enfatizando los desarrollos en inteligencia artificial y otra computación de alto rendimiento. Incluso la empresa comprado recientemente Mellanox. A principios de este mes, NVIDIA anunció que buscaba adquirir cúmulos .
La primera GPU de 7nm de NVIDIA es la NVIDIA A100. El A100 se basa en la arquitectura Ampere de NVIDIA y contiene 54 mil millones de transistores. Al igual que las anteriores GPU de centros de datos de NVIDIA, la A100 incluye Tensor Cores. Los núcleos tensoriales son partes especializadas de la GPU diseñadas específicamente para realizar rápidamente un tipo de cálculo de suma y multiplicación de matriz que se usa comúnmente en la inferencia. Anteriormente, los Tensor Cores de NVIDIA solo podían admitir números de punto flotante de hasta treinta y dos bits. El A100 admite operaciones de coma flotante de sesenta y cuatro bits, lo que permite una precisión mucho mayor.
También nuevo en el A100 es una capacidad de GPU de múltiples instancias. Cada GPU A100 es capaz de dividirse en hasta siete instancias independientes para abordar una gran cantidad de tareas simultáneamente.
Especificaciones de NVIDIA A100
Recuento de transistores |
Más de 54 mil millones |
Die Tamaño |
826 mm2 |
Núcleos FP64 CUDA |
3,456 |
Núcleos FP32 CUDA |
6,912 |
Núcleos tensoriales |
432 |
Streaming de multiprocesadores |
108 |
FP64 |
9.7 teraFLOPS |
Núcleo tensor FP64 |
19.5 teraFLOPS |
FP32 |
19.5 teraFLOPS |
Núcleo tensor TF32 |
156 teraFLOPS | 312 teraFLOPS* |
Núcleo tensor BFLOAT16 |
312 teraFLOPS | 624 teraFLOPS* |
Núcleo tensor FP16 |
312 teraFLOPS | 624 teraFLOPS* |
Núcleo tensor INT8 |
624 PARTES SUPERIORES | 1,248 TOPS* |
Núcleo tensor INT4 |
1,248 PARTES SUPERIORES | 2,496 TOPS* |
Memoria de la GPU |
40 GB |
Ancho de banda de memoria GPU |
1.6 TB / s |
interconexión |
NVLink 600 GB/s PCIe Gen4 64 GB/s |
GPU de múltiples instancias |
Varios tamaños de instancia con hasta 7MIG a 5 GB |
Factor de forma |
GPU 4/8 SXM en HGX A100 |
Máximo poder |
400 W (SXM) |
Además de la única GPU A100, NVIDIA también está lanzando simultáneamente dos GPU agrupadas. El sistema NVIDIA DGX A100 cuenta con ocho GPU NVIDIA A100 interconectadas con NVIDIA NVSwitch. Su hermano menor, NVIDIA HGX A100, está compuesto por cuatro GPU A100 interconectadas a través de NVLink. Tanto NVLINK como NVSwitch permiten que las GPU individuales trabajen juntas en tareas grandes. NVLink es una verdadera interconexión de todos a todos. Para manejar la mayor cantidad de GPU en las interconexiones de NVSwitch, NVIDIA se conformó con interconectar los NVLink entre las GPU. NVIDIA ha reforzado su interconexión total para el nuevo A100, duplicando la conectividad para admitir núcleos mucho más potentes en los chips. NVIDIA afirma que han más que duplicado el rendimiento de su sistema DGX anterior. Según ellos, su nuevo DGX A100 de ocho GPU puede realizar cinco petaflops increíbles. Su generación anterior, la DGX-2, dieciséis GPU, pero solo gestiona dos petaflops. No esperaba usar la palabra "solo" con ningún sistema que contara con dos petaflops en el corto plazo, pero cuando el nuevo clúster duplica con creces el rendimiento con la mitad de la cantidad de GPU, parece adecuado. El DGX A100 también cuenta con 320 GB de memoria y nueve interfaces de red NVIDIA Mellanox ConnectX-6 HDR de 200 Gb por segundo, lo que ofrece un total de 3.6 Tb por segundo de ancho de banda bidireccional.
Para poner en perspectiva el poder absoluto de la DGX A100, la décima supercomputadora más poderosa del mundo se compara con 18 petaflops. Junta a un par de nuevos chicos malos de NVIDIA y tendrás tu propia supercomputadora de clase mundial. Sorprendentemente, NVIDIA ha lanzado una arquitectura de referencia DGX SuperPOD que hace precisamente eso. Si el sistema funciona tan bien como afirma NVIDIA, los próximos meses podrían ser muy extraños para los entusiastas de la supercomputación.
De regreso al mundo normal, con casos de uso más típicos, NVIDIA también ha anunciado planes para lanzar un servidor perimetral utilizando sus nuevas GPU para fin de año. La EGX A100 estará alimentada por solo una de las nuevas GPU A100. NVIDIA planea que el servidor perimetral EGX A100 se ejecute en Red Hat Enterprise Linux. Es probable que los dispositivos utilicen las tarjetas de red Mellanox ConnectX-6 Dx recientemente adquiridas por NVIDIA para recibir hasta 200 Gbps de datos y enviarlos directamente a la memoria GPU para el procesamiento de señales IA o 5G. El hecho de que NVIDIA no planee lanzar un dispositivo con solo una de sus nuevas GPU hasta fin de año realmente subraya la idea descabellada de agrupar múltiples DGX A100, que a su vez son grupos de ocho A100, juntos.
Interactuar con StorageReview
Boletín informativo | Canal de YouTube | Podcast iTunes/Spotify | @Instagram | Twitter | Facebook | RSS Feed