El Dell PowerEdge XE9680 es un testimonio de la innovación en la informática empresarial, ofreciendo a los clientes lo último en flexibilidad de GPU.
El PowerEdge XE9680 representa la plataforma de infraestructura de IA más versátil de Dell hasta la fecha. Combina un nodo de cómputo de 760U estilo PowerEdge R2 con un enorme cajón de GPU de 4U. Este innovador diseño de 6U combina lo mejor de la ingeniería de servidores empresariales de Dell con una densidad y una flexibilidad de GPU sin precedentes.
En esencia, el XE9680 admite dos procesadores escalables Intel Xeon, lo que permite elegir entre la quinta generación con hasta 5 núcleos por CPU o la cuarta generación con hasta 64 núcleos. La capacidad de memoria es sustancial y admite hasta 4 TB de memoria DDR56 en 4 ranuras DIMM, que funcionan a una velocidad de hasta 5 MT/s con los procesadores más recientes.
Lo que realmente distingue al XE9680 son sus capacidades de GPU. La plataforma admite ocho GPU de alta potencia. Las configuraciones disponibles incluyen HGX H200 (141 GB) y H100 (80 GB) de NVIDIA, Instinct MI300X (192 GB) de AMD y Gaudi3 (128 GB) de Intel. XE9680L La variante es compatible con las GPU B200 de próxima generación de NVIDIA y refrigeración líquida directa, lo que amplía los límites en términos de densidad y rendimiento.
Las configuraciones de almacenamiento son igualmente flexibles y ofrecen 8 unidades NVMe/SAS/SATA de 2.5″ o 16 unidades NVMe E3.S. El sistema puede equiparse con la tarjeta RAID PERC NVMe H965i de Dell, lo que simplifica la redundancia de almacenamiento de manera significativa para cachés KV de gran tamaño durante cargas de trabajo de inferencia.
El suministro de energía está diseñado para lograr la máxima confiabilidad. Seis fuentes de alimentación con un total de 19200 W están configuradas en una disposición redundante tolerante a fallas (FTR) 3+3. Cuando fallan dos o más fuentes de alimentación, el sistema ingresa a un modo redundante tolerante a fallas en lugar de apagarse. En este modo, se activa el freno de energía de la GPU, lo que reduce los relojes de la GPU a una cuarta parte, lo que da como resultado aproximadamente una quinta parte del rendimiento típico de la GPU.
Esta elección de diseño bien pensada es invaluable en entornos de entrenamiento a gran escala donde cientos o miles de GPU trabajan en conjunto. En lugar de que un nodo se desconecte por completo (lo que requeriría reprogramar y repetir iteraciones de entrenamiento en otro nodo), el sistema puede continuar funcionando con un rendimiento reducido hasta la próxima ventana de mantenimiento. Esta atención al detalle en la administración de energía ayuda a mantener un alto rendimiento de entrenamiento del modelo (MFU) al minimizar las interrupciones.
Las capacidades de expansión son amplias, con hasta 10 ranuras PCIe Gen5 x16 de altura completa y longitud media, dos de las cuales admiten tarjetas de mayor potencia, más allá de los 75 W. Esta abundancia de conectividad PCIe permite varias configuraciones de red, incluidas DPU y SmartNIC, esenciales para construir una infraestructura de IA moderna.
Especificaciones completas:
Especificaciones | Detalles |
---|---|
Procesador | Hasta dos procesadores escalables Intel® Xeon® de quinta generación (5 núcleos por CPU) Hasta dos procesadores escalables Intel® Xeon® de quinta generación (4 núcleos por CPU) |
Opciones de GPU | XE9680: – NVIDIA HGX H200 (141 GB) SXM5 700 W – NVIDIA HGX H100 (80 GB) SXM5 700 W – AMD Instinct MI300X (192 GB) OAM 750 W – Intel Gaudi3 (128 GB) OAM 900 W |
Salud Cerebral | 32 ranuras DIMM 5600 MT/s (quinta generación) 4800 MT/s (quinta generación) |
Storage | Bahías de unidad frontales: 8x 2.5″ NVMe/SAS/SATA (122.88 TB máx.) 16x E3.S NVMe (122.88 TB máx.) |
Controladores de almacenamiento | Controladores internos: PERC H965i (no compatible con Intel Gaudi3)Arranque interno: Subsistema de almacenamiento optimizado para arranque (NVMe BOSS-N1): HWRAID 1, 2 SSD M.2 |
Ranuras PCIE | Ranuras PCIeHasta 10 ranuras PCIe Gen5 x16 (8 ranuras con Intel Gaudi3) |
Nuestra red | 1x OCP 3.0 (opcional) 2 LOM de 1 GbE |
Fuentes de alimentación | Titanio de 3200 W (277 V CA) Titanio de 2800 W (200-240 V CA) |
Dimensiones | Altura: 10.36 ″ (263.20mm) Anchura: 18.97 "(482.00mm) Profundidad: 39.71″ (1008.77 mm) con bisel |
Peso | Hasta 251.44 libras (114.05 kg) |
Factor de forma | Servidor en rack 6U |
Gestionamiento | Integrado/En el servidor: iDRAC9 iDRAC directo API RESTful de iDRAC con RedfishMódulo de servicio de iDRACConsolas: Complemento CloudIQ para PowerEdge Empresa OpenManage Complemento OpenManage Power Manager Complemento de servicio OpenManage Herramientas del complemento OpenManage Update Manager: Actualización del sistema Dell Administrador de repositorio de Dell Catálogos empresariales API RESTful de iDRAC con Redfish IPMI Integraciones de CLIOpenManage de RACADM: Visión verdadera de BMC Integración de OpenManage con ServiceNow |
Seguridad | Firmware firmado criptográficamente Cifrado de datos en reposo (SED con administración de clave local o externa) Comienza segura Verificación de componentes seguros (comprobación de integridad del hardware) Borrado seguro Raíz de confianza de silicio Bloqueo del sistema (requiere iDRAC9 Enterprise o Datacenter) |
Enfriamiento | Aire enfriado |
Diseño y construcción del Dell PowerEdge XE9680
El PowerEdge XE9680 es una imponente pieza de hardware, que mide 10.36 mm (263.20 pulgadas) de alto, 18.97 mm (482.00 pulgadas) de ancho y 39.71 mm (1008.77 pulgadas) de profundidad con el bisel incorporado. Cuando está completamente cargado, pesa 251.44 kg (114.05 lbs). La selección de la GPU tendrá la última palabra en cuanto al peso, ya que el modelo NVIDIA H100/H200 pesa 238 kg (300 lbs), mientras que la unidad AMD MI251X pesa XNUMX kg (XNUMX lbs).
Este fue el primer servidor que requirió una cuidadosa reflexión para cargarlo correctamente en nuestro entorno de prueba. Si tenemos en cuenta el peso del servidor y la cantidad de personas necesarias para montar el hardware en el rack, hay cierto margen de maniobra para superar los límites, pero en un momento determinado, una o dos personas no lo levantarán solas. Dell tiene la amabilidad de proporcionarle una "mesa elevadora" para ayudarlo a comprender cómo encaja esta plataforma. Para todos aquellos que se lo preguntan, Kevin cargó él mismo el XE9680 en el rack.
Peso del chasis | Descripción original |
---|---|
40 libras – 70 libras | Se recomienda que lo levanten dos personas. |
70 libras – 120 libras | Se recomiendan tres personas para levantarlo. |
≥ 121 libras | Se requiere un elevador de servidores. |
A pesar de su complejidad y de la recomendación de Dell para técnicos de servicio especializados, el XE9680 cuenta con elementos de servicio sorprendentemente fáciles de usar. Los paneles del servidor incluyen instrucciones de servicio detalladas y gráficos claros, lo que hace que los procedimientos de mantenimiento sean sorprendentemente accesibles para el personal de TI experimentado. Estas guías visuales resultaron invaluables durante el tiempo que trabajamos con el sistema, lo que nos permitió realizar el servicio de varios componentes con confianza.
Después de abrir la cubierta del PowerEdge XE9680, una vez que se pasan los numerosos cables de alimentación de la pequeña subestación de energía en la parte superior, se ve muy similar a un PowerEdge R760. Nuestra unidad estaba equipada con dos procesadores Intel Xeon Platinum 8468, cada uno con 48 núcleos a 2.1 GHz. Cada procesador ofrece 80 líneas PCIe, que fluyen a través de bastantes conmutadores PCIe en esta unidad para dar soporte a las GPU, NIC y otro hardware cargado en el XE9680.
Una de las características de ingeniería más impresionantes es el diseño de la PCIe Switch Board (PSB). Estas placas brindan conectividad para hasta 10 tarjetas PCIe adicionales de altura completa y media longitud (dos de las cuales pueden superar los 75 W de consumo de energía) y se integran directamente con la placa base de la GPU. Esta integración directa habilita la tecnología GPU-direct, lo que permite que los SSD y las tarjetas de red se comuniquen directamente con las GPU, sin pasar por la CPU y reduciendo la latencia para cargas de trabajo de IA con uso intensivo de E/S.
Cada ranura de expansión admite una interfaz PCIe Gen5 x16 completa, incluidas las dos ranuras inferiores en los extremos izquierdo y derecho del diseño. Mientras que las ocho ranuras superiores están conectadas a través de su propia PSB, las dos ranuras inferiores se conectan directamente a la placa base PCIe (PBB). Estas dos ranuras también admiten tarjetas de alto consumo de energía. Además, debe tenerse en cuenta que el diseño PCIe varía ligeramente según el tipo de GPU elegido para el PowerEdge XE9680. Los modelos equipados con AMD no admiten SmartNIC/DPU, y los modelos Intel Gaudi3 tienen dos ranuras bloqueadas debido a problemas de flujo de aire.
La refrigeración es otra área en la que destaca la experiencia de ingeniería de Dell. El sistema emplea hasta 16 ventiladores de alto rendimiento de grado Gold: seis en la bandeja intermedia y diez en la parte posterior. El PowerEdge XE9680 admite una amplia gama de escenarios de instalación, con temperaturas ambiente que van desde los 10 a los 35 °C (30 °C con las GPU Intel Gaudi3). A plena capacidad, el servidor mueve unos impresionantes 1,200 CFM en el pasillo caliente.
Esta robusta solución de refrigeración soporta incluso las cargas térmicas más exigentes, incluidas las GPU AMD MI300X, Intel Gaudi3 o NVIDIA H100, a la vez que mantiene temperaturas de funcionamiento óptimas. El PowerEdge XE9680 emite un sonido bastante fuerte bajo carga en términos de emisión de ruido. Dell ofrece una hoja de especificaciones acústicas completa para el XE9680 en diferentes situaciones, pero es bastante fácil decir que será una plataforma ruidosa bajo carga.
Gestionamiento
Las capacidades de administración del XE9680 se basan en el iDRAC9 de Dell, probado en empresas, que proporciona una gestión y supervisión integrales del ciclo de vida del servidor. Esta versión de iDRAC ofrece varias funciones optimizadas para IA, como telemetría detallada de la GPU, análisis del consumo de energía y una supervisión térmica exhaustiva diseñada para cargas de trabajo de IA de alta densidad.
La pila de gestión de la plataforma es particularmente notable para las implementaciones de infraestructura de IA. A través de la API RESTful de iDRAC9 con soporte de Redfish, las organizaciones pueden monitorear y administrar de manera programática el uso de la GPU, el ancho de banda de la memoria y las condiciones térmicas, métricas críticas para mantener un rendimiento óptimo de inferencia y entrenamiento de IA. La integración del sistema con OpenManage Enterprise permite la administración de toda la flota de múltiples XE9680 a través de una consola unificada, lo cual es esencial para los clústeres de IA a gran escala.
La seguridad y el cumplimiento normativo son elementos fundamentales de la arquitectura de gestión. La plataforma implementa la raíz de confianza de silicio y la verificación segura de componentes, lo que garantiza la integridad del hardware desde el arranque hasta el funcionamiento. Estas funciones son especialmente valiosas cuando se ejecutan cargas de trabajo de IA sensibles o se manejan pesos de modelos propietarios.
La capacidad de análisis predictivo de fallas, impulsada por la integración de CloudIQ, utiliza el aprendizaje automático para pronosticar posibles problemas de hardware antes de que afecten las cargas de trabajo. Este enfoque proactivo es especialmente crucial para trabajos de capacitación de IA de larga duración, donde el tiempo de inactividad inesperado puede resultar en días de pérdida de computación. Cuando se combina con el servicio ProSupport Plus de Dell, esta capacidad predictiva activa la creación automática de casos y el envío de piezas, lo que a menudo da como resultado un mantenimiento preventivo antes de que se produzca la degradación del sistema.
Para las organizaciones que requieren integración con herramientas de gestión existentes, el XE9680 admite varios marcos de gestión a través de integraciones de OpenManage, incluidos ServiceNow y BMC TrueSight, lo que permite una incorporación perfecta a los flujos de trabajo de gestión de servicios de TI establecidos.
La interfaz iDRAC9 proporciona un monitoreo detallado en tiempo real de los componentes críticos a través de un panel intuitivo. El monitoreo de la GPU muestra métricas integrales, que incluyen temperatura, consumo de energía y tasas de utilización en los ocho aceleradores, esenciales para optimizar la distribución de la carga de trabajo de IA.
La interfaz de monitoreo de almacenamiento ofrece visibilidad instantánea del estado de la unidad, la temperatura y las métricas de rendimiento en toda la matriz NVMe, lo que es particularmente valioso al administrar cachés de inferencia de alto rendimiento y conjuntos de datos de entrenamiento.
Memoria, almacenamiento y escala
Las ocho GPU AMD MI300X que se encuentran dentro del Dell PowerEdge XE9680 representan un salto significativo en la capacidad de memoria de la GPU, ya que ofrecen 192 GB de memoria HBM3 por tarjeta en comparación con los 200 GB de la NVIDIA H141. Este aumento del 36 % en la capacidad de memoria no es solo un número en una hoja de especificaciones: es fundamental para la implementación de modelos de lenguajes de gran escala.
Este enorme conjunto de memoria, junto con el ancho de banda de memoria de 300 TB/s del MI5.3X, permite a las organizaciones ejecutar múltiples instancias de modelos más pequeños o particionar modelos más grandes en varias GPU mientras mantienen un alto rendimiento y una baja latencia.
Para poner esto en perspectiva, el modelo Llama 3.1 405B de Meta, que requiere más de 1 TB de VRAM en BF16, se puede distribuir cómodamente en un solo XE9680 con GPU MI300X sin cuantificación y una longitud de contexto completa de 128k. Esto elimina la posible pérdida de calidad asociada con las técnicas de cuantificación y permite más tokens por segundo en comparación con tener el modelo distribuido en dos servidores.
Para maximizar nuestra huella de almacenamiento, utilizamos el Solidigm 61.44 TB Las unidades SSD funcionan como una extensión sofisticada de la memoria, lo que permite cerrar la brecha entre la memoria de GPU de alta velocidad y el almacenamiento tradicional. Las unidades SSD se destacan por almacenar pares de caché de clave-valor durante la inferencia, lo que extiende de manera efectiva la capacidad de memoria de la GPU para generaciones de contexto prolongado. Su enorme capacidad y rendimiento NVMe las hacen ideales para un acceso rápido al peso del modelo, lo que permite un cambio de modelo eficiente y arranques en caliente.
En aplicaciones como la implementación de Metrum AI que detallamos a continuación, los SSD cumplen una doble función como backend de almacenamiento para bases de datos vectoriales, brindando el rendimiento necesario para búsquedas de similitud en tiempo real y manteniendo al mismo tiempo la capacidad para un amplio almacenamiento de incrustación.
El valor de estas unidades de alta capacidad se extiende más allá de la inferencia a los flujos de trabajo de entrenamiento. Proporcionan un almacenamiento local ideal para poner en cola los lotes de entrenamiento, lo que reduce la sobrecarga de la red al mantener los datos más cerca de los recursos informáticos. Durante el entrenamiento, estas unidades se destacan por almacenar puntos de control del modelo localmente, lo que es fundamental para mantener el progreso del entrenamiento y permitir una recuperación rápida. Esta estrategia de almacenamiento local también ayuda a optimizar la utilización de la red al reducir el tráfico de red inmediato después de cada capa y lote procesados.
Si bien la capacidad de 61.44 TB en ocho bahías del XE9680 suena prometedora, hay mucha más capacidad por venir. La unidad de 122.88 TB recientemente anunciada por SolidigmLa densidad de almacenamiento en el XE se puede duplicar a casi un petabyte para realizar optimizaciones de entrenamiento adicionales y cachés de inferencia de mayor duración.
Asistente de atención médica Metrum AI: revolucionando la atención al paciente
El sector de la salud enfrenta constantemente el desafío de gestionar la documentación y los registros de los pacientes, que requieren mucho tiempo y que a menudo restan valor a la atención directa al paciente. El asistente de atención médica de Metrum AI, implementado en servidores Dell PowerEdge XE9680 con aceleradores AMD, ejemplifica cómo la infraestructura de inteligencia artificial avanzada puede transformar los flujos de trabajo de la atención médica, mejorando la eficiencia y los resultados de los pacientes.
El sistema utiliza Llama 3.1 70B Instruct como su modelo de lenguaje principal, reconocido por su comprensión de contextos médicos. Esto le permite procesar datos complejos de pacientes con facilidad. Este modelo de lenguaje se combina con el modelo de integración gte-v1.5 y Milvus Vector DB, lo que proporciona una base sólida para el procesamiento del lenguaje natural y la comprensión contextual, esenciales para el manejo de datos médicos.
El asistente de atención médica de Metrum AI también incluye un enfoque multimodal que incorpora HistoGPT para el análisis de imágenes de histopatología y Whisper de OpenAI para la transcripción en tiempo real de las notas de los médicos. Juntos, estos modelos agilizan los flujos de trabajo clínicos, lo que permite a los médicos hablar con naturalidad mientras el sistema transcribe, clasifica e integra la información en los registros de los pacientes en tiempo real.
Metrum AI reconoce que, si bien los datos de pacientes individuales pueden ser relativamente pequeños, las demandas de almacenamiento combinadas de los hospitales con mucho tráfico pueden escalar a cientos de terabytes. Dell PowerEdge XE9680 puede abordar esto con su almacenamiento NVMe integrado local. Nuestra configuración ofrece ocho bahías de almacenamiento NVMe U.2.5 de 2″ que funcionan a velocidades PCIe Gen4. Si bien probamos el XE9680 con Unidades SSD Soldigim D61.44-P5 QLC de 5336 TBEsta capacidad puede escalar aún más. Soldigim lanzó recientemente su nuevo Modelos QLC D5-P5336 de 122.88 TB, que duplica la capacidad de sus ya masivos SSD manteniendo el mismo rendimiento.
Metrum proporcionó estimaciones de cómo se traducen los datos de los pacientes a lo largo del tiempo en diferentes escenarios. Cuando se calcula la capacidad de almacenamiento total, se puede ver cuántos pacientes adicionales podría admitir una unidad utilizando los SSD de mayor capacidad. Si tomamos la huella de datos estimada por paciente y la comparamos con la capacidad utilizable de cada SSD (57 TB para el SSD de 61 TB y 114 TB para el SSD de 122 TB), podemos ver que tener SSD densos aumenta en gran medida lo que se puede almacenar en el servidor de manera significativa por año.
Estimación anual total por paciente | Notas | Almacenamiento estimado | Pacientes por SSD de 61 TB | Pacientes por SSD de 122 TB |
---|---|---|---|---|
Necesidades de almacenamiento mejoradas (imágenes/variantes DICOM, ampliaciones, copias procesadas, transcripciones de audio, registros detallados) | Incluye múltiples copias de imágenes, transcripciones de audio y registros. | ~ 8.4 GB | 6,786 | 13,571 |
Escenario de alto almacenamiento (procesamiento intensivo, visitas frecuentes) | Visitas frecuentes, altos requisitos de procesamiento de imágenes. | ~ 10.5 GB | 5,428 | 10,857 |
Si bien las estimaciones iniciales para un año parecen bastante elevadas, es importante tener en cuenta que los datos de los pacientes no son estáticos. Se capturarán nuevos datos y se programarán nuevas visitas, lo que aumentará la demanda de almacenamiento. Aquí es donde el almacenamiento desempeña un papel importante en el ámbito de las imágenes médicas. La capacidad de almacenamiento adicional afecta directamente a la cantidad de pacientes que una solución puede admitir de manera efectiva.
Estimación del almacenamiento total de 10 años por paciente | Notas | Almacenamiento estimado | Pacientes por SSD de 61 TB | Pacientes por SSD de 122 TB |
---|---|---|---|---|
Escenario mejorado (varias copias, registros detallados, audio, ampliaciones) | Registros ampliados, imágenes frecuentes y procesamiento | ~ 84 GB | 679 | 1,357 |
Escenario alto (procesamiento intensivo, historial completo) | Necesidades máximas de procesamiento y almacenamiento durante 10 años | ~ 105 GB | 543 | 1,086 |
El Dell PowerEdge XE9680, equipado con aceleradores AMD MI300X e integrado con Healthcare Assistant de Metrum AI, ofrece una solución escalable y eficiente para los proveedores de atención médica. Al automatizar tareas que consumen mucho tiempo y permitir un acceso rápido a información crítica, esta configuración permite a los médicos centrarse más en la atención al paciente mientras gestionan las crecientes demandas. A través de la integración perfecta de componentes de IA en las modalidades de lenguaje, imagen y voz, Healthcare Assistant representa un avance significativo en las soluciones de atención médica impulsadas por IA, ya que reduce las cargas administrativas y mejora los resultados generales de los pacientes.
Conclusión
En el cambiante panorama de la inteligencia artificial empresarial, Dell PowerEdge XE9680 establece un nuevo estándar, al demostrar cómo un hardware diseñado específicamente puede revolucionar diversas industrias. La implementación de Metrum AI Healthcare Assistant muestra una de las innumerables posibilidades: imagine instituciones financieras ejecutando modelos complejos de análisis de riesgos en tiempo real o laboratorios de investigación procesando grandes conjuntos de datos para el descubrimiento de fármacos, todo ello impulsado por este extraordinario sistema.
El XE9680 ofrece una versatilidad excepcional en cuanto a opciones de GPU, desde las H100 de NVIDIA hasta las MI300X de AMD y las Gaudi3 de Intel. Esta flexibilidad, combinada con su sólida capacidad de memoria, opciones de almacenamiento y soluciones de refrigeración innovadoras, lo convierte en algo más que un simple servidor de IA: es una plataforma informática empresarial completa capaz de gestionar las cargas de trabajo más exigentes en diversas aplicaciones, ya sea en el centro de datos o en el consultorio médico.
Desde una perspectiva de almacenamiento, el servidor tiene solo ocho bahías NVMe, pero gracias a Solidigm, podemos usar sus SSD de 61.44 TB para obtener casi medio petabyte en el sistema como espacio de trabajo para el asistente de atención médica que detallamos anteriormente. Si eso no es suficiente, Solidigm acaba de anunciar que ha duplicado la capacidad del D5-P5336 a 122.88 TB, lo que significa que sistemas como este podrían incluir aproximadamente un petabyte de almacenamiento flash adyacente a su acelerador, lo que permite cargas de trabajo de IA eficientes.
La ingeniería de Dell se destaca en cada aspecto del XE9680, desde sus funciones de administración de energía bien pensadas hasta su facilidad de mantenimiento. La capacidad de la plataforma para mantener el funcionamiento incluso durante fallas parciales en el suministro de energía demuestra el profundo conocimiento de Dell sobre los requisitos de inteligencia artificial, donde la confiabilidad del sistema y el funcionamiento continuo son primordiales.
Con el respaldo de la infraestructura de soporte integral de Dell y el compromiso de impulsar las capacidades de inteligencia artificial a través de diversas iniciativas, el PowerEdge XE9680 es un testimonio de la innovación en la informática empresarial. Gracias a su combinación de potencia computacional bruta, flexibilidad arquitectónica y confiabilidad de nivel empresarial, recibió un nuevo premio Best of 2024.
Inteligencia artificial de Metrum
Página del producto Dell XE9680
Interactuar con StorageReview
Boletín informativo | Canal de YouTube | Podcast iTunes/Spotify | @Instagram | Twitter | @TikTok | RSS Feed
Esta reseña fue coescrita por Kevin O'Brien y Divyansh Jain