Revisión del Dell PowerEdge R770: CPU Intel Xeon 6, modularidad OCP DC-MHS, rendimiento impresionante, flexibilidad y preparación para IA en un chasis denso de 2U.
Los servidores Dell PowerEdge serie R7x0 han sido durante mucho tiempo un pilar fundamental en los centros de datos, reconocidos por su excepcional calidad de construcción, diseño inteligente, rendimiento, densidad y fiabilidad en su versátil formato 2U. Estos servidores han evolucionado constantemente para satisfacer las demandas cambiantes. Ahora, con la introducción del Dell PowerEdge R770, la serie da un salto significativo.
TEl R770 presenta la nueva familia de procesadores Xeon 6 de Intel, que incluye los procesadores de núcleo P y E Xeon 6500 y 6700. Esto marca la primera adopción completa por parte de Dell del estándar OCP Data Center Modular Hardware System (DC MHS) en su línea de servidores principal. Juntos, estos dos cambios prometen una evolución significativa en capacidad y filosofía de diseño.
Satisfacer las demandas de los centros de datos modernos
El lanzamiento del R770 llega en un momento en que los centros de datos se enfrentan a una presión creciente. Las cargas de trabajo son cada vez más diversas y exigentes. El crecimiento constante de los datos impulsa la necesidad de análisis y bases de datos robustos. Desde el entrenamiento de modelos complejos hasta la implementación de inferencia en tiempo real, la inteligencia artificial ya no es una aplicación de nicho, sino un motor de negocio fundamental que requiere una gran potencia de procesamiento y aceleración especializada.
Simultáneamente, se presta una gran atención a la eficiencia energética y a la optimización del coste total de propiedad. Además, la industria se inclina cada vez más hacia estándares abiertos para fomentar la innovación, mejorar la interoperabilidad y, potencialmente, reducir la dependencia de un proveedor. El R770, con sus nuevas opciones de procesador y la adopción de OCP DC MHS, está diseñado para abordar estos desafíos de frente.
Procesadores Intel Xeon 6 P-Core
El procesador R770 utiliza procesadores Intel Xeon serie 6, incluyendo las series 6700 y 6500, e incorpora núcleos de rendimiento y eficiencia basados en la plataforma Socket E2 (LGA4710-2). En esta reseña, nos centramos específicamente en las unidades de la serie P.
Intel fabrica estos procesadores con un diseño basado en mosaicos, que combina mosaicos de E/S con uno o dos mosaicos de cómputo. Esto permite la escalabilidad dentro de la serie, con configuraciones que alcanzan hasta 86 núcleos P (XCC) con dos mosaicos de cómputo, y hasta 48 núcleos P (HCC) o 16 núcleos P (LCC) con un solo mosaico de cómputo.
En comparación con los procesadores Sapphire y Emerald Rapids de generaciones anteriores, un diferenciador clave de estos procesadores es la disponibilidad universal de aceleradores integrados en todos los procesadores Xeon 6. Esto incluye la tecnología Intel QuickAssist para criptografía y compresión, Intel Data Streaming Accelerator para la transferencia de datos, Intel In-Memory Analytics Accelerator para la aceleración de bases de datos y análisis, e Intel Dynamic Load Balancer para la eficiencia del procesamiento de red.
La memoria y el ancho de banda de E/S también experimentan mejoras sustanciales. La serie Xeon 6700/6500 de núcleo P admite memoria DDR8 de 5 canales. Además, allana el camino para la memoria DIMM de rango multiplexado (MRDIMM), que ofrece velocidades de hasta 8,800 MT/s. En cuanto a E/S, estos procesadores son compatibles con PCIe 5.0 y CXL 2.0. En configuraciones de doble zócalo, la plataforma puede ofrecer hasta 88 líneas PCIe por zócalo (un total de 176 líneas).
A pesar de la diferenciación entre núcleos P y E, la familia Xeon 6 mantiene la consistencia en los conjuntos de instrucciones, la BIOS, los controladores, la compatibilidad con sistemas operativos y aplicaciones, y las funciones RAS, lo que simplifica la integración y la gestión en diferentes tipos de implementación. Las variantes de núcleo P están diseñadas para cargas de trabajo donde el rendimiento por núcleo, la aceleración de IA, un alto ancho de banda de memoria y una E/S sustancial son primordiales; por ejemplo, bases de datos exigentes, simulaciones de HPC, análisis avanzado y una amplia gama de aplicaciones de IA.
Especificaciones de Dell PowerEdge R770
Especificaciones | Dell PowerEdge R770 |
Procesador | Dos procesadores Intel Xeon 6 con hasta 144 núcleos E o 86 núcleos P por procesador |
Salud Cerebral | 32 ranuras DIMM DDR5, admite RDIMM de 8 TB como máximo, velocidades de hasta 6400 MT/s, solo admite DIMM DDR5 ECC registrados |
Controladores de almacenamiento | Arranque interno: Subsistema de almacenamiento optimizado para arranque (BOSS-N1 DC-MHS): HWRAID 1, 2 SSD NVMe M.2 o placa intercaladora M.2 (DC-MHS): 2 SSD NVMe M.2 o USB, Controladores internos: PERC H965i frontal, PERC H975i frontal, PERC H365i frontal |
Bahías delantera y trasera |
|
Fuentes de alimentación intercambiables en caliente |
|
Opciones de enfriamiento | Refrigeración por aire y refrigeración líquida directa (DLC es una solución de rack y requiere colectores de rack y una unidad de distribución de enfriamiento (CDU) para funcionar) |
Ventiladores | Ventiladores Silver de alto rendimiento (HPR SLVR)/Ventiladores Gold de alto rendimiento (HPR GOLD), hasta 6 ventiladores intercambiables en caliente |
Dimensiones y peso | Altura: 86.8 mm (3.42 pulgadas), Ancho: 482 mm (18.97 pulgadas), Peso: 28.53 kg (62.89 libras), Profundidad (para configuración de E/S trasera): 802.40 mm (31.59 pulgadas) con bisel, 801.51 mm (31.56 pulgadas) sin bisel, Profundidad (para configuración de E/S frontal): 814.52 mm (32.07 pulgadas) sin bisel |
Factor de forma | Servidor en rack 2U |
Gestión integrada | iDRAC, iDRAC Direct, API RESTful de iDRAC con Redfish, CLI de RACADM, Módulo de servicio de iDRAC (iSM), Punto final de NativeEdge, NativeEdge Orchestrator |
Bisel | Bisel de seguridad opcional |
Seguridad | Firmware firmado criptográficamente, cifrado de datos en reposo (SED con administración de claves local o externa), arranque seguro, verificación de componentes seguros (verificación de integridad del hardware), raíz de confianza de silicio, bloqueo del sistema, bloqueo del sistema (requiere iDRAC10 Enterprise o Datacenter), detección de intrusiones en el chasis, TPM 2.0 FIPS, certificación CC-TCG |
Opciones de red |
|
Opciones de GPU | Hasta 6 x 75 W FHHL o hasta 2 x 350 W DWFL |
Puertos | Puertos frontales: 1 puerto USB 2.0 tipo C, 1 puerto USB 2.0 tipo A (opcional), 1 mini-DisplayPort (opcional), 1 puerto serie DB9 (con configuración de E/S frontal), 1 puerto Ethernet dedicado para administración de iDRAC; Puertos traseros: 1 puerto Ethernet dedicado para administración de iDRAC, 1 VGA, 2 puertos USB 3.1 tipo A; Puertos internos: 1 puerto USB 3.1 tipo A |
PCIe |
|
Sistemas operativos e hipervisores | Servidor Ubuntu LTS de Canonical, Microsoft Windows Server con Hyper-V, Red Hat Enterprise Linux, SUSE Linux Enterprise Server, VMware con vSphere |
Dell PowerEdge R770 adopta la modularidad con OCP DC MHS
Fuente del servidor/DC-MHS – OpenComputer
El Dell PowerEdge R770 introduce notables avances y flexibilidad en su diseño físico y arquitectura de componentes, adoptando el estándar del Sistema de hardware modular de centro de datos (OCP DC MHS) del Open Compute Project.
Siguiendo el legado de la serie R7x0, el R770 ofrece amplias opciones de configuración para satisfacer diversas necesidades de implementación. Una importante novedad de esta línea es la posibilidad de elegir entre una configuración tradicional de E/S traseras y una configuración de E/S frontales con acceso por pasillo frío, lo que proporciona mayor flexibilidad para diferentes diseños de centros de datos y requisitos de mantenimiento. Las opciones de almacenamiento son igualmente versátiles, desde nodos centrados en la computación con almacenamiento local mínimo o nulo hasta configuraciones de alta densidad que admiten la impresionante cantidad de 40 unidades E3.S para cargas de trabajo centradas en el almacenamiento.
Para satisfacer la creciente necesidad de computación acelerada, en particular para IA y HPC, el R770 cuenta con robustas capacidades de expansión. Dependiendo de la configuración del chasis y del riser, el servidor puede alojar hasta seis tarjetas PCIe x5 de altura y longitud completa (FHFL) Gen 16. Además, admite la instalación de dos GPU de doble ancho, lo que lo convierte en una plataforma ideal para una amplia gama de tareas. Las ranuras mezzanine OCP 3.0 ofrecen flexibilidad de red, compatibles con tarjetas x8 o x16 según la configuración.
Dell también ha implementado varias mejoras de diseño para mejorar la facilidad de mantenimiento y la fiabilidad. Un ejemplo destacado es la evolución de la tarjeta Boot Optimized Storage Solution (BOSS). Anteriormente conectada mediante cables e integrada en la tarjeta PCIe, la controladora BOSS del R770 ahora se implementa como una tarjeta estandarizada por OCP que se conecta directamente a la placa base, eliminando la complejidad del cableado. Esta nueva controladora BOSS también incorpora unidades NVMe M.2 más rápidas e disipadores térmicos para garantizar temperaturas de funcionamiento y un rendimiento óptimos para los dispositivos de arranque. Otra mejora sutil, pero práctica para los técnicos, es la sustitución de los puentes tradicionales por interruptores DIP más intuitivos para funciones como el borrado de la NVRAM.
El cambio arquitectónico más profundo es la adopción completa del estándar OCP DC MHS. Dell comenzó a incorporar elementos OCP en generaciones anteriores, en particular con la adopción de ranuras para adaptadores de red OCP 3.0. El R770 va mucho más allá. Los componentes clave ahora cumplen con las especificaciones OCP, incluyendo los Módulos de Procesador Host (HPM), comúnmente conocidos como placa base, que incluye componentes como las ranuras verticales, ahora conectores M-XIO. El conector M-XIO proporciona una interfaz estandarizada para tarjetas elevadoras, lo que mejora la flexibilidad y la capacidad de actualización. El iDRAC también se implementa como un DC-SCM (Módulo de Control del Servidor) OCP.
Además, el R770 incorpora el nuevo conector de alimentación PICPWR para conexiones periféricas como GPU y placas base. Este conector es una importante novedad, ya que simplifica el suministro de energía e incorpora monitorización de energía en línea.
Esta profunda integración estandariza las interfaces y los formatos en varios subsistemas. Si bien Dell enfatiza que los usuarios deben usar componentes validados para garantizar la compatibilidad y el soporte, la estandarización subyacente facilita el mantenimiento de muchas piezas y las hace potencialmente intercambiables entre sistemas compatibles en el futuro.
Administración e iDRAC
El Dell PowerEdge R770 se basa en el ya reconocido iDRAC 9, con su amplia gama de funciones, y en la nueva generación de iDRAC 10, que optimiza la administración del sistema mediante una integración fluida con el Módulo de Control Seguro del Centro de Datos (DC-SCM). Esta integración permite optimizar las actualizaciones de firmware y la gestión de la configuración, garantizando operaciones consistentes y escalables en todos los centros de datos. iDRAC 10 también admite funciones avanzadas de automatización y monitorización, lo que permite a los administradores de TI gestionar de forma eficiente implementaciones a gran escala sin comprometer el rendimiento ni la fiabilidad..
La seguridad es un pilar fundamental de las funciones de administración del R770, y Dell implementa robustos mecanismos de verificación de prearranque y arranque. Al aprovechar la tecnología de raíz de confianza basada en silicio, iDRAC 10 garantiza que todo el firmware, incluyendo la BIOS y el iDRAC, se verifique criptográficamente antes de su ejecución. Esta medida de seguridad inmutable basada en hardware protege contra la manipulación de malware y los ataques a la cadena de suministro, proporcionando una base segura para las operaciones del sistema. Además, el R770 incorpora protocolos de arranque de seguridad cuántica para mitigar las amenazas criptográficas emergentes, lo que consolida aún más su papel en la protección de infraestructuras críticas..
El compromiso de Dell con la seguridad de la cadena de suministro se evidencia en el diseño del R770, que emplea un completo proceso de autenticación de cadena de confianza. Cada componente de hardware se somete a una rigurosa verificación mediante firmas criptográficas integradas durante la fabricación. Este proceso garantiza que solo se utilicen firmware y componentes autorizados, lo que mitiga los riesgos asociados con modificaciones no autorizadas o piezas falsificadas.
Bloques de construcción de las fábricas de IA
El R770 se puede solicitar con diversas configuraciones de GPU y chasis, lo que lo convierte en una plataforma versátil para una amplia gama de cargas de trabajo de IA. Esta flexibilidad y sus robustas capacidades de almacenamiento y red lo convierten en una opción atractiva para las organizaciones que implementan soluciones de IA en fábricas de IA. Las fábricas de IA se refieren a la infraestructura y las herramientas necesarias para crear, entrenar e implementar modelos de IA a escala. Estas fábricas son esenciales para el desarrollo de sistemas avanzados como vehículos autónomos y robótica, ya que proporcionan la potencia computacional y los canales de datos necesarios para procesar conjuntos de datos masivos de forma eficiente.
El desarrollo de vehículos autónomos y sistemas robóticos requiere una gran cantidad de datos de entrenamiento que reflejen escenarios reales. Cosmos NIM de NVIDIA representa un avance significativo en este campo, ofreciendo a los desarrolladores un potente conjunto de herramientas para acelerar la creación y el despliegue de sistemas físicos de IA, como los Modelos Fundacionales Mundiales.
Comprensión de los modelos de la Fundación Mundial
Los modelos de fundamentos del mundo (WFM) son redes neuronales sofisticadas que simulan entornos reales y predicen resultados precisos basándose en diversas entradas. A diferencia de los modelos de IA tradicionales centrados en tareas específicas, los WFM comprenden la dinámica del mundo físico, incluyendo la física y las propiedades espaciales.. Pueden generar vídeos a partir de indicaciones de texto, imágenes u otros datos de entrada y al mismo tiempo representar con precisión el movimiento, la fuerza y las relaciones espaciales.
NIMs de NVIDIA Cosmos: un paso hacia modelos fundacionales mundiales
Los NIM Cosmos de NVIDIA son un paso crucial para lograr los Modelos Fundacionales Mundiales. Permiten a las organizaciones y laboratorios de IA generar datos de entrenamiento sintéticos, escalando eficientemente los datos necesarios para entrenar estos modelos de IA. Implementamos... Predicción del cosmos modelo, un modelo generalista que genera estados del mundo a partir de indicaciones de texto o video y sintetiza el movimiento continuo al predecir cuadros.
Estos son algunos resultados interesantes que pudimos obtener con Cosmos con una sola imagen de nuestro laboratorio. Aunque no es perfecto, lo que se puede lograr con una sola imagen es realmente impresionante.
La capacidad del R770 para admitir GPU de alto rendimiento, como la NVIDIA H100, y sus sólidas capacidades de almacenamiento y red lo convierten en una opción atractiva para las organizaciones que buscan implementar soluciones de IA.
Al aprovechar las capacidades del R770, las organizaciones pueden entrenar e implementar eficientemente modelos de IA como Cosmos NIM, acelerando así el desarrollo de vehículos autónomos y sistemas robóticos. El rendimiento y la escalabilidad del R770 lo convierten en una plataforma ideal para gestionar las grandes cantidades de datos necesarias para el entrenamiento de modelos de IA, y su versatilidad le permite soportar una amplia gama de cargas de trabajo de IA.
Almacenamiento directo de GPU
El Almacenamiento Directo en la GPU (GDS) es una tecnología que permite la transferencia directa de datos entre dispositivos de almacenamiento y GPU, sin pasar por la CPU ni por la memoria del sistema. En la transferencia de datos tradicional, los datos se leen del almacenamiento a la memoria de la CPU y luego se copian a la memoria de la GPU. Este proceso implica múltiples copias de datos, lo que aumenta la latencia y reduce el rendimiento. La CPU actúa como un cuello de botella, ya que debe gestionar la transferencia de datos entre el almacenamiento y la GPU. GDS elimina este cuello de botella al permitir que los dispositivos de almacenamiento transfieran datos directamente hacia y desde la memoria de la GPU.
Realizamos un análisis de carga de trabajo GDSIO en un sistema de almacenamiento que consta de 16 unidades, aumentando gradualmente la cantidad de unidades utilizadas para comprender el rendimiento del almacenamiento y su capacidad para saturar una GPU PCIe Gen 5.
El gráfico de lectura GDSIO ilustra cómo el aumento del número de SSD KIOXIA CD8P afecta el rendimiento de lectura agregado y promedio en el r770. Inicialmente, al aumentar el número de unidades de una a cuatro, el rendimiento de lectura agregado aumenta rápidamente, alcanzando aproximadamente 50.2 GiB/s. Esto sugiere que el sistema puede saturar el PCIe Gen 5 x16 con solo tres o cuatro unidades para la carga de datos. Más allá de cinco unidades, el rendimiento agregado se estabiliza, lo que indica que la adición de unidades no mejora significativamente. Mientras tanto, el rendimiento de lectura promedio por unidad se mantiene estable hasta 4 unidades, pero luego disminuye a medida que se añaden más. Esta disminución en el rendimiento por unidad se debe a que más unidades comparten el ancho de banda del bus PCIe disponible, lo que reduce las lecturas individuales de cada unidad.
En cambio, el rendimiento de escritura de estas unidades es mucho menor que el de lectura. Se necesitaron las 16 unidades para alcanzar un ancho de banda de escritura de 46.7 GiB/s, manteniéndose el promedio de escritura prácticamente constante. Dado que estas son las capacidades de escritura más bajas del portafolio KIOXIA CD8, las versiones de alta capacidad u otras unidades SSD PCIe Gen5 tendrán un mejor rendimiento.
Evaluación comparativa del Dell PowerEdge R770
En cuanto a las pruebas de rendimiento, el R770 es el sistema insignia de Dell y, como tal, se implementará en diversos entornos. Por ello, realizamos una serie completa de pruebas de rendimiento para esta plataforma a fin de obtener una idea de su rendimiento en diferentes entornos. El Lenovo ThinkSystem SR630 V4 se comparó en algunas pruebas para mostrar la diferencia entre las CPU de gama alta de núcleo E y núcleo P.
Configuración del Sistema
- UPC: 2x Intel Xeon 6787P (86 núcleos cada uno)
- RAM: 32x Micron 64 GB DDR5 de doble rango 6400 MT/s Memoria total: 2 TB
- Fuentes de alimentación: 2x Delta 1500W
- GPU: 1x NVIDIA H100 para el benchmark TGI, 1x NVIDIA L4 para las pruebas restantes
- Tarjeta de red: Tarjeta de red DELL BRCM 4P 25G SFP 57504S OCP
- Tarjeta BOSS: Discos BOSS-N1 DC-MHS 0 y 1 SK hynix 480 GB Dell NVMe ISE PE9010 RI M.2 480 GB
- Discos: 0-5 pulgadas Placa base 1: Samsung 6.4 TB, Dell NVMe PM1745 MU E3.S 6.4 TB
Rendimiento de la carga de trabajo de IA
Punto de referencia de inferencia de generación de texto
Text Generation Inference (TGI) es un servidor de inferencia LLM de alto rendimiento desarrollado por Hugging Face. Está diseñado para optimizar la implementación y el uso de LLM, lo que lo convierte en la opción ideal para entornos de producción. TGI es compatible con varios LLM de código abierto y ofrece funciones como paralelismo tensorial, transmisión de tokens y procesamiento por lotes continuo, que mejoran su rendimiento y eficiencia.
Inferencia de generación de texto – QwQ 32B
La función de benchmarking de TGI permite evaluar su rendimiento en diferentes configuraciones y cargas de trabajo. Esta función proporciona una representación más precisa del rendimiento real, ya que considera las complejidades de operar con LLM en un entorno de producción.
La generación de texto mediante LLM consta de dos etapas principales: la etapa de prellenado y la etapa de decodificación. La etapa de prellenado es el paso inicial, donde el LLM procesa la solicitud de entrada para generar las representaciones intermedias necesarias. Esta etapa requiere un alto consumo computacional, ya que implica procesar toda la solicitud de entrada en una sola pasada hacia adelante a través del modelo.
Durante la etapa de prellenado, la solicitud de entrada se tokeniza y se convierte a un formato que el LLM puede procesar. A continuación, el LLM calcula la caché KV, que almacena información sobre los tokens de entrada. La caché KV es una estructura de datos esencial que facilita la generación de tokens de salida.
En cambio, la etapa de decodificación es un proceso autorregresivo donde el LLM genera tokens de salida uno a uno, basándose en las representaciones intermedias generadas durante la etapa de prellenado. La etapa de decodificación depende en gran medida de la caché KV generada durante la etapa de prellenado, que proporciona el contexto necesario para generar tokens de salida coherentes y contextualmente relevantes.
Etapa de prellenado
A medida que el tamaño del lote aumenta de 1 a 32, la latencia de los tres modelos aumenta; la latencia de DeepSeek-R1-Distill-Qwen-32 B aumenta de 29.97 ms con un tamaño de lote de 1 a 76.95 ms con un tamaño de lote de 32. De manera similar, la latencia de GEMMA-3-27B-IT y Qwen/QwQ-32B aumenta de 51.84 ms y 29.90 ms a 79.58 ms y 76.30 ms, respectivamente.
En cambio, la tasa de tokens mejora significativamente a medida que aumenta el tamaño del lote. Con un tamaño de lote de 1, las tasas de tokens para los tres modelos oscilan entre 192.95 y 334.46 tokens por segundo. Con un tamaño de lote de 32, las tasas aumentan a 4158.67, 4021.40 y 4194.13 tokens por segundo para DeepSeek-R1-Distill-Qwen-32B, GEMMA-3-27B-IT y Qwen/QwQ-32B, respectivamente.
Tamaño del lote | DeepSeek-R1-Destilar-Qwen-32B | GEMMA-3-27B-IT | Qwen/QwQ-32B | |||
---|---|---|---|---|---|---|
Latencia (ms) | Tasa de token | Latencia (ms) | Tasa de token | Latencia (ms) | Tasa de token | |
1 | 29.97 | 333.64 | 51.84 | 192.95 | 29.90 | 334.46 |
2 | 30.21 | 662.09 | 52.55 | 380.61 | 29.95 | 667.80 |
4 | 32.40 | 1234.72 | 52.62 | 760.12 | 32.12 | 1245.47 |
8 | 36.98 | 2163.46 | 52.66 | 1519.19 | 36.69 | 2180.66 |
16 | 51.63 | 3125.50 | 60.96 | 2624.64 | 51.29 | 3147.61 |
32 | 76.95 | 4158.67 | 79.58 | 4021.40 | 76.30 | 4194.13 |
Etapa de decodificación
A diferencia de la etapa de prellenado, la latencia durante la etapa de decodificación se mantiene relativamente estable en diferentes tamaños de lote. Por ejemplo, la latencia de DeepSeek-R1-Distill-Qwen-32 B oscila entre 27.14 ms y 29.52 ms a medida que el tamaño del lote aumenta de 2 a 32.
La tasa de tokens durante la etapa de decodificación mejora al aumentar el tamaño del lote, aunque no tan drásticamente como durante la etapa de precarga. Con un tamaño de lote de 1, la tasa de tokens ronda los 36-37 tokens por segundo para DeepSeek-R1-Distill-Qwen-32B y Qwen/QwQ-32B, y 33.96 tokens por segundo para GEMMA-3-27B-IT. Con un tamaño de lote de 32, las tasas de tokens aumentan a 1083.83, 873.39 y 1084.89 tokens por segundo, respectivamente.
Tamaño del lote | DeepSeek-R1-Destilar-Qwen-32B | GEMMA-3-27B-IT | Qwen/QwQ-32B | |||
---|---|---|---|---|---|---|
Latencia (ms) | Tasa de token | Latencia (ms) | Tasa de token | Latencia (ms) | Tasa de token | |
1 | 27.24 | 36.71 | 29.45 | 33.96 | 27.24 | 36.71 |
2 | 27.14 | 73.70 | 30.80 | 64.93 | 27.14 | 73.69 |
4 | 27.50 | 145.46 | 31.33 | 127.65 | 27.47 | 145.62 |
8 | 27.91 | 286.61 | 32.54 | 245.83 | 27.90 | 286.78 |
16 | 28.31 | 565.07 | 34.71 | 460.92 | 28.44 | 562.56 |
32 | 29.52 | 1083.83 | 36.64 | 873.39 | 29.50 | 1084.89 |
Esto es como se esperaba, ya que la etapa de prellenado calcula los estados ocultos iniciales y las cachés clave-valor para toda la solicitud de entrada, lo que permite saturar la GPU eficazmente, ya que se pueden ejecutar simultáneamente grandes operaciones por lotes. Tras procesar la solicitud, el modelo genera nuevos tokens, generalmente uno a uno. En cada paso, el modelo toma el token anterior y los estados ocultos almacenados en caché y genera el siguiente token. Dado que esta etapa se ejecuta token a token, el tamaño del lote suele ser pequeño, por lo que la GPU suele estar infrautilizada.
Punto de referencia de visión artificial de Procyon AI
Utilizando tareas de visión artificial del mundo real, el Benchmark de Visión Artificial de Procyon AI evalúa el rendimiento de la inferencia de IA en CPU, GPU y aceleradores de IA. Es compatible con múltiples motores de inferencia como TensorRT, OpenVINO, SNPE, Windows ML y Core ML, lo que proporciona información sobre eficiencia, compatibilidad y optimización.
Los resultados del Benchmark de Visión Artificial de Procyon AI también muestran un excelente rendimiento en inferencia de IA. El sistema logró tiempos de inferencia bajos, con MobileNet V3 de 20.64 ms y ResNet 50 de 22.42 ms. Inception V4 y DeepLab funcionaron a 65.23 ms y 41.37 ms, respectivamente, gestionando cargas de trabajo de visión más complejas con eficacia. YOLO V3, un modelo clave de detección de objetos, procesó en 37.80 ms, lo que lo hace ideal para aplicaciones de IA en tiempo real. REAL-ESRGAN, un modelo de superresolución de alto rendimiento computacional, registró 1,159.22 ms, lo que nos otorgó una puntuación general de 81 en Visión Artificial de IA.
Visión artificial por computadora (cuanto menor sea la duración, mejor) (cuanto mayor sea la puntuación, mejor) | Dell PowerEdge R770 (2 procesadores Intel Xeon 6787P | 2 TB de RAM) |
---|---|
Tiempo medio de inferencia de MobileNet V3 | 20.64 ms |
Tiempo de inferencia promedio de ResNet 50 | 22.42 ms |
Tiempo promedio de inferencia de Inception V4 | 65.23 ms |
Tiempo promedio de inferencia de DeepLab | 41.37 ms |
Tiempo de inferencia promedio de YOLO V3 | 37.80 ms |
Tiempo de inferencia promedio REAL-ESRGAN | 1,159.22 ms |
Puntuación general de visión por computadora de IA | 81 |
Martillo DB TPROC-C
También evaluamos el rendimiento de cuatro bases de datos populares de código abierto (MariaDB 11.4.4, MySQL 8.4.4, MySQL 5.7.44 y PostgreSQL 17.2) utilizando el benchmark HammerDB TPROC-C para simular cargas de trabajo OLTP en 500 almacenes.
MariaDB se destacó como la versión de mayor rendimiento, especialmente en configuraciones de doble socket, donde escaló eficazmente y alcanzó el mayor rendimiento de transacciones. MySQL 8.4.4 mostró mejoras notables con respecto a la versión 5.7.44, destacando las mejoras de las versiones recientes. PostgreSQL 17.2 ofreció un rendimiento consistente, pero quedó ligeramente por debajo de MariaDB y MySQL 8.4.4. MariaDB alcanzó 3.15 millones de TPM en un solo socket y 5.8 millones de TPM en dos sockets, superando al resto en ambos escenarios.
Tabla de comparación de rendimiento (Transacciones por minuto, TPM)
Motor de base de datos | TPM de un solo socket | TPM de doble zócalo |
---|---|---|
MariaDB 11.4.4 | 3,150,000 | 5,800,000 |
MySQL 8.4.4 | 2,850,000 | 5,150,000 |
PostgreSQL 17.2 | 2,700,000 | 4,900,000 |
MySQL 5.7.44 | 2,300,000 | 4,250,000 |
A pesar del potente hardware del R770, que incluye 86 núcleos por CPU (una combinación de núcleos de alta y baja prioridad), ninguna de las bases de datos mostró mejoras significativas de rendimiento al distribuirse entre ambos sockets. Esto refleja la preferencia común de las bases de datos de código abierto por la ejecución en un solo socket debido a una mejor localización de los núcleos y una menor latencia de memoria.
Dados estos resultados, el R770 es más adecuado para ejecutar múltiples instancias de bases de datos en un entorno virtualizado que para escalar una sola instancia. La arquitectura del sistema es ideal para soportar cargas de trabajo de bases de datos mixtas de alta densidad, utilizando núcleos de rendimiento y eficiencia para ofrecer un rendimiento consistente en múltiples instancias.
7-Zip
El punto de referencia de memoria integrado de la popular utilidad 7-Zip mide el rendimiento de la CPU y la memoria de un sistema durante las tareas de compresión y descompresión, indicando qué tan bien puede el sistema manejar operaciones intensivas en datos.
En la prueba de rendimiento 7-Zip, en cuanto a tareas de compresión, el sistema Dell obtuvo una puntuación más alta (266.425 GIPS) que el Lenovo (224.313 GIPS), con un consumo de CPU ligeramente inferior. Sin embargo, Lenovo superó a Dell en descompresión, con una puntuación más alta (288.457 GIPS frente a 256.154 GIPS) y un consumo de CPU ligeramente superior. Dell obtuvo una puntuación total ligeramente superior (261.290 GIPS), lo que demuestra una mayor eficiencia general tanto en tareas de compresión como descompresión.
Compresión de 7 cremalleras y Descompresión | Dell PowerEdge R770 (2 procesadores Intel Xeon 6787P | 2 TB de RAM) | Lenovo ThinkSystem SR630 V4 (2 procesadores Intel Xeon 6780E | 512 GB de RAM) |
---|---|---|
Compresión: uso actual de la CPU | 5267% | 5064% |
Compresión: clasificación actual/uso | 5.061 gips | 4.341 gips |
Compresión – Valoración actual | 266.591 gips | 219.840 gips |
Compresión: uso de CPU resultante | 5270% | 5156% |
Compresión – Calificación/Uso resultante | 5.056 gips | 4.350 gips |
Compresión – Calificación resultante | 266.425 gips | 224.313 gips |
Descomprimiendo – Uso actual de la CPU | 5623% | 6184% |
Descomprimiendo – Valoración actual/Uso | 4.586 gips | 4.688 gips |
Descomprimiendo – Valoración actual | 257.909 gips | 289.879 gips |
Descompresión: uso de CPU resultante | 5627% | 6205% |
Descompresión: calificación/uso resultante | 4.553 gips | 4.649 gips |
Descomprimiendo – Calificación resultante | 256.154 gips | 288.457 gips |
Total – Uso total de CPU | 5448% | 5681% |
Total – Calificación total/uso | 4.804 gips | 4.500 gips |
Total – Calificación total | 261.290 gips | 256.385 gips |
trituradora
y-cruncher es una aplicación popular de evaluación comparativa y pruebas de estrés que se lanzó en 2009. Esta prueba es multiproceso y escalable, y calcula Pi y otras constantes hasta billones de dígitos. En esta prueba, cuanto más rápido, mejor. Este software ha sido fantástico para probar plataformas con un alto número de núcleos y para mostrar ventajas de cómputo entre plataformas de uno y dos conectores.
Los resultados del benchmark Y-Cruncher muestran una diferencia de rendimiento significativa entre el Dell PowerEdge R770, con CPU de núcleo P, y el Lenovo ThinkSystem SR630 V4 con CPU de núcleo E, especialmente a medida que aumenta el tamaño del conjunto de datos. Esto se centra menos en qué sistema es mejor y más en mostrar cómo se comparan los tipos de CPU bajo esta carga de trabajo.
Para cálculos más pequeños, el sistema Dell ya estaba a la cabeza, computando mil millones de dígitos de Pi en 1 segundos, mientras que el Lenovo tardó más del doble, 2.753 segundos. A medida que aumentaba la carga de trabajo, la diferencia se amplió. Con 5.997 mil millones de dígitos, Dell terminó en 10 segundos, menos de la mitad del tiempo de Lenovo (34.873 segundos). Al llegar a los 81.046 mil millones de dígitos, Dell mantuvo su ventaja, completando la tarea en 50 segundos, mientras que Lenovo tardó 221.255 segundos, lo que lo convirtió en un 476.826 % más rápido.
Con 100 mil millones de dígitos, Lenovo no pudo completar la prueba debido a su configuración actual de 512 GB de RAM. Con 2 TB de RAM, Dell gestionó la carga de trabajo eficientemente, completando la prueba en 491.737 segundos.
Y-cruncher (cuanto menor sea la duración, mejor) | Dell PowerEdge R770 (2 procesadores Intel Xeon 6787P | 2 TB de RAM) | Lenovo ThinkSystem SR630 V4 (2 procesadores Intel Xeon 6780E | 512 GB de RAM) |
---|---|---|
1 mil millones | 2.753 segundos | 5.997 segundos |
2.5 mil millones | 7.365 segundos | 17.573 segundos |
5 mil millones | 16.223 segundos | 37.793 segundos |
10 mil millones | 34.873 segundos | 81.046 segundos |
25 mil millones | 99.324 segundos | 220.025 segundos |
50 mil millones | 221.255 segundos | 476.826 segundos |
100 mil millones | 491.737 segundos |
Licuadora OptiX
Una aplicación de modelado 3D de código abierto. Esta prueba se ejecutó con la utilidad Blender Benchmark. La puntuación se expresa en muestras por minuto; cuanto mayor sea, mejor.
Los resultados de Blender muestran una clara ventaja de rendimiento para el Dell PowerEdge R770 sobre el Lenovo ThinkSystem SR630 V4, especialmente en el renderizado de CPU. En la prueba CPU Monster, Dell alcanzó 1,706.002 muestras por minuto, una ventaja del 19 % sobre las 1,432.09 muestras por minuto de Lenovo. La prueba CPU Junkshop acentuó aún más esta diferencia, con el Dell alcanzando 1,169.370 muestras por minuto, superando las 914.75 muestras por minuto de Lenovo en un 28 %. De igual forma, Dell registró 791.475 muestras por minuto en la prueba CPU Classroom, mientras que Lenovo se quedó atrás con 656.68 muestras por minuto, una diferencia del 20 %.
La falta de una GPU en el sistema Lenovo también significó que no podía participar en la renderización basada en GPU, donde NVIDIA L4 de Dell mostró una puntuación de 1,895.71 muestras/min para Monster, 950.42 muestras/min y una puntuación de Classroom de 968.43 muestras/min.
Punto de referencia de la CPU de Blender | Dell PowerEdge R770 (2 procesadores Intel Xeon 6787P | 2 TB de RAM) | Lenovo ThinkSystem SR630 V4 (2 procesadores Intel Xeon 6780E | 512 GB de RAM) |
---|---|---|
Monstruo de la CPU (Blender 4.3) | 1,706.002 muestras/min | 1432.09 muestras/min |
Tienda de chatarra de CPU (Blender 4.3) | 1,169.370 muestras/min | 914.75 muestras/min |
Aula de CPU (Blender 4.3) | 791.475 muestras/min | 656.68 muestras/min |
Monstruo de la GPU (Blender 4.3) | 1,895.712 muestras/min | (sin GPU) |
Tienda de chatarra de GPU (Blender 4.3) | 950.424 muestras/min | (sin GPU) |
Aula de GPU (Blender 4.3) | 968.432 muestras/min | (sin GPU) |
Cinebench R23
La herramienta de referencia Cinebench R23 evalúa el rendimiento de la CPU de un sistema renderizando una escena 3D compleja utilizando el motor Cinema 4D. Mide el rendimiento de un solo núcleo y de varios núcleos, proporcionando una visión integral de las capacidades de la CPU para manejar tareas de renderizado 3D.
En Cinebench R23, los resultados de la prueba comparativa destacan diferencias notables en el rendimiento de la CPU entre el Dell PowerEdge R770 y el Lenovo ThinkSystem SR630 V4, especialmente considerando el número de núcleos por procesador. El Lenovo ThinkSystem SR630 V4, equipado con dos procesadores Intel Xeon 2E (6780 núcleos por procesador), superó al Dell en la prueba de CPU multinúcleo con una puntuación de 144 99,266 puntos, en comparación con los 74,710 288 puntos del Dell. Esta diferencia refleja la ventaja de Lenovo en cargas de trabajo multihilo, gracias a su mayor número de núcleos (2 núcleos en total) en comparación con los dos procesadores Intel Xeon 6787P de Dell (86 núcleos por procesador), lo que limita su rendimiento multinúcleo.
En la prueba de CPU de un solo núcleo, Dell tuvo un mejor desempeño con una puntuación de 1,272 puntos, superando los 894 puntos de Lenovo, lo que resalta la eficiencia superior de un solo subproceso de Dell a pesar de su menor cantidad de núcleos.
Cinebench R23 | Dell PowerEdge R770 (2 procesadores Intel Xeon 6787P | 2 TB de RAM) | Lenovo ThinkSystem SR630 V4 (2 procesadores Intel Xeon 6780E | 512 GB de RAM) |
---|---|---|
CPU multinúcleo | 74,710 pts | 99,266 pts |
CPU de un solo núcleo | 1,272 pts | 894 pts |
Relación MP | 58.74 x | 111.00 x |
Cinebench 2024
Cinebench 2024 amplía las capacidades de referencia de R23 al agregar evaluación del rendimiento de la GPU. Continúa probando el rendimiento de la CPU pero también incluye pruebas que miden la capacidad de la GPU para manejar tareas de renderizado.
En esta prueba de rendimiento actualizada, el Dell PowerEdge R770 obtuvo 12,996 630 puntos en rendimiento de GPU, lo que destaca su capacidad para gestionar tareas de renderizado aceleradas por GPU. El Lenovo ThinkSystem SR4 VXNUMX no cuenta con una GPU dedicada, por lo que no registró ninguna puntuación de GPU.
En la prueba de CPU multinúcleo, Lenovo obtuvo 2,884 puntos, ligeramente por encima de los 2,831 puntos de Dell, lo que indica una ligera ventaja en rendimiento multinúcleo para Lenovo. En la prueba de CPU de un solo núcleo, Dell superó a Lenovo, con 71 puntos, en comparación con los 53 de Lenovo, lo que demuestra el mayor rendimiento de Dell en un solo núcleo a pesar de tener menos núcleos.
Cinebench R24 | Dell PowerEdge R770 (2 procesadores Intel Xeon 6787P | 2 TB de RAM) | Lenovo ThinkSystem SR630 V4 (2 procesadores Intel Xeon 6780E | 512 GB de RAM) |
---|---|---|
Puntuación GPU | 12,996 pts | |
CPU multinúcleo | 2,831 pts | 2,884 pts |
CPU de un solo núcleo | 71 pts | 53 pts |
Relación MP | 39.77 x | 54.43 x |
Geekbench 6
Geekbench 6 es un benchmark multiplataforma que mide el rendimiento general del sistema. El navegador Geekbench te permite comparar cualquier sistema con él.
Los resultados de Geekbench 6 muestran diferencias de rendimiento evidentes entre el Dell PowerEdge R770 y el Lenovo ThinkSystem SR630 V4. En la prueba de CPU de un solo núcleo, el Dell superó al Lenovo con una puntuación de 1,797, mientras que este último obtuvo 1,173, lo que indica una mejora del 53 % en el rendimiento de un solo núcleo del Dell.
En la prueba de CPU Multi-Core, Dell volvió a liderar con 15,880, mientras que Lenovo obtuvo 13,868, lo que le otorga a Dell una ventaja del 14% en rendimiento multinúcleo. Esto sugiere que los procesadores Intel Xeon 6787P de Dell ofrecen una potencia computacional general superior, especialmente en tareas que se benefician de múltiples núcleos.
La prueba GPU OpenCL destacó aún más la ventaja de Dell, con una puntuación de 148,730 gracias a la GPU NVIDIA L4.
Geekbench 6 (cuanto más alto, mejor) | Dell PowerEdge R770 (2 procesadores Intel Xeon 6787P | 2 TB de RAM) | Lenovo ThinkSystem SR630 V4 (2 procesadores Intel Xeon 6780E | 512 GB de RAM) |
---|---|---|
CPU de un solo núcleo | 1,797 | 1,173 |
CPU multinúcleo | 15,880 | 13,868 |
Puntuación de GPU OpenCL | 148,730 | (sin GPU) |
Prueba de velocidad Blackmagic RAW
La prueba de velocidad Blackmagic RAW es una herramienta de evaluación comparativa de rendimiento diseñada para medir las capacidades de un sistema en el manejo de la reproducción y edición de video utilizando el códec Blackmagic RAW. Evalúa qué tan bien un sistema puede decodificar y reproducir archivos de video de alta resolución, proporcionando velocidades de cuadro para el procesamiento basado en CPU y GPU.
En la prueba basada en CPU, el Dell PowerEdge R770 alcanzó 141 FPS, superando al Lenovo ThinkSystem SR630 V4, que obtuvo 120 FPS. Esto indica que el sistema Dell gestiona el procesamiento de vídeo basado en CPU con mayor eficiencia que el Lenovo. En la prueba basada en GPU, el Dell PowerEdge R770 alcanzó 157 FPS, gracias a la presencia de una GPU NVIDIA.
Prueba de velocidad de Blackmagic RAW (cuanto más alta, mejor) | Dell PowerEdge R770 (2 procesadores Intel Xeon 6787P | 2 TB de RAM) | Lenovo ThinkSystem SR630 V4 (2 procesadores Intel Xeon 6780E | 512 GB de RAM) |
---|---|---|
CPU de FPS | 141 FPS | 120 FPS |
FPS CUDA | 157 FPS | 0 FPS (sin GPU) |
Prueba de velocidad de disco de Blackmagic
La prueba de velocidad de disco de Blackmagic evalúa la velocidad de lectura y escritura de una unidad y estima su rendimiento, especialmente para tareas de edición de video. Ayuda a los usuarios a garantizar que su almacenamiento sea lo suficientemente rápido para contenido de alta resolución, como videos 4K u 8K.
En la prueba de velocidad de Blackmagic, la tarjeta madre Dell PowerEdge R770 con Dell NVMe SK hynix de 480 GB reflejado logró una velocidad de lectura de 3,010.3 MB/s y una velocidad de escritura de 976.3 MB/s.
Conclusión
El Dell PowerEdge R770 nos entusiasma enormemente, impulsado por su adopción del estándar del Sistema de Hardware Modular para Centros de Datos (MCHS) del Proyecto Open Compute y su hardware de vanguardia. La integración de OCP DC MHS ofrece numerosas ventajas, como una mayor modularidad, mayor facilidad de mantenimiento y una posible reducción de costes gracias a una mayor estandarización. Esta filosofía de diseño se refleja en todos los aspectos del sistema, desde la implementación de iDRAC como OCP DC-SCM hasta los puertos.
El R770 también cuenta con impresionantes capacidades de almacenamiento, con soporte para hasta 40 unidades E3.S en un solo chasis 2U, lo que lo convierte en la solución ideal para cargas de trabajo con uso intensivo de almacenamiento. Además, la flexibilidad del servidor se ve reforzada por su compatibilidad con diversas configuraciones, incluyendo una configuración de acceso por pasillo frío de E/S frontales, que proporciona mayor flexibilidad para diferentes diseños de centros de datos y requisitos de mantenimiento.
Compatible con una amplia gama de GPU y CPU Intel Xeon 6 Performance Core, el R770 es una plataforma de servidor potente y versátil, ideal para satisfacer las demandas de los centros de datos modernos. Su hardware de vanguardia, diseño modular y robustas funciones de seguridad lo convierten en una opción atractiva para organizaciones que buscan implementar IA, HPC y cargas de trabajo empresariales tradicionales.
Interactuar con StorageReview
Boletín | canal de YouTube | Podcast iTunes/Spotify | Instagram | Twitter | @TikTok | RSS Feed