En la comunidad de TI, a menudo nos obsesionamos con los caballos de exhibición, los dispositivos o sistemas más rápidos y/o más potentes, porque nos encantan los números grandes y pequeños que muestran. La realidad, sin embargo, es que la mayoría de los usuarios simplemente no necesitan el poder ostentoso de los caballos de exhibición. Necesitan caballos de batalla, sistemas que pueden servir cargas de trabajo reales en el día a día a un precio asequible. Hemos pasado bastante tiempo analizando las ofertas de infraestructura hiperconvergente (HCI) de DataON, e incluso dimos la DataON HCI-224 con SSD Intel® Optane™, nuestra elección del editor premio el año pasado. En este artículo, veremos otro clúster de dos nodos HCI-224. Sin embargo, este presenta una combinación única de almacenamiento: Intel Optane SSD frontal Intel® SSD D5-P4326 de 15.36 TB con QLC 3D NAND, lo que crea un sistema que optimiza la capacidad, el rendimiento y el costo.
En la comunidad de TI, a menudo nos obsesionamos con los caballos de exhibición, los dispositivos o sistemas más rápidos y/o más potentes, porque nos encantan los números grandes y pequeños que muestran. La realidad, sin embargo, es que la mayoría de los usuarios simplemente no necesitan el poder ostentoso de los caballos de exhibición. Necesitan caballos de batalla, sistemas que pueden servir cargas de trabajo reales en el día a día a un precio asequible. Hemos pasado bastante tiempo analizando las ofertas de infraestructura hiperconvergente (HCI) de DataON, e incluso dimos la DataON HCI-224 con SSD Intel® Optane™, nuestra elección del editor premio el año pasado. En este artículo, veremos otro clúster de dos nodos HCI-224. Sin embargo, este presenta una combinación única de almacenamiento: Intel Optane SSD frontal Intel® SSD D5-P4326 de 15.36 TB con QLC 3D NAND, lo que crea un sistema que optimiza la capacidad, el rendimiento y el costo.
Sin embargo, antes de profundizar en este grupo, primero discutiremos por qué DataON optó por QLC para su nivel de capacidad de almacenamiento y brindaremos una revisión de Microsoft Azure Stack HCI, DataON y clústeres HCI de dos nodos.
Serie Intel® SSD D5-P4326
El uso de Intel SSD D5-P4326 basado en QLC para almacenamiento de capacidad en este clúster de HCI es una opción lógica, ya que ofrece un rendimiento sólido, confiable y rentable. Seguro que hemos visto SSD más rápidas, pero la SSD D5-P4326 encuentra el equilibrio perfecto entre rendimiento y costo, con una enorme capacidad de 15.36 TB por unidad. Esta combinación se debe a su arquitectura subyacente. Al utilizar la tecnología Intel® QLC 3D NAND, Intel puede reducir el costo de este dispositivo y, al mismo tiempo, aumentar su capacidad.
Intel fue uno de los primeros proveedores de almacenamiento en fabricar unidades basadas en QLC. La tecnología QLC o celda de cuatro niveles almacena cuatro bits de datos en una sola celda, mientras que la tecnología más antigua, como TLC, MLC y SLC, solo almacena tres, dos o un bit por celda. Debido al almacenamiento de mayor densidad de QLC, pueden tener un menor costo por GB de almacenamiento. Además, la tecnología 3D NAND de Intel permite que estas celdas se apilen horizontalmente en el chip, aumentando aún más la densidad de almacenamiento.
Sin embargo, hay un compromiso. Para aprovechar de manera efectiva el SSD Intel SSD D5-P4326, las cargas de trabajo de escritura deben almacenarse en búfer antes de ingresar a la unidad basada en QLC. Los SSD QLC son ideales para cargas de trabajo de lectura intensiva y capacidad optimizada. Como tal, las plataformas como un clúster HCI necesitan usar un dispositivo de caché adecuado frente a los SSD QLC para ofrecer un rendimiento uniforme. En el caso del DataON HCI-224, Se utilizan cuatro unidades Intel Optane SSD DC P4800X NVMe de 750 GB y 2.5” por nodo para absorber las escrituras antes de mover los datos a la capa QLC. Este enfoque evita que las escrituras excesivas provoquen una degradación del rendimiento de la capa de QLC. El resultado neto es que los clientes obtienen una experiencia perfecta y una combinación ideal de rendimiento basado en Intel Optane con capacidad basada en QLC.
Microsoft Azure Stack HCI
En resumen, Microsoft Azure Stack HCI es una implementación local de Microsoft Azure Cloud Services. Básicamente, Microsoft incorporó su tecnología HCI existente a la familia Azure Stack para que sus clientes puedan ejecutar aplicaciones virtualizadas en las instalaciones con acceso directo a los servicios de administración de Azure, como copia de seguridad y recuperación ante desastres.
Azure Stack HCI no debe confundirse con Azure o Azure Stack Hub. Mientras que Azure es un servicio de nube pública, Azure Stack Hub y Azure Stack HCI son soluciones locales. Además, Azure Stack Hub ejecuta Azure OS con Azure Services y es una solución IaaS y PaaS. Azure Stack HCI, por otro lado, ejecuta Windows Server OS con Azure Services y le permite ejecutar cargas de trabajo virtualizadas de la misma manera en que está acostumbrado, con el beneficio adicional de poder conectarse a la nube de Azure para obtener servicios adicionales. Esta es una gran diferencia y permite a los administradores de TI usar las mismas herramientas y pila de administración en Azure Stack HCI que usan con Azure.
Azure Stack HCI usa Hyper-V para su hipervisor, Storage Spaces Direct para almacenamiento, Microsoft Software Defined Networking (SDN) para redes y Windows Admin Center (WAC) para su administración. Azure Stack HCI se ejecuta en servidores x86 estándar y otros componentes básicos.
WAC es una plataforma de administración basada en navegador implementada localmente que puede administrar instancias locales y basadas en la nube de Azure de Windows 10 y Windows Server. WAC está instalado en un sistema Windows y utiliza scripts de PowerShell. También utiliza Microsoft Windows Management Framework (WMF) sobre WinRM (administración remota de Windows) para monitorear y administrar los sistemas de Windows, incluidos los clústeres de HCI y las máquinas virtuales de Azure.
El tablero principal de WAC brinda una descripción general de la CPU, la memoria, las redes y la actividad del disco para los sistemas que se están monitoreando. En el lado izquierdo de la pantalla, WAC también incluye una serie de herramientas de exploración y gestión del sistema, incluidos certificados, dispositivos, eventos, archivos, usuarios y grupos locales, cortafuegos, procesos, registro, funciones y características, servicios y almacenamiento.
DataON fue una de las primeras empresas en aprovechar el marco abierto de WAC y portó su extensión Management Utility Software Tool (MUST) a WAC. DataON MUST proporciona visibilidad, monitoreo y administración de infraestructura para HCI, redes y almacenamiento basados en servidor de Windows.
Datos ON HCI
Aunque Azure Stack HCI usa componentes de hardware estándar, estos elementos deben diseñarse para que funcionen juntos a fin de ofrecer resultados óptimos. De alguna manera, es más fácil diseñar sistemas de alto rendimiento que sistemas de caballo de batalla. Con los sistemas de alto rendimiento, puede seleccionar los mejores componentes e ignorar el costo. Pero con los caballos de batalla, debe evaluar el costo/rendimiento de los componentes y luego ajustarlos para optimizar su rendimiento. Se necesita tanto, si no más, esfuerzo de ingeniería para ofrecer un sistema orientado al valor, y este sistema ingeniería es donde seguimos impresionados con DataON.
DataON tiene una sólida asociación con Microsoft e Intel, y capitalizaron estas relaciones cuando diseñaron sistemas para Azure Stack HCI. Las soluciones HCI Intel Select de DataON se pueden preconfigurar y enviar en su propio rack, listas para implementarse de inmediato. Este método de entrega no solo es útil en el centro de datos, sino que también resulta beneficioso para los sistemas implementados en el borde donde la infraestructura de TI y el personal existentes son limitados o inexistentes.
Clústeres HCI de 2 nodos
Recientemente hicimos un artículo sobre clústeres de nodos de Microsoft Azure Stack HCI 2 (2NC). A continuación se muestra un resumen de ese artículo. Descubrimos que un 2NC podría, para muchos casos de uso, proporcionar la resiliencia necesaria para una organización y que los 2NC son menos complejos y costosos que un clúster tradicional de tres o cuatro nodos. DataON fue uno de los primeros proveedores en reconocer el valor y adoptar la integración de 2NC. Pero los 2NC no son nuevos para DataON, ya que en septiembre de 2017, DataON anunció los dos primeros disponibles comercialmente Kepler-47 HCl para sistemas Windows Server 2016 Storage Spaces Direct (ahora Azure Stack HCI).
La implementación de 2NC de DataON admite fallas en la unidad y en el servidor al mismo tiempo. Lo hace mediante el uso de RAID 5 + 1 para hacer la resiliencia de paridad y duplicar eso en el otro servidor. Microsoft llama a esta capacidad "resiliencia anidada" y agregó esta capacidad a Storage Spaces Direct en Windows Server 2019. Nuevamente, 2NC no es la opción de tecnología adecuada para todos, pero puede proporcionar una solución confiable y rentable para muchas organizaciones.
Construcción y Diseño
El clúster HCI de Azure Stack con el que estamos trabajando aquí se creó en la plataforma NVMe todo flash DataON HCI-224. Estos servidores tenían un tamaño de 2U con bahías de 24 NVMe en la parte delantera, lo que ofrecía una gran expansión en la parte trasera para los componentes basados en PCIe. El etiquetado era alto en contraste con los caddies de unidades de color negro mate, lo que facilitaba la detección de unidades específicas en caso de que fuera necesario cambiarlas. Todo estaba etiquetado, lo cual no es raro, pero el alcance del etiquetado fue extraordinario. Nuestra implementación tenía cada nodo etiquetado (1 y 2), así como varios otros elementos, lo que facilita la implementación y administración de los sistemas DataON en el centro de datos.
Los nodos en esta prueba incluyeron dual 2nd Procesadores Gen Intel® Xeon® Scalable Gold 6248 de 2.5 GHz, 20 núcleos y 28 MB de caché, así como ocho RDIMM registrados en ECC Samsung de 32 GB DDR4 a 2933 MHz (256 GB en total por nodo) y dos unidades de arranque Intel S4510 de 480 GB SATA M.2.
Para el almacenamiento, cada nodo venía con cuatro unidades Intel Optane SSD DC P4800X NVMe de 750 GB y 2.5" (utilizadas para el almacenamiento en caché) y cuatro unidades Intel SSD D5-P4326 de 15.36 TB y 2.5" QLC (nivel de almacenamiento de capacidad).
Los nodos se conectaron entre sí a través de tarjetas Mellanox ConnectX-4 EN de doble puerto QSFP28 40/56 GbE utilizando cables de cobre pasivos 3M Mellanox LinkX ETH 40GbE, 40Gb/s, QSFP.
Obviamente, DataON dedicó una buena cantidad de tiempo y reflexión con respecto a la configuración y la selección de componentes de este sistema para equilibrar el rendimiento y el costo. Estábamos muy interesados en ver cómo se desempeñarían los SSD Intel SSD D5-P4326 como nivel de almacenamiento. Al combinar los SSD Intel Optane y los SSD Intel QLC 3D NAND, los SSD D5-P4326 deberían proporcionar un nivel de alto rendimiento y un almacenamiento flash rentable, que solía ser el dominio de los discos duros lentos pero grandes.
En el laboratorio de StorageReview, implementamos los dos nodos de almacenamiento y conmutadores como se muestra en el diagrama a continuación.
Pruebas
Para tener una idea de cómo un clúster pequeño como este puede funcionar en un caso de uso perimetral, configuramos varias pruebas de Microsoft SQL Server. El objetivo era examinar el rendimiento completo del clúster para garantizar que DataON pudiera hacer un uso adecuado de la tecnología Intel Optane y las SSD Intel QLC. En segundo lugar, queríamos examinar las capacidades de un solo nodo para tener una idea de cómo esta solución maneja la pérdida de un nodo, ya sea para actualizaciones planificadas o en caso de una falla más grave.
Nuestro plan de prueba aprovechó Benchmark Factory de Quest utilizando el perfil TPC-C como generador de carga para las máquinas virtuales de SQL Server que implementamos. Configuramos ocho máquinas virtuales (cuatro por nodo), que ofrecían un buen equilibrio de actividad de disco y CPU para el clúster. Los generadores de carga de trabajo se alojaron en un sistema fuera de este entorno y se conectaron a este clúster a través de una red de 10 GbE.
Configuración de prueba de SQL Server (por VM)
- Windows Server 2019
- Huella de almacenamiento: 800 GB asignados, 620 GB utilizados
- 8 CPU virtuales
- 60 GB de RAM (55 GB en configuración de modo fallido)
- SQL Server 2019
- Tamaño de la base de datos: escala 1,500
- Carga de clientes virtuales: 15,000
- Búfer RAM: 48GB
- Duración de la prueba: 3 horas
- 15 minutos de preacondicionamiento
- Período de muestra de 45 minutos
En nuestras pruebas nos enfocamos en el desempeño de la latencia, con el nivel de desempeño de la transacción permaneciendo constante con Benchmark Factory.
Con una carga de 4 VM en total (2 por nodo), medimos una latencia promedio de 2.5 ms con una carga de transacción agregada de 12,649 XNUMX TPS.
Al aumentar la carga a 6 VM, la latencia promedio aumentó ligeramente a 4 ms con una carga de transacción agregada de 18,967 XNUMX TPS.
En la carga máxima de 8 VM (4 por nodo), la latencia alcanzó un promedio de 6.5 ms, con una carga de transacciones agregada de 25,277 XNUMX.
A lo largo de estas pruebas, vimos claramente el beneficio de tener SSD Optane en esta combinación. Se llevaron la peor parte de las escrituras, liberando los SSD QLC para lecturas receptivas como el nivel de capacidad de alta velocidad. Incluso cuando duplicamos la carga de trabajo a ocho máquinas virtuales de SQL Server en este clúster de HCI, la latencia aumentó solo un poco, lo que demuestra que esta configuración es adecuada para las cargas de trabajo que pueden explotar de vez en cuando.
Si bien el rendimiento en un entorno completamente operativo es importante, otra consideración es cómo funcionarán las cargas de trabajo si un nodo en el clúster se desconecta o es necesario migrar las cargas de trabajo para el mantenimiento del sistema. Para probar este escenario, mantuvimos nuestra carga completa de 8 VM y las migramos a un solo nodo. En esta configuración, medimos una latencia promedio de solo 4.5 ms, que fue mejor que la de ambos nodos en línea. Parte de esto se debe a la eliminación de la sobrecarga de almacenamiento en la operación de un solo nodo.
Conclusión
Para este proyecto, ejecutamos una serie de pruebas de SQL en el sistema para ilustrar las cargas de trabajo de rendimiento que se encuentran comúnmente en los casos de uso de borde y SMB. Nuestro objetivo era comprender la eficacia con la que Microsoft Azure Stack HCI en este clúster de DataON podía aprovechar el hardware para lograr los resultados deseados. Específicamente, esto significa proporcionar una solución que ofrezca una rara combinación de rendimiento y valor.
Podemos confirmar a través de nuestras pruebas que la selección de componentes de DataON tuvo éxito en la creación de una solución SDS Azure Stack HCI rentable que funciona extremadamente bien. Esto se debe en parte a su elección de utilizar la SSD Intel D5-P4326 para el almacenamiento de capacidad, que aprovecha de manera eficiente las SSD Intel Optane para la organización en niveles.
Esta es una noción crítica, ya que los SSD QLC brindan una capacidad masiva y densa al clúster, al mismo tiempo que brindan los beneficios de TCO que vienen con el almacenamiento flash. Para remachar el punto, las unidades QLC permiten 15.36 TB de capacidad por bahía de unidad de 2.5". Se necesitarían 8 discos duros de 2 TB en RAID 0 para igualar la capacidad, o cambiar a un chasis de 3.5" para aprovechar los discos duros más grandes, pero incluso más lentos. De cualquier manera, la caída del rendimiento de la unidad Intel QLC a las unidades de disco duro es más que considerable; es una diferencia exponencial cuando se trata de la capacidad de respuesta de la aplicación.
Por mucho que nos gustaría que todas las lecturas y escrituras provengan de los SSD de Optane (ya que son los medios de mayor rendimiento en esta configuración), a veces habrá errores. En ese caso, el rendimiento de la SSD QLC superará a los discos duros, protegiendo el clúster HCI de las irregularidades de rendimiento comunes en las topologías que combinan flash y discos duros. De hecho, vimos un rendimiento tan equilibrado aquí que, en el futuro, es posible que las empresas en general deban repensar el diseño de HDD/flash e inclinarse más hacia el diseño QLC/Optane para obtener la mayor cantidad de beneficios en HCI.
La otra gran preocupación en torno a los clústeres de 2 nodos es el rendimiento en un estado degradado. Probamos esto al fallar un nodo y asignamos toda la carga de trabajo de SQL a un solo nodo. En este caso, SQL respondió mejor y funcionó un poco mejor que en 2 nodos, principalmente debido a la reducción de la sobrecarga de las comunicaciones de nodo a nodo. Por supuesto, no se sugiere ejecutar en un estado degradado como este por mucho tiempo, pero es reconfortante saber que se puede hacer sin sacrificar el rendimiento.
En general, el clúster HCI-224 HCI con SSD D5-P4326 QLC fue simple de implementar, fácil de usar y lo suficientemente potente para una amplia gama de cargas de trabajo. Su precio también lo pone a disposición de una amplia franja de usuarios. Además, este sistema ha sido certificado para Microsoft Windows Server 2019 y validado como Intel Select Solution.
Interactuar con StorageReview
Boletín informativo | Canal de YouTube | Podcast iTunes/Spotify | @Instagram | Twitter | Facebook | RSS Feed
Este informe está patrocinado por DataON. Todos los puntos de vista y opiniones expresados en este informe se basan en nuestra visión imparcial de los productos bajo consideración.