En el Open Compute Project de este año, Toshiba anunció el lanzamiento de su nuevo software en torno a NVMe over Fabrics (NVMe-oF), KumoScale. KumoScale está diseñado para maximizar los beneficios de rendimiento de las unidades NVMe de conexión directa en la red del centro de datos a través de la desagregación, la abstracción y la integración de la gestión. El software trae los SSD NVMe que ya son de alto rendimiento al permitir que los nodos de cómputo sin disco (con solo una unidad de arranque) accedan a este almacenamiento flash a través de conectividad de red de estructuras de alta velocidad. Este tipo de conexión llevará el almacenamiento en red a un rendimiento casi máximo.
En el Open Compute Project de este año, Toshiba anunció el lanzamiento de su nuevo software en torno a NVMe over Fabrics (NVMe-oF), KumoScale. KumoScale está diseñado para maximizar los beneficios de rendimiento de las unidades NVMe de conexión directa en la red del centro de datos a través de la desagregación, la abstracción y la integración de la gestión. El software trae los SSD NVMe que ya son de alto rendimiento al permitir que los nodos de cómputo sin disco (con solo una unidad de arranque) accedan a este almacenamiento flash a través de conectividad de red de estructuras de alta velocidad. Este tipo de conexión llevará el almacenamiento en red a un rendimiento casi máximo.
Si bien este software se puede usar en cualquier plataforma de sistema x86 estándar, para nuestra revisión estamos aprovechando el servidor de nodo dual Newisys NSS-1160G-2N. La plataforma Newisys NSS-1160G-2N está optimizada para el modelo de servicio de hiperescala con intercambio en caliente de unidades NVMe, rendimiento equilibrado de la red a las unidades, servicio basado en FRU de pasillo frío, alimentación y refrigeración redundantes, así como otras escalas clave. los requisitos del centro de datos. Nuestro servidor presenta almacenamiento a través de dos tarjetas Mellanox de 100 G con SSD NVMe Toshiba 8x en un nodo, el segundo nodo se usa con fines de administración. La generación de carga provendrá de un solo Dell PowerEdge R740xd que está directamente conectado a Newisys a través de dos NIC Mellanox ConnectX-100 de 5 G. El Newisys puede contener hasta 16 placas de servidor NVMe y dual Xeon en su factor de forma compacto de 1U y está optimizado para una latencia más baja y un rendimiento más alto con unidades de conexión directa, aunque el servidor es un poco más largo de lo que estamos acostumbrados en nuestros racks. .
KumoScale tiene varios otros beneficios sobre los SSD tradicionales de conexión directa. Los usuarios que aprovechan NVMe-oF necesitan menos nodos para alcanzar aún más poder de cómputo y almacenamiento. Tener menos nodos significa que se pueden administrar mejor y reducir costos. Parte de la reducción en los costos sería a través de la eliminación del almacenamiento y la potencia de cómputo varados. KumoScale utiliza API tranquilas para integrarse con múltiples marcos de orquestación; lo más interesante es que funciona con Kubernetes. Esto permitirá que aquellos que aprovechan Kubernetes para el almacenamiento de contenedores lo hagan con un rendimiento mucho mayor, con la cantidad justa de almacenamiento aprovisionado. Además de Kubernetes, KumoScale también funciona con OpenStack, Lenovo XClarity e Intel RSD.
Gestionamiento
Como un poco destacado, KumoScale viene con una GUI bastante sencilla e intuitiva. Por lo general, este tipo de solución se controla a través de la CLI (y, de hecho, varios aspectos aún lo estarán). En la pestaña del tablero, los usuarios pueden ver fácilmente el rendimiento del almacenamiento, la capacidad del sistema y el estado del hardware, y pueden profundizar un poco en el estado de SSD individual.
La siguiente pestaña es la pestaña de red que muestra la disponibilidad y el estado del enlace de los controladores, junto con el tipo, la velocidad, la dirección MAC y la MTU.
La pestaña de almacenamiento se divide en cuatro subpestañas. La primera subpestaña son los SSD físicos. Aquí los usuarios pueden ver las unidades por su nombre, si están disponibles o no, sus números de serie, su capacidad, el uso de su grupo y el porcentaje de vida restante.
La siguiente subpestaña en grupos de almacenamiento virtualizados. Esta subpestaña es similar a la anterior con el nombre, la disponibilidad, la capacidad, así como el espacio disponible, el SSD físico desde el que se virtualiza y su destino.
La siguiente subpestaña, Destinos, amplía los destinos anteriores y muestra el almacenamiento virtualizado expuesto al host, incluidos los volúmenes de grupo.
La subpestaña final en almacenamiento es la pestaña de iniciadores. Esta pestaña proporciona el nombre, el alias (en este caso, Dell) y el número de accesos de los iniciadores. El usuario puede otorgar control de acceso (ACL) para el par objetivo-iniciador.
La siguiente pestaña principal es Rendimiento de almacenamiento. Aquí los usuarios pueden ver una lectura del rendimiento, IOPS y latencia durante un período de tiempo determinado.
Y, por último, llegamos al rendimiento de la red, que también brinda a los usuarios un desglose de las métricas de rendimiento, el ancho de banda y los paquetes durante un tiempo determinado.
Performance
Análisis de carga de trabajo de VDBench
Cuando se trata de comparar matrices de almacenamiento, las pruebas de aplicaciones son las mejores y las pruebas sintéticas ocupan el segundo lugar. Si bien no son una representación perfecta de las cargas de trabajo reales, las pruebas sintéticas ayudan a los dispositivos de almacenamiento de referencia con un factor de repetibilidad que facilita la comparación de manzanas con manzanas entre las soluciones de la competencia. Estas cargas de trabajo ofrecen una gama de diferentes perfiles de prueba que van desde pruebas de "cuatro esquinas", pruebas comunes de tamaño de transferencia de bases de datos, así como capturas de seguimiento de diferentes entornos VDI. Todas estas pruebas aprovechan el generador de cargas de trabajo vdBench común, con un motor de secuencias de comandos para automatizar y capturar resultados en un gran clúster de pruebas informáticas. Esto nos permite repetir las mismas cargas de trabajo en una amplia gama de dispositivos de almacenamiento, incluidos arreglos flash y dispositivos de almacenamiento individuales. En el lado del arreglo, usamos nuestro clúster de servidores Dell PowerEdge R740xd:
perfiles:
- Lectura aleatoria 4K: 100 % de lectura, 128 subprocesos, 0-120 % de iorate
- Escritura aleatoria 4K: 100 % de escritura, 64 subprocesos, 0-120 % de iorate
- Lectura secuencial de 64 K: 100 % de lectura, 16 subprocesos, 0-120 % de iorate
- Escritura secuencial de 64 K: 100 % de escritura, 8 subprocesos, 0-120 % de iorate
- Base de datos sintética: SQL y Oracle
- Trazas de clones vinculados y clones completos de VDI
En el rendimiento máximo de lectura de 4K, Newisys con KumoScale (denominado "el nodo de almacenamiento" durante el resto de esta revisión, ya que es el único dispositivo que se analiza) tuvo un rendimiento inferior al milisegundo durante toda la prueba, alcanzando un máximo de 2,981,084 260 XNUMX IOPS con un latencia de XNUMXμs.
En el rendimiento máximo de escritura de 4K, el nodo de almacenamiento alcanzó un máximo de 1,926,637 226 XNUMX IOPS con una latencia de XNUMX μs.
Al cambiar a una lectura máxima de 64 213,765, el nodo de almacenamiento tuvo un rendimiento máximo de 13.36 441 IOPS o XNUMX GB/s con una latencia de XNUMX μs.
Para una escritura pico secuencial de 64K, el nodo de almacenamiento alcanzó 141,454 8.83 IOPS o 432 GB/s con una latencia de XNUMX μs.
En nuestra carga de trabajo de SQL, el nodo de almacenamiento alcanzó un máximo de 1,361,815 179 XNUMX IOPS con una latencia de XNUMX μs.
En la evaluación comparativa de SQL 90-10, vimos un rendimiento máximo de 1,171,467 210 XNUMX IOPS con una latencia de solo XNUMX μs.
El punto de referencia de SQL 80-20 mostró que el nodo de almacenamiento alcanzó un rendimiento máximo de 987,015 248 IOPS con una latencia de XNUMX μs.
Con Oracle Workload, el nodo de almacenamiento tuvo un rendimiento máximo de 883,894 280 IOPS con una latencia de XNUMX μs.
Oracle 90-10 mostró un rendimiento máximo de 967,507 176 IOPS con una latencia de XNUMX μs.
En Oracle 80-20, el nodo de almacenamiento pudo alcanzar 829,765 204 IOPS con una latencia de XNUMX μs.
A continuación, cambiamos a nuestra prueba de clonación de VDI, completa y vinculada. Para VDI Full Clone Boot, el nodo de almacenamiento alcanzó un máximo de 889,591 261 IOPS con una latencia de XNUMX μs.
El inicio de sesión inicial de VDI Full Clone vio que el nodo de almacenamiento alcanzó un pico de 402,840 562 IOPS con una latencia de XNUMX μs.
El inicio de sesión de VDI Full Clone Monday mostró un rendimiento máximo de 331,351 369 IOPS y una latencia de XNUMX μs.
Pasando a VDI Linked Clone, la prueba de arranque mostró un rendimiento máximo de 488,484 234 IOPS y una latencia de XNUMX μs.
En el perfil de Linked Clone VDI que mide el rendimiento del inicio de sesión inicial, el nodo de almacenamiento alcanzó un máximo de 194,781 318 IOPS con una latencia de XNUMX μs.
En nuestro último perfil, analizamos el rendimiento del inicio de sesión de lunes de clones vinculados de VDI. Aquí, el nodo de almacenamiento alcanzó un máximo de 247,806 498 IOPS con una latencia de XNUMX μs.
Conclusión
Diseñado para maximizar el rendimiento del almacenamiento en bloque, el software KumoScale agrupa SSD NVMe para ofrecer la cantidad correcta de capacidad e IOPS que pueden compartir miles de instancias de trabajo a través de NVMe-oF. Esto brinda a los usuarios de la nube más flexibilidad, escalabilidad y eficiencia. Si bien KumoScale se puede usar en varias opciones de hardware diferentes para crear el nodo de almacenamiento (Toshiba recomienda Intel Xeon CPU E5-2690 v4 a 2.30 GHz o equivalente y 64 GB de DRAM), usamos el servidor de nodo dual Newisys NSS-1160G-2N. NVMe-oF no solo llevará el almacenamiento a un rendimiento casi máximo, KumoScale también funciona con múltiples marcos de orquestación, incluidos Kubernetes, OpenStack, Lenovo XClarity e Intel RSD.
El sistema Newisys impulsado por Toshiba KumoScale sin duda puede traer el trueno en términos de rendimiento. En ninguna parte el nodo de almacenamiento estuvo cerca de romper 1 ms, la latencia más alta fue de 562 μs en el inicio de sesión inicial de VDI FC. Algunos aspectos destacados incluyen casi alcanzar los 3 millones de IOPS en lectura 4K, casi 2 millones en escritura 4K, 1.3 millones de IOPS en la carga de trabajo de SQL, 1.1 millones de IOPS en SQL 90-10 y casi 1 millón en SQL 80-20. Para un rendimiento secuencial de 64K, el nodo de almacenamiento alcanzó 13.36 GB/s de lectura y 8.83 GB/s de escritura.
Si bien no hay duda de que el rendimiento es astronómico, poner KumoScale en contexto realmente lo hace brillar. La latencia y el rendimiento son mucho mejores a través de esta plataforma que otras plataformas que no son NVMe-oF. La latencia es más cercana a la del rendimiento del almacenamiento local, que es exactamente lo que busca el protocolo NVMe-oF y lo que requieren las aplicaciones que estos sistemas están posicionados. Sin embargo, el rendimiento a escala de este sistema es lo que realmente debería importar. Analizamos el rendimiento de 8 SSD en un nodo de almacenamiento, donde los sistemas de producción tendrían múltiples nodos de almacenamiento, cada uno con sus propios grupos de almacenamiento. El rendimiento en ese escenario previsto hace que las métricas de arreglos de almacenamiento tradicionales salgan del agua con facilidad, lo que convierte a KumoScale en un cambio de juego cuando se trata de arreglos NVMe-oF. Toshiba lo ha hecho extremadamente bien en la entrega de eficiencias de rendimiento con KumoScale e incluso tiene una GUI para evaluación y desarrollo. Junto con el chasis Newisys, esta solución seguramente tendrá éxito en los grandes centros de datos que pueden hacer uso de los beneficios de rendimiento y latencia que ofrece el software Toshiba KumoScale.
Suscríbase al boletín de StorageReview