Noi della comunità IT spesso siamo ossessionati dai cavalli da spettacolo, i dispositivi o i sistemi più veloci e/o potenti, perché amiamo quei numeri grandi e piccoli che mettono in mostra. La realtà, tuttavia, è che la maggior parte degli utenti semplicemente non ha bisogno della potenza ostentata dei cavalli da esposizione. Loro hanno bisogno cavalli da lavoro, sistemi in grado di gestire carichi di lavoro reali su base giornaliera a un prezzo accessibile. Abbiamo dedicato molto tempo all'analisi delle offerte di infrastruttura iperconvergente (HCI) di DataON e abbiamo anche dato il DataON HCI-224 con SSD Intel® Optane™ La scelta del nostro redattore premio lo scorso anno. In questo articolo esamineremo un altro cluster HCI-224 a due nodi. Tuttavia, questo presenta un mix unico di storage: SSD Intel Optane front-end Intel® SSD D5-P4326 da 15.36 TB con QLC 3D NAND, creando un sistema che ottimizza capacità, prestazioni e costi.
Noi della comunità IT spesso siamo ossessionati dai cavalli da spettacolo, i dispositivi o i sistemi più veloci e/o potenti, perché amiamo quei numeri grandi e piccoli che mettono in mostra. La realtà, tuttavia, è che la maggior parte degli utenti semplicemente non ha bisogno della potenza ostentata dei cavalli da esposizione. Loro hanno bisogno cavalli da lavoro, sistemi in grado di gestire carichi di lavoro reali su base giornaliera a un prezzo accessibile. Abbiamo dedicato molto tempo all'analisi delle offerte di infrastruttura iperconvergente (HCI) di DataON e abbiamo anche dato il DataON HCI-224 con SSD Intel® Optane™ La scelta del nostro redattore premio lo scorso anno. In questo articolo esamineremo un altro cluster HCI-224 a due nodi. Tuttavia, questo presenta un mix unico di storage: SSD Intel Optane front-end Intel® SSD D5-P4326 da 15.36 TB con QLC 3D NAND, creando un sistema che ottimizza capacità, prestazioni e costi.
Prima di addentrarci in questo cluster, tuttavia, discuteremo del motivo per cui DataON ha scelto QLC per il suo livello di capacità di storage e forniremo un'analisi di Microsoft Azure Stack HCI, DataON e cluster HCI a due nodi.
SSD Intel® serie D5-P4326
L'utilizzo dell'SSD Intel D5-P4326 basato su QLC per lo storage della capacità in questo cluster HCI è una scelta logica, poiché offre prestazioni solide, affidabili ed economicamente vantaggiose. Abbiamo sicuramente visto SSD più veloci, ma l'SSD D5-P4326 trova il giusto equilibrio tra prestazioni e costi, con un'enorme capacità di 15.36 TB per unità. Questa combinazione è dovuta alla sua architettura sottostante. Utilizzando la tecnologia Intel® QLC 3D NAND, Intel è in grado di ridurre il costo di questo dispositivo, aumentandone al tempo stesso la capacità.
Intel è stato uno dei primi fornitori di storage a realizzare unità basate su QLC. La tecnologia QLC o cella a quattro livelli memorizza quattro bit di dati su una singola cella, mentre le tecnologie più vecchie come TLC, MLC e SLC memorizzano solo tre, due o un bit per cella. Grazie allo storage a densità più elevata QLC, sono in grado di avere un costo inferiore per GB di spazio di archiviazione. Inoltre, la tecnologia 3D NAND di Intel consente a queste celle di essere impilate orizzontalmente sul chip, aumentando ulteriormente la densità di archiviazione. Esiste però un compromesso. Per sfruttare in modo efficace l'SSD Intel SSD D5-P4326, i carichi di lavoro di scrittura devono essere bufferizzati prima di entrare nell'unità basata su QLC. Gli SSD QLC sono ideali per carichi di lavoro con capacità ottimizzata e carichi di lettura intensivi. Pertanto, piattaforme come un cluster HCI devono utilizzare un dispositivo cache appropriato davanti agli SSD QLC per fornire prestazioni uniformi. Nel caso del DataON HCI-224, per nodo vengono utilizzate quattro unità Intel Optane SSD DC P4800X NVMe 750 GB da 2.5 pollici per assorbire le scritture prima di spostare i dati nel livello QLC. Questo approccio impedisce che scritture eccessive causino un degrado delle prestazioni del livello QLC. Il risultato netto è che i clienti ottengono un'esperienza fluida e una combinazione ideale di prestazioni basate su Intel Optane e capacità basata su QLC.
Microsoft Azure Stack HCI
In breve, Microsoft Azure Stack HCI è un'implementazione locale dei servizi cloud di Microsoft Azure. Fondamentalmente, Microsoft ha portato la tecnologia HCI esistente nella famiglia Azure Stack in modo che i clienti possano eseguire applicazioni virtualizzate in locale con accesso diretto ai servizi di gestione di Azure come backup e ripristino di emergenza.
Azure Stack HCI non deve essere confuso con Azure o Azure Stack Hub. Mentre Azure è un servizio cloud pubblico, Azure Stack Hub e Azure Stack HCI sono soluzioni locali. Inoltre, Azure Stack Hub esegue il sistema operativo Azure con i servizi di Azure ed è una soluzione IaaS e PaaS. Azure Stack HCI, d'altro canto, esegue il sistema operativo Windows Server con i servizi di Azure e consente di eseguire carichi di lavoro virtualizzati nello stesso modo a cui sei abituato, con l'ulteriore vantaggio di potersi connettere al cloud di Azure per servizi aggiuntivi. Si tratta di un'enorme differenza e consente agli amministratori IT di utilizzare su Azure Stack HCI gli stessi strumenti e stack di gestione che utilizzano con Azure.
Azure Stack HCI usa Hyper-V per l'hypervisor, Storage Spaces Direct per l'archiviazione, Microsoft Software Defined Networking (SDN) per la rete e Windows Admin Center (WAC) per la gestione. Azure Stack HCI viene eseguito su server x86 standard e altri componenti di base.
WAC è una piattaforma di gestione basata su browser distribuita localmente in grado di gestire istanze sia locali che basate su cloud di Azure di Windows 10 e Windows Server. WAC è installato su un sistema Windows e utilizza gli script PowerShell. Utilizza inoltre Microsoft Windows Management Framework (WMF) su WinRM (gestione remota di Windows) per monitorare e gestire i sistemi Windows, inclusi i cluster HCI e le macchine virtuali di Azure.
Il dashboard principale di WAC offre una panoramica di CPU, memoria, rete e attività del disco per i sistemi monitorati. Sul lato sinistro dello schermo, WAC include anche una serie di strumenti di gestione e navigazione del sistema tra cui certificati, dispositivi, eventi, file, utenti e gruppi locali, firewall, processi, registro, ruoli e funzionalità, servizi e archiviazione.
DataON è stata una delle prime aziende a sfruttare il framework aperto di WAC e a trasferire la sua estensione Management Utility Software Tool (MUST) su WAC. DataON MUST fornisce visibilità, monitoraggio e gestione dell'infrastruttura per HCI, rete e storage basati su server Windows.
DataON HCI
Sebbene Azure Stack HCI utilizzi componenti hardware di base, questi elementi devono essere progettati per funzionare insieme per fornire risultati ottimali. In un certo senso, è più semplice progettare sistemi ad alte prestazioni rispetto a sistemi a cavallo di battaglia. Con i sistemi ad alte prestazioni è possibile selezionare i componenti migliori e ignorare i costi. Ma con i cavalli da lavoro, è necessario valutare il rapporto costo/prestazioni dei componenti e quindi metterli a punto per ottimizzarne le prestazioni. Ci vuole altrettanto, se non di più, impegno ingegneristico per fornire un sistema orientato al valore, e questo sistema l'ingegneria è il luogo in cui continuiamo a rimanere colpiti da DataON.
DataON ha una forte partnership sia con Microsoft che con Intel e ha sfruttato queste relazioni durante la progettazione di sistemi per Azure Stack HCI. Le soluzioni HCI Intel Select di DataON possono essere preconfigurate e spedite nel proprio rack, pronte per l'implementazione immediata. Questo metodo di distribuzione non è utile solo nei data center, ma si rivela vantaggioso anche per i sistemi distribuiti all'edge dove l'infrastruttura IT e il personale esistenti sono limitati o inesistenti.
Cluster HCI a 2 nodi
Recentemente abbiamo fatto un articolo sui cluster di nodi Microsoft Azure Stack HCI 2 (2NC). Di seguito è riportato un riepilogo di tale articolo. Abbiamo scoperto che un 2NC potrebbe, per molti casi d’uso, fornire la resilienza necessaria per un’organizzazione e che i 2NC sono meno complessi e costosi di un tradizionale cluster a tre o quattro nodi. DataON è stato uno dei primi fornitori a riconoscere il valore e ad abbracciare l'integrazione di 2NC. Ma i 2NC non sono una novità per DataON, poiché nel settembre del 2017 DataON ha annunciato i primi due disponibili in commercio Kepler-47HCI per i sistemi Windows Server 2016 Storage Spaces Direct (ora Azure Stack HCI).
L'implementazione 2NC di DataON supporta il verificarsi simultaneo di guasti dell'unità e del server. Lo fa utilizzando RAID 5 + 1 per eseguire la resilienza di parità e rispecchiarla sull'altro server. Microsoft chiama questa capacità "resilienza annidata" e l'ha aggiunta a Storage Spaces Direct in Windows Server 2019. Anche in questo caso, 2NC non rappresenta la scelta tecnologica giusta per tutti, ma può fornire una soluzione affidabile ed economica a molte organizzazioni.
Costruire e disegnare
Il cluster Azure Stack HCI con cui stiamo lavorando qui è stato creato sulla piattaforma NVMe all-flash DataON HCI-224. Questi server erano di dimensioni 2U con alloggiamenti da 24 NVMe nella parte anteriore, offrendo molta espansione nella parte posteriore per i componenti basati su PCIe. L'etichettatura era in alto in contrasto con i caddy delle unità in nero opaco, rendendo facile individuare unità specifiche in caso di sostituzione necessaria. Tutto era etichettato, il che non è così raro, ma la portata dell’etichettatura era straordinaria. Nella nostra implementazione ciascun nodo era etichettato (1 e 2), oltre a numerosi altri elementi, semplificando l'implementazione e la gestione dei sistemi DataON nel data center.
I nodi in questo test includevano dual 2nd Processori Intel® Xeon® Scalable Gold 6248 da 2.5 GHz, 20-core, cache da 28 MB, nonché otto RDIMM Samsung DDR32 da 4 GB a 2933 MHz registrati ECC (256 GB in totale per nodo) e doppie unità di avvio Intel S4510 SATA M.480 da 2 GB.
Per l'archiviazione, ogni nodo è stato fornito con quattro unità SSD Intel Optane DC P4800X NVMe da 750 GB da 2.5" (utilizzate per la memorizzazione nella cache) e quattro unità QLC Intel SSD D5-P4326 da 15.36 TB da 2.5" (livello di archiviazione della capacità).
I nodi sono stati collegati tra loro tramite schede Mellanox ConnectX-4 EN a doppia porta QSFP28 40/56 GbE utilizzando cavi passivi in rame QSFP 3M Mellanox LinkX ETH 40GbE, 40Gb/s.
Ovviamente, DataON ha dedicato molto tempo e riflessioni alla configurazione e alla selezione dei componenti di questo sistema per bilanciare prestazioni e costi. Eravamo molto interessati a vedere come si sarebbero comportati gli SSD Intel SSD D5-P4326 come livello di archiviazione. Combinando gli SSD Intel Optane e gli SSD Intel QLC 3D NAND, gli SSD D5-P4326 dovrebbero fornire un livello ad alte prestazioni e uno storage flash conveniente, che in passato era dominio di dischi rigidi lenti ma di grandi dimensioni.
Nel lab StorageReview abbiamo distribuito i due nodi e switch di storage come illustrato di seguito.
Testing
Per avere un'idea di come un piccolo cluster come questo può funzionare in un caso d'uso edge, abbiamo configurato diversi test di Microsoft SQL Server. L'obiettivo era esaminare le prestazioni complete del cluster per garantire che DataON potesse utilizzare correttamente la tecnologia Intel Optane e gli SSD Intel QLC. In secondo luogo, volevamo esaminare le capacità di un solo nodo, per avere un'idea di come questa soluzione gestisce la perdita di un nodo, sia per aggiornamenti pianificati che in caso di guasto più grave.
Il nostro piano di test ha sfruttato Benchmark Factory di Quest utilizzando il profilo TPC-C come generatore di carico per le VM SQL Server che abbiamo distribuito. Abbiamo configurato otto VM (quattro per nodo), che offrivano un buon equilibrio tra attività della CPU e del disco per il cluster. I generatori di carico di lavoro erano ospitati su un sistema esterno a questo ambiente e connessi a questo cluster tramite rete 10GbE.
Configurazione di test di SQL Server (per VM)
- Di Windows Server 2019
- Impronta di archiviazione: 800 GB allocati, 620 GB utilizzati
- 8 vCPU
- 60 GB di RAM (55 GB in configurazione in modalità non riuscita)
- SQL Server 2019
- Dimensioni del database: scala 1,500
- Carico del client virtuale: 15,000
- Memoria RAM: 48 GB
- Durata della prova: 3 ore
- Precondizionamento di 15 minuti
- Periodo di campionamento di 45 minuti
Nei nostri test ci siamo concentrati sulle prestazioni di latenza, mantenendo il livello di prestazioni delle transazioni costante con Benchmark Factory.
Con un carico di 4 VM totali (2 per nodo), abbiamo misurato una latenza media di 2.5 ms con un carico di transazioni aggregato di 12,649 TPS.
Aumentando il carico a 6 VM, la latenza media è aumentata leggermente fino a 4 ms con un carico di transazioni aggregato di 18,967 TPS.
Al carico di picco di 8 VM (4 per nodo), la latenza ha raggiunto una media di 6.5 ms, con un carico di transazioni aggregato di 25,277.
Nel corso di questi test, abbiamo visto chiaramente il vantaggio di avere gli SSD Optane in questo mix. Hanno preso il peso delle scritture, liberando gli SSD QLC per letture reattive come livello di capacità ad alta velocità. Anche se abbiamo raddoppiato il carico di lavoro portandolo a otto VM SQL Server in questo cluster HCI, la latenza è aumentata solo leggermente, dimostrando che questa configurazione è adatta per carichi di lavoro che possono aumentare di tanto in tanto.
Sebbene le prestazioni in un ambiente completamente operativo siano importanti, un'altra considerazione è come funzioneranno i carichi di lavoro se un nodo nel cluster va offline o se i carichi di lavoro devono essere migrati per la manutenzione del sistema. Per testare questo scenario, abbiamo mantenuto il carico completo di 8 VM e le abbiamo migrate su un singolo nodo. In questa configurazione abbiamo misurato una latenza media di soli 4.5 ms, migliore di quella di entrambi i nodi online. Parte di ciò deriva dalla rimozione del sovraccarico di archiviazione nelle operazioni a nodo singolo.
Conclusione
Per questo progetto, abbiamo eseguito una serie di test SQL sul sistema per illustrare i carichi di lavoro prestazionali che si trovano comunemente nei casi d'uso edge e SMB. Il nostro obiettivo era comprendere con quanta efficacia Microsoft Azure Stack HCI in questo cluster DataON fosse in grado di sfruttare l'hardware per ottenere i risultati desiderati. Nello specifico, ciò significa fornire una soluzione che offra una rara combinazione di prestazioni e valore.
Possiamo confermare attraverso i nostri test che la selezione dei componenti di DataON è riuscita effettivamente a creare una soluzione SDS Azure Stack HCI economicamente vantaggiosa che funziona estremamente bene. Ciò è in parte dovuto alla scelta di utilizzare l'SSD Intel D5-P4326 per l'archiviazione della capacità, che sfrutta in modo efficiente gli SSD Intel Optane per il tiering.
Si tratta di un concetto fondamentale, poiché gli SSD QLC forniscono una capacità massiccia e densa al cluster, pur garantendo i vantaggi in termini di TCO derivanti dallo storage flash. Per ribadire il punto, le unità QLC consentono 15.36 TB di capacità per alloggiamento per unità da 2.5”. Sarebbero necessari 8 HDD da 2TB in RAID 0 per eguagliare la capacità, o passare a uno chassis da 3.5" per sfruttare HDD più grandi, ma anche più lenti. In ogni caso, il calo di prestazioni dall'unità Intel QLC ai dischi rigidi è più che considerevole; si tratta di una differenza esponenziale quando si tratta di reattività delle applicazioni.
Per quanto vorremmo che tutte le letture e le scritture provenissero dagli SSD Optane (poiché sono i supporti con le prestazioni più elevate in questa configurazione), a volte ci sarà un errore. In tal caso, le prestazioni dell’SSD QLC supereranno i dischi rigidi, proteggendo il cluster HCI dalle irregolarità prestazionali comuni nelle topologie che combinano flash e dischi rigidi. In effetti, abbiamo riscontrato prestazioni così equilibrate che, in futuro, le aziende in generale potrebbero dover ripensare la progettazione HDD/flash e orientarsi maggiormente verso la progettazione QLC/Optane per ottenere i maggiori vantaggi dall'HCI.
L'altra preoccupazione principale relativa ai cluster a 2 nodi riguarda le prestazioni quando si trovano in uno stato degradato. Lo abbiamo testato verificando il guasto di un nodo e assegnando tutto il carico di lavoro SQL a un singolo nodo. In questo caso, SQL è stato più reattivo e ha funzionato leggermente meglio rispetto a 2 nodi, principalmente a causa del sovraccarico ridotto dalle comunicazioni da nodo a nodo. Naturalmente, non è consigliabile funzionare a lungo in uno stato degradato come questo, ma è rassicurante sapere che è possibile farlo senza sacrificare le prestazioni.
Nel complesso, il cluster HCI HCI-224 con SSD QLC D5-P4326 era semplice da implementare, facile da usare e sufficientemente potente per un'ampia gamma di carichi di lavoro. Il suo prezzo lo rende inoltre disponibile a un'ampia fascia di utenti. Inoltre, questo sistema è stato certificato per Microsoft Windows Server 2019 e convalidato come soluzione Intel Select.
Interagisci con StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | RSS feed
Questo rapporto è sponsorizzato da DataON. Tutti i pareri e le opinioni espressi in questo rapporto si basano sulla nostra visione imparziale dei prodotti in esame.