Recentemente abbiamo completato un progetto in stile analisi dei dati che ci ha lasciato con a File di output da 100 TB. Anche se disponiamo di ampio spazio di archiviazione in tutto il nostro laboratorio, conservare un file da 100 TB per sempre comporta una serie di sfide uniche. Inoltre, non abbiamo realmente “bisogno” del file, ma preferiremmo conservarlo, se possibile. Il cloud è ovviamente adatto a questa esigenza, ma il tempo per trasferire così tanti dati via cavo è immenso, quindi abbiamo deciso di provare i dispositivi AWS Snowball Edge. L'obiettivo: trasferire i nostri dati dal laboratorio di Cincinnati a un bucket S3 nella regione AWS us-east-2 il più velocemente possibile.
Recentemente abbiamo completato un progetto in stile analisi dei dati che ci ha lasciato con a File di output da 100 TB. Anche se disponiamo di ampio spazio di archiviazione in tutto il nostro laboratorio, conservare un file da 100 TB per sempre comporta una serie di sfide uniche. Inoltre, non abbiamo realmente “bisogno” del file, ma preferiremmo conservarlo, se possibile. Il cloud è ovviamente adatto a questa esigenza, ma il tempo per trasferire così tanti dati via cavo è immenso, quindi abbiamo deciso di provare i dispositivi AWS Snowball Edge. L'obiettivo: trasferire i nostri dati dal laboratorio di Cincinnati a un bucket S3 nella regione AWS us-east-2 il più velocemente possibile.
Cosa sono i dispositivi AWS Snowball Edge?
Prima di approfondire troppo l'attività di migrazione dei dati, è necessaria una breve introduzione sui dispositivi AWS Snowball Edge. AWS Snow Family è una raccolta di servizi appositamente creati. Questi servizi eseguono carichi di lavoro ad alta intensità di calcolo archiviando i dati in edge location per connettività di rete negata, interrotta, intermittente o limitata (DDIL) e per il trasferimento di grandi quantità di dati da ambienti locali e robusti o mobili. I dispositivi AWS Snowball Edge sono robusti, portatili e sicuri e offrono funzioni ottimizzate per lo storage o per il calcolo. Questi dispositivi sono progettati per aiutare i clienti a spostarsi (su AWS) o elaborare grandi quantità di dati in modo sicuro ed efficiente, anche in luoghi remoti o disconnessi.
I dispositivi Snowball Edge sono disponibili in due versioni: Snowball Edge Storage Optimized, che stiamo utilizzando qui, e Snowball Edge Compute Optimized. La versione ottimizzata per l'archiviazione è progettata per casi d'uso di trasferimento dati e archiviazione e viene fornita con una capacità di archiviazione fino a 80 TB. La versione ottimizzata per il calcolo è destinata ai casi d'uso di elaborazione dati e calcolo e viene fornita con un massimo di 104 CPU virtuali e 416 GB di RAM. C'è anche un'opzione per un sistema ottimizzato per il calcolo per includere una GPU. Per quelli con esigenze di dati più modeste, c'è anche una piccola Snow Family ultraportatile, denominata AWS Snowcone.
Entrambe le versioni di Snowball Edge dispongono di funzionalità di sicurezza integrate, come involucri anti-manomissione, crittografia a 256 bit e chip TPM (Trusted Platform Module) per garantire l'integrità e la riservatezza dei dati. Inoltre, i dispositivi Snowball Edge possono essere configurati per eseguire funzioni AWS Lambda, istanze Amazon EC2 e altri servizi AWS sull'edge, consentendo ai clienti di eseguire l'elaborazione e l'analisi dei dati in locale prima di trasferire i dati ad AWS.
Nel nostro caso d'uso, i dispositivi Snowball Edge forniscono ai clienti un modo veloce, sicuro e flessibile per trasferire ed elaborare grandi quantità di dati in vari ambienti, comprese posizioni remote o disconnesse.
Processo di ordinazione di AWS Snowball
Per i professionisti AWS esperti, il processo di ordinazione di Snowball è semplice. Anche per i neofiti come me, sono riuscito a seguire i passaggi con un piccolo aiuto utile da parte dei nostri amici AWS che ci hanno guidato durante il processo.
Il passaggio 1 consiste nel dare un nome al tuo lavoro e scegliere il tipo di lavoro per il tuo dispositivo Snow. Il nostro compito era semplicemente trasferire i dati su S3, ma i dispositivi Snow possono anche esportare dati da S3. Possono anche essere utilizzati come soluzioni puntuali per offrire elaborazione locale, archiviazione e GPU a una edge location.
Il passaggio 2 continua ad essere semplice, con la selezione del dispositivo Snow. Nel nostro caso, abbiamo selezionato l'unità Snowball Edge Storage Optimized, con 80TB disponibili. Sono disponibili varie opzioni di prezzo per AWS Snowball. È disponibile un'opzione di prezzo per l'utilizzo giornaliero oppure AWS Snowball sconta significativamente i prezzi (fino al 62%) per l'utilizzo di 1 anno e gli impegni di utilizzo di 3 anni. Con queste offerte a lungo termine, paghi in anticipo per utilizzare i dispositivi Snowball a una tariffa scontata ed eviti di pagare eventuali costi di servizio aggiuntivi o tariffe giornaliere fino al termine del periodo prepagato. Puoi iscriverti per ottenere un prezzo anticipato nella console AWS Snow Family quando ordini un dispositivo Snowball.
Infine, scegli le istanze EC2 e i bucket S3 necessari per l'importazione. Questo era un account nuovo, quindi abbiamo creato un nuovo bucket S3. Inoltre non avevamo bisogno di alcun EC2 per questo, ma alla fine è successo eseguire il sideload di un'istanza EC2 in un secondo momento per divertirti un po'
La fase 3 offre alcune funzionalità aggiuntive, come AWS IoT Greengrass for Snow opzionale e un'opzione per la gestione remota dei dispositivi.
Il passaggio 4 riguarda le preferenze di sicurezza, spedizione e notifica. Qui abbiamo utilizzato la crittografia predefinita e creato il ruolo del servizio suggerito per consentire ad AWS di gestire i dati. Da lì, aggiunge il tuo indirizzo e seleziona la spedizione in uno o due giorni. Puoi anche aggiungere qui notifiche e-mail, sebbene la console AWS mostri tutti i progressi mentre il lavoro procede attraverso il sistema.
L'ultimo passaggio è la convalida di tutte le informazioni inserite e l'invio. Questo crea il lavoro e quindi inizia il processo di evasione da parte di AWS. Abbiamo seguito il processo con AWS piuttosto lentamente, desiderando comprendere tutte le opzioni. Anche al nostro ritmo disinvolto, l’intero processo ha richiesto circa 10 minuti. Un percorso più aggressivo richiederebbe di ordinare un dispositivo Snow in 2-3 minuti al massimo.
All'epoca pensavamo che avremmo avuto bisogno di due dispositivi Snowball Edge. In retrospettiva, ne avevamo bisogno solo uno. Anche il processo per clonare questo lavoro è molto semplice e bastano solo un paio di clic in più per sommare alcune palle di neve per set di dati più grandi.
Da qui, è un gioco di attesa poiché il processo di evasione funziona attraverso il sistema. Poiché si trattava di un account nuovo di zecca, abbiamo segnalato alcuni errori ordinando subito due dispositivi Snowball Edge. Ma per gli account con attività non dovrebbero esserci tali verifiche. Gli Snowball sono comparsi nel giro di pochi giorni e abbiamo deciso di preparare i nostri dati per il trasporto.
Una cosa da considerare con Snowball è il prezzo. È previsto un compenso per il lavoro, che include dieci giorni di permanenza dell'unità in loco. Naturalmente, ci sono tariffe per il cloud in S3 una volta che i dati arrivano anche lì. Sebbene il prezzo per Snowball non sia complicato, varia in base al sistema selezionato, al tempo in cui ne hai bisogno e alla regione in cui ti trovi. Nel nostro caso, la tariffa del lavoro era di $ 300 per Snowball, e anche quello potrebbe essere abbassato drasticamente con contratti a lungo termine. Puoi, tuttavia, avere un'idea dei prezzi di Snowball; AWS ha una tabella che espone tutto.
Preparazione dei dati
Abbiamo iniziato con un file di testo da 100 TB, ma chiunque abbia esperienza su S3 saprà che è un problema. S3 ha un limite di dimensione oggetto di 5 TB, il che significa che dovevamo fare qualcosa per il nostro singolo file non conforme. La nostra risposta è stata quella di tagliarlo a pezzi e vedere se potevamo ottenere allo stesso tempo qualche vantaggio in termini di compressione. La speranza era di poter arrivare a una singola unità Snowball, che arriva a 80 TB utilizzabili. Mentre aspettavamo l'arrivo di Snowball Edge, abbiamo iniziato a preparare i dati.
Abbiamo usato il nostro preferito applicazione per lavorare con grandi numeri, y-cruncher, che include un'utilità di visualizzazione, divisione e compressione delle cifre. A causa della limitazione delle dimensioni degli oggetti di S3, abbiamo deciso di dividere tutti i 100 trilioni di cifre del Pi in 200 file. Dopo la compressione, abbiamo ottenuto una dimensione del file di circa 191 GB, contenente ciascuno 500,000,000,000 (500 miliardi) di cifre.
Configurazione AWS Snowball
Con i dati preparati e il dispositivo Snowball in mano, abbiamo acceso la prima unità per metterla online. Configurare Snowball è molto semplice, dandogli potenza e accesso alla rete; abbiamo optato per la porta 10GbE. Molti sceglieranno di utilizzare la CLI per interfacciarsi con Snowball, che è probabilmente il metodo preferito. Tuttavia, per motivi visivi e desiderando un'esperienza da un punto di vista professionale non AWS, abbiamo optato per AWS OpsHub per Snow Family.
AWS OpsHub per Snow Family è uno strumento intuitivo che aiuta i clienti a gestire i propri dispositivi Snow Family e i servizi AWS locali. Gli utenti possono sbloccare e configurare dispositivi, trasferire file, avviare e gestire istanze e monitorare i parametri del dispositivo tramite un'interfaccia utente grafica, che fornisce una visualizzazione unificata dei servizi AWS in esecuzione sui dispositivi. AWS OpsHub automatizza le attività operative ed è progettato per accogliere utenti con diversi livelli di competenza tecnica, semplificando la gestione di un gran numero di dispositivi Snow Family.
Con l'indirizzo IP dallo schermo LCD, il codice di sblocco e il file manifest dalla console AWS, puoi sbloccare e accedere a Snowball Edge. L'operazione può richiedere alcuni minuti poiché AWS convalida le credenziali, decrittografa i contenuti e gestisce alcune altre attività di pulizia.
Una volta effettuato l'accesso, verrai trasportato in una dashboard visiva con le informazioni rilevanti sul dispositivo e i servizi abilitati. A questo punto siamo online, connessi alla rete e pronti a spostare i nostri dati.
Trasferimento dei dati su AWS Snowball
Con Snowball Edge configurato, in rete e OpsHub connesso, è il momento di passare ai nostri 200 file da 200 GB. Sebbene la maggior parte utilizzerebbe l'interfaccia CLI per questo processo e trarrebbe vantaggio da un'esperienza più ottimizzata in termini di tempo, noi abbiamo optato per la semplicità. Utilizzando OpsHub in Windows, abbiamo semplicemente selezionato la cartella con i nostri dati Pi all'interno e abbiamo lasciato andare i dati. Ci sono voluti circa quattro giorni prima che i file arrivassero allo Snowball.
Una volta completato il trasferimento dei dati, abbiamo spento l'unità, a quel punto il display e-ink è cambiato nell'indirizzo per l'acquisizione. Nel nostro caso, ciò significava Columbus, Ohio, la casa di Us-East-2. Per inciso, una volta nelle mani dello spedizioniere, anche le credenziali di accesso scompaiono dalla console Web, proteggendo i dati durante il viaggio.
AWS tiene traccia dello stato Snowball
Una volta consegnato a UPS, l'interfaccia web di AWS aggiorna lo stato del lavoro con il numero di tracciabilità e l'avanzamento di transito, smistamento, ricezione AWS e importazione di Snowball in S3. Ci sono voluti un paio di giorni perché lo Snowball arrivasse a Columbus e due giorni per completare l'importazione.
Una volta confermato il completamento del processo, abbiamo eseguito un'ispezione visiva in S3 per garantire che tutti i dati sembrassero importati correttamente. Per garantire ai clienti una maggiore tranquillità formale, AWS fornisce anche un rapporto di audit per l'intero processo, insieme a eventuali eccezioni.
Nel nostro registro possiamo vedere i 200 file completati senza errori. AWS registra inoltre i momenti salienti mentre Snowball Edge e i relativi dati vengono spostati nel sistema.
Considerazioni finali
I dispositivi AWS Snowball Edge non sono nuovi; AWS è stata tra le prime a muoversi nel fornire ai propri clienti un modo sicuro per accelerare lo spostamento dei dati offline o dell'archiviazione remota nel cloud. Se avessimo appena provato a copiare i nostri dati su S3 tramite cavo, probabilmente staremmo ancora aspettando il completamento del lavoro e non saremmo in grado di fare molto altro in modo produttivo poiché la nostra connessione Internet era bloccata. Per noi, l'unità Snowball Edge Storage Optimized era esattamente ciò di cui avevamo bisogno per trasferire i nostri dati nel cloud il più rapidamente possibile.
Questo non è senza costi. Mentre i clienti a lungo termine possono ottenere prezzi migliori, il nostro costo vivo per le palle di neve è stato di circa $ 700. Non è male, però, considerando che ne abbiamo ordinato uno in più per errore e non ci siamo mossi così velocemente per riportare le unità su AWS. Non è previsto alcun costo per l'acquisizione dei dati in S3 e il costo corrente di S3 è determinato dalla tariffa del contratto con AWS.
Va notato che abbiamo utilizzato Snowball Edge nel modo più elementare. I dispositivi Snowball con Compute, soprattutto quelli con GPU, offrono un potenziale molto maggiore per casi di utilizzo più intensivi. Coloro che sono interessati dovrebbero sintonizzarsi sulle nostre recenti Podcast sulla neve di AWS. In definitiva, i dispositivi Snow sono solo una versione più ridotta di AWS con un limite di archiviazione e calcolo. Ma come abbiamo visto, sono molto flessibili, estremamente facili da implementare e portano i dati in modo affidabile dove necessario. Per chiunque stia considerando i dispositivi AWS Snow, consigliamo vivamente di provarli.
Interagisci con StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Discordia | RSS feed