Recientemente completamos un proyecto de estilo de análisis de datos que nos dejó con una Archivo de salida de 100 TB. Si bien tenemos un amplio espacio de almacenamiento en todo nuestro laboratorio, mantener un archivo de 100 TB a perpetuidad presenta un conjunto único de desafíos. Además, en realidad no “necesitamos” el archivo, pero preferimos conservarlo, si es posible. La nube es una opción obvia para esta necesidad, pero el tiempo para transferir esa cantidad de datos por cable es inmenso, por lo que optamos por probar los dispositivos AWS Snowball Edge. El objetivo: llevar nuestros datos del laboratorio en Cincinnati a un depósito S3 en la región us-east-2 de AWS lo más rápido posible.
Recientemente completamos un proyecto de estilo de análisis de datos que nos dejó con una Archivo de salida de 100 TB. Si bien tenemos un amplio espacio de almacenamiento en todo nuestro laboratorio, mantener un archivo de 100 TB a perpetuidad presenta un conjunto único de desafíos. Además, en realidad no “necesitamos” el archivo, pero preferimos conservarlo, si es posible. La nube es una opción obvia para esta necesidad, pero el tiempo para transferir esa cantidad de datos por cable es inmenso, por lo que optamos por probar los dispositivos AWS Snowball Edge. El objetivo: llevar nuestros datos del laboratorio en Cincinnati a un depósito S3 en la región us-east-2 de AWS lo más rápido posible.
¿Qué son los dispositivos de AWS Snowball Edge?
Antes de profundizar demasiado en la tarea de migración de datos, se justifica una breve introducción a los dispositivos AWS Snowball Edge. AWS Snow Family es una colección de servicios creados específicamente. Estos servicios ejecutan cargas de trabajo de cómputo intensivo mientras almacenan datos en ubicaciones de borde para conectividad de red denegada, interrumpida, intermitente o limitada (DDIL), y para transferir grandes cantidades de datos desde entornos locales y resistentes o móviles. Los dispositivos de AWS Snowball Edge son resistentes, portátiles y seguros, y ofrecen funciones optimizadas para el almacenamiento o para la computación. Estos dispositivos están diseñados para ayudar a los clientes a trasladarse (a AWS) o procesar grandes cantidades de datos de manera segura y eficiente, incluso en ubicaciones remotas o desconectadas.
Los dispositivos Snowball Edge vienen en dos versiones: Snowball Edge Storage Optimized, que estamos usando aquí, y Snowball Edge Compute Optimized. La versión Storage Optimized está diseñada para casos de uso de almacenamiento y transferencia de datos y viene con hasta 80 TB de capacidad de almacenamiento. La versión Compute Optimized está diseñada para casos de uso de computación y procesamiento de datos y viene con hasta 104 CPU virtuales y 416 GB de RAM. Incluso hay una opción para que un sistema Compute Optimized incluya una GPU. Para aquellos con una necesidad de datos más modesta, también hay una familia Snow pequeña y ultraportátil, denominada AWS Snowcone.
Ambas versiones de Snowball Edge tienen características de seguridad integradas, como gabinetes a prueba de manipulaciones, cifrado de 256 bits y chips de módulo de plataforma segura (TPM) para garantizar la integridad y confidencialidad de los datos. Además, los dispositivos Snowball Edge se pueden configurar para ejecutar funciones de AWS Lambda, instancias de Amazon EC2 y otros servicios de AWS en el perímetro, lo que permite a los clientes realizar procesamiento y análisis de datos en las instalaciones antes de transferir los datos a AWS.
Para nuestro caso de uso, los dispositivos Snowball Edge brindan una forma rápida, segura y flexible para que los clientes transfieran y procesen grandes cantidades de datos en varios entornos, incluidas ubicaciones remotas o desconectadas.
Proceso de pedido de AWS Snowball
Para los profesionales experimentados de AWS, el proceso de pedido de Snowball es sencillo. Incluso para los neófitos como yo, pude hacer clic en los pasos con un pequeño y útil empujón de nuestros amigos de AWS que nos asesoraron durante el proceso.
El paso 1 es darle un nombre a su trabajo y elegir el tipo de trabajo para su dispositivo Snow. Nuestra tarea era simplemente transferir datos a S3, pero los dispositivos Snow también pueden exportar datos desde S3. También se pueden usar como soluciones puntuales para ofrecer cómputo, almacenamiento y GPU locales a una ubicación de borde.
El paso 2 sigue siendo sencillo, con la selección del dispositivo Snow. En nuestro caso, seleccionamos la unidad Snowball Edge Storage Optimized, con 80 TB disponibles. Hay varias opciones de precios para AWS Snowball. Existe una opción de precio para el uso por día, o AWS Snowball ofrece descuentos significativos en el precio (hasta un 62 %) para compromisos de uso de 1 año y de uso de 3 años. Con estas ofertas a largo plazo, paga por adelantado para usar los dispositivos Snowball a una tarifa con descuento y evita pagar tarifas de servicio adicionales o tarifas por día hasta que finalice su período de prepago. Puede registrarse para obtener un precio inicial comprometido en la consola de AWS Snow Family cuando solicita un dispositivo Snowball.
Finalmente, elija las instancias EC2 y los depósitos S3 que necesita para importar. Esta era una cuenta nueva, por lo que creamos un nuevo depósito S3. Tampoco necesitábamos ningún EC2 para esto, pero terminamos transferir una instancia EC2 más tarde para un poco de diversión.
El paso 3 ofrece algunas características adicionales, como AWS IoT Greengrass for Snow opcional y una opción para la administración remota de dispositivos.
El paso 4 cubre las preferencias de seguridad, envío y notificación. Aquí usamos el cifrado predeterminado y creamos el rol de servicio sugerido para permitir que AWS maneje los datos. A partir de ahí, está agregando su dirección y seleccionando el envío de uno o dos días. También puede agregar notificaciones por correo electrónico aquí, aunque la consola de AWS muestra todo el progreso a medida que el trabajo funciona a través del sistema.
El último paso es validar toda la información ingresada y enviarla. Esto crea el trabajo y luego comienza el proceso de cumplimiento por parte de AWS. Avanzamos a través del proceso con AWS con bastante lentitud, queriendo comprender todas las opciones. Incluso a nuestro ritmo informal, todo el proceso tomó alrededor de 10 minutos. Una ruta más agresiva haría que ordenar un dispositivo Snow tome 2-3 minutos como máximo.
En ese momento, pensamos que necesitaríamos dos dispositivos Snowball Edge. En retrospectiva, solo necesitábamos uno. El proceso para clonar este trabajo también es muy simple, y son solo un par de clics más para contar algunas bolas de nieve para conjuntos de datos más grandes.
A partir de aquí, es un juego de espera ya que el proceso de cumplimiento funciona a través del sistema. Debido a que esta era una cuenta nueva, tropezamos con algunas banderas al pedir dos dispositivos Snowball Edge de inmediato. Pero para cuentas con actividad, no debería haber tales verificaciones. Los Snowball aparecieron en unos pocos días y nos dispusimos a preparar nuestros datos para el transporte.
Una cosa a considerar con Snowball es el precio. Hay una tarifa de trabajo, que incluye diez días de tener la unidad en el sitio. Por supuesto, hay tarifas de nube en S3 una vez que los datos también llegan allí. Si bien el precio de Snowball no es complicado, varía según el sistema que seleccione, el momento en que lo necesite y la región en la que se encuentre. En nuestro caso, la tarifa de trabajo fue de $300 por Snowball, e incluso eso podría ser reducido dramáticamente con contratos a largo plazo. Sin embargo, puede hacerse una idea de los precios de Snowball; AWS tiene una mesa que lo pone todo.
Preparación de datos
Comenzamos con un archivo de texto de 100 TB, pero cualquier persona con experiencia en S3 sabrá que es un problema. S3 tiene un límite de tamaño de objeto de 5 TB, lo que significa que necesitábamos hacer algo con nuestro único archivo no conforme. Nuestra respuesta fue cortarlo y ver si podíamos obtener algún beneficio de compresión al mismo tiempo. La esperanza era que pudiéramos llegar a una sola unidad Snowball, que alcanza un máximo de 80 TB utilizables. Mientras esperábamos a que llegara el Snowball Edge, nos dispusimos a preparar los datos.
Se utilizó nuestro favorito aplicacion para trabajar con numeros grandes, y-cruncher, que incluye una utilidad de visualización, división y compresión de dígitos. Debido a la limitación de tamaño de objeto de S3, elegimos dividir los 100 billones de dígitos de Pi en 200 archivos. Después de la compresión, eso nos dio un tamaño de archivo de aproximadamente 191 GB, cada uno con 500,000,000,000 500 XNUMX XNUMX (XNUMX mil millones) de dígitos.
Configuración de bola de nieve de AWS
Con los datos preparados y el dispositivo Snowball en la mano, encendimos la primera unidad para ponerla en línea. Configurar Snowball es muy simple, dándole poder y acceso a la red; optamos por el puerto 10GbE. Muchos optarán por usar CLI para interactuar con Snowball, que es probablemente el método preferido. Aún así, por el bien de las imágenes y deseando la experiencia desde un punto de vista no profesional de AWS, optamos por AWS OpsHub para Snow Family.
AWS OpsHub para la familia Snow es una herramienta fácil de usar que ayuda a los clientes a administrar sus dispositivos Snow Family y los servicios locales de AWS. Los usuarios pueden desbloquear y configurar dispositivos, transferir archivos, lanzar y administrar instancias y monitorear las métricas de los dispositivos a través de una interfaz gráfica de usuario, que proporciona una vista unificada de los servicios de AWS que se ejecutan en los dispositivos. AWS OpsHub automatiza las tareas operativas y está diseñado para adaptarse a usuarios con diferentes niveles de experiencia técnica, lo que facilita la administración de una gran cantidad de dispositivos de la familia Snow.
Con la dirección IP de la pantalla LCD y el código de desbloqueo y el archivo de manifiesto de su consola de AWS, puede desbloquear y acceder a Snowball Edge. Esto puede demorar unos minutos, ya que AWS valida las credenciales, descifra el contenido y maneja algunas otras tareas de mantenimiento.
Una vez que haya iniciado sesión, será transportado a un tablero visual con la información relevante del dispositivo y los servicios habilitados. En este punto, estamos en línea, conectados a la red y listos para mover nuestros datos.
Transferencia de datos a AWS Snowball
Con Snowball Edge configurado, en la red y OpsHub conectado, es hora de mover nuestros 200 archivos de 200 GB. Si bien la mayoría usaría la interfaz CLI para este proceso y se beneficiaría de una experiencia más optimizada en el tiempo, optamos por la simplicidad. Usando OpsHub en Windows, simplemente seleccionamos la carpeta con nuestros datos Pi dentro y dejamos que los datos se vayan. Los archivos tardaron unos cuatro días en llegar al Snowball.
Una vez completada la transferencia de datos, apagamos la unidad, momento en el que la pantalla de tinta electrónica cambió a la dirección de ingesta. En nuestro caso, eso significaba Columbus, Ohio, el hogar de us-east-2. Por cierto, una vez que está en manos del remitente, las credenciales de acceso también desaparecen de la consola web, protegiendo los datos en el camino.
AWS rastrea el estado de la bola de nieve
Una vez entregado en UPS, la interfaz web de AWS actualiza el estado del trabajo con el número de seguimiento y el progreso de tránsito, clasificación, recepción de AWS e importación del Snowball en S3. El Snowball tardó un par de días en llegar a Columbus y dos días en completarse la importación.
Una vez que se confirmó que el proceso se completó, hicimos una visualización en S3 para asegurarnos de que todos los datos parecían importarse correctamente. Para dar a los clientes una tranquilidad más formal, AWS también proporciona un informe de auditoría para todo el proceso, junto con las excepciones.
En nuestro registro, podemos ver los 200 archivos completados sin fallas. AWS también registra los aspectos más destacados a medida que Snowball Edge y sus datos se mueven a través del sistema.
Reflexiones Finales:
Los dispositivos AWS Snowball Edge no son nuevos; AWS fue uno de los primeros en ofrecer a sus clientes una forma segura de acelerar el traslado de datos fuera de línea o almacenamiento remoto a la nube. Si hubiéramos tratado de copiar nuestros datos a S3 a través del cable, probablemente todavía estaríamos esperando que se completara ese trabajo y no podríamos hacer mucho más productivo ya que nuestra tubería de Internet estaba bloqueada. Para nosotros, la unidad Snowball Edge Storage Optimized era exactamente lo que necesitábamos para llevar nuestros datos a la nube lo más rápido posible.
Esto no es sin costo. Si bien los clientes a largo plazo pueden obtener mejores precios, nuestro costo de bolsillo para Snowballs fue de aproximadamente $700. Sin embargo, eso no está mal, teniendo en cuenta que pedimos uno adicional por error y no nos movimos tan rápido para devolver las unidades a AWS. No hubo tarifa para ingerir los datos en S3, y el costo continuo de S3 está determinado por la tarifa de su contrato con AWS.
Cabe señalar que usamos Snowball Edge de la manera más básica. Los dispositivos Snowball con Compute, especialmente aquellos con GPU, ofrecen mucho más potencial para casos de uso más intensivo. Aquellos que estén interesados deben sintonizar nuestra reciente Podcast de nieve de AWS. En última instancia, los dispositivos Snow son solo una versión más pequeña de AWS con un límite de almacenamiento y cómputo. Pero como vimos, son muy flexibles, extremadamente fáciles de implementar y obtienen datos de manera confiable donde deben estar. Para cualquiera que esté considerando dispositivos AWS Snow, recomendamos encarecidamente que los pruebe.
Interactuar con StorageReview
Boletín informativo | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Discord | RSS Feed