Inicio Empresa Lanzamiento de Alluxio 2.0

Lanzamiento de Alluxio 2.0

by Adam Armstrong

Hoy, en la Cumbre global de AWS, Alluxio anunció la última versión de su tecnología de orquestación de datos, Alluxio 2.0. La última versión viene con nuevas innovaciones para ingenieros de datos y está dirigida a análisis de múltiples nubes e IA.


Hoy, en la Cumbre global de AWS, Alluxio anunció la última versión de su tecnología de orquestación de datos, Alluxio 2.0. La última versión viene con nuevas innovaciones para ingenieros de datos y está dirigida a análisis de múltiples nubes e IA.

Como dijimos inicialmente, Alluxio afirma que son el primer sistema del mundo que unifica datos a la velocidad de la memoria. La "velocidad de la memoria" permitiría a las empresas acceder rápidamente a los datos a través de sistemas de almacenamiento dispares, lo que a su vez significa que pueden administrar sus datos de manera más eficiente, descubrir información valiosa más rápido y facilitar su adopción de la nube híbrida. Actualmente, Alluxio ejecuta cargas de trabajo críticas para empresas como Alibaba, Baidu, Barclay's Bank, CERN, ESRI, Huawei, Intel y Juniper.

El mundo está cambiando a cargas de trabajo intensivas en cómputo basadas en la nube. Este nuevo enfoque significa que la computación debe escalar independientemente del almacenamiento de manera elástica. Si bien esto tiene varios beneficios desde el punto de vista del rendimiento, presenta posibles dolores de cabeza para los ingenieros de datos. Alluxio tiene como objetivo solucionar esto mediante la adición de una capa de abstracción que aporta la localidad de datos, la accesibilidad de los datos y la elasticidad de los datos para calcular a través de silos de datos, zonas, regiones e incluso nubes.

Las características y capacidades incluyen:

  • Innovación en la orquestación de datos para múltiples nubes: 
    • Gestión de datos basada en políticas
      • Alluxio 2.0 incluye una nueva capacidad que permite a los ingenieros de datos automatizar el movimiento de datos entre los sistemas de almacenamiento en función de políticas predefinidas de forma automatizada y continua. Esto significa que a medida que se crean los datos y se gestionan los datos calientes, templados y fríos, Alluxio puede automatizar la organización en niveles de los datos en cualquier número de sistemas de almacenamiento en las instalaciones y en todas las nubes.
      • Los equipos de la plataforma de datos ahora pueden reducir los costos de almacenamiento administrando automáticamente solo los datos más importantes en sistemas de almacenamiento costosos y moviendo otros datos a alternativas de almacenamiento más económicas.
      • Administración mejorada de políticas de acceso a datos: además de políticas detalladas a nivel de archivo, ahora los usuarios pueden configurar políticas en cualquier nivel de directorio y carpeta para agilizar el acceso a los datos y el rendimiento de las cargas de trabajo. Estos incluyen la definición de comportamientos para conjuntos de datos individuales en varias funciones básicas, como escribir datos o sincronizar datos con sistemas de almacenamiento en Alluxio.
      • Movimiento de datos eficiente entre almacenamiento en la nube a través del servicio de datos: el nuevo servicio de datos permite un movimiento de datos altamente eficiente, incluso entre tiendas en la nube como AWS S3 y Google GCS, lo que hace que las operaciones costosas en el almacenamiento de objetos sean perfectas para el marco informático.
  • Compute Optimized Data Access para Cloud Analytics:
    • Partición de clúster centrada en la computación: los usuarios ahora pueden particionar un solo Alluxio en función de cualquier dimensión, de modo que los conjuntos de datos para cada marco o carga de trabajo no se contaminen entre sí. El uso más común incluye la partición del clúster por marco Spark, Presto, etc. Además, esto permite reducir los costos de transferencia de datos, restringiendo los datos para permanecer dentro de una zona o región específica.
    • Integración con fuentes de datos externas sobre REST: los usuarios ahora pueden traer datos incluso de fuentes de datos basadas en la web para agregarlos en Alluxio para realizar sus análisis. Cualquier ubicación web con archivos se puede simplificar apuntando a Alluxio para que se extraiga según sea necesario en función de la consulta o la ejecución del modelo.
  • Otras características incluyen:
    • Servicios de datos altamente distribuidos: 2.0 presenta el Servicio de datos de Alluxio, un servicio en clúster distribuido, que datos de operaciones como la replicación, la persistencia, para permitir un alto rendimiento y una escala masiva. 
    • Replicación adaptativa para mayor localidad de datos: nueva función para configurar un rango para la cantidad de copias de datos almacenados en Alluxio que se administran automáticamente.
    • Alta disponibilidad con diario incorporado: un nuevo modo de tolerancia a fallas y alta disponibilidad para metadatos de archivos y objetos llamado diario incorporado que utiliza el algoritmo de consenso RAFT y es independiente de cualquier otro sistema de almacenamiento externo. Esto es particularmente útil para abstraer el almacenamiento de objetos.
    • API POSIX de Alluxio: la función FUSE de Alluxio habilita una API compatible con POSIX para que los marcos como Tensorflow, Caffe y otros modelos basados ​​en Python puedan acceder directamente a los datos desde cualquier sistema de almacenamiento a través de Alluxio utilizando el acceso al sistema de archivos tradicional.
  • Soporte de Amazon AWS:
    • Integración de servicios de AWS Elastic Map Reduce (EMR): a medida que los usuarios se trasladan a los servicios en la nube para implementar cargas de trabajo analíticas y de IA, se utilizan cada vez más servicios como AWS EMR. Alluxio ahora se puede cargar sin problemas en un clúster de AWS EMR, lo que lo hace disponible como una capa de datos dentro de EMR para los marcos Spark, Presto y Hive. Los usuarios ahora tienen una alternativa de alto rendimiento para almacenar datos en caché desde S3 o datos remotos, al mismo tiempo que reducen las copias de datos mantenidas en EMR.

Disponibilidad

Tanto Alluxio 2.0 Community como Enterprise Edition ya están disponibles.

Sitio principal de Alluxio

Discutir esta historia

Suscríbase al boletín de StorageReview