Oggi all'AWS Global Summit, Alluxio ha annunciato l'ultima versione della sua tecnologia di orchestrazione dei dati, Alluxio 2.0. L'ultima versione include nuove innovazioni per gli ingegneri dei dati ed è mirata all'analisi multi-cloud e all'intelligenza artificiale.
Oggi all'AWS Global Summit, Alluxio ha annunciato l'ultima versione della sua tecnologia di orchestrazione dei dati, Alluxio 2.0. L'ultima versione include nuove innovazioni per gli ingegneri dei dati ed è mirata all'analisi multi-cloud e all'intelligenza artificiale.
Come abbiamo affermato inizialmente, Alluxio afferma di essere il primo sistema al mondo che unifica i dati alla velocità della memoria. La “velocità della memoria” consentirebbe alle aziende di accedere rapidamente ai dati su diversi sistemi di storage, il che a sua volta significa che possono gestire i propri dati in modo più efficiente, scoprire informazioni preziose più rapidamente e facilitare l’adozione del cloud ibrido. Attualmente, Alluxio esegue carichi di lavoro critici per aziende come Alibaba, Baidu, Barclay's Bank, CERN, ESRI, Huawei, Intel e Juniper.
Il mondo si sta spostando verso carichi di lavoro ad alta intensità di elaborazione basati sul cloud. Questo nuovo focus significa che l’elaborazione deve scalare indipendentemente dallo storage in modo elastico. Sebbene ciò offra numerosi vantaggi dal punto di vista delle prestazioni, introduce potenziali grattacapi per gli ingegneri dei dati. Alluxio mira a risolvere questo problema aggiungendo un livello di astrazione che consente la localizzazione dei dati, l'accessibilità e l'elasticità dei dati per il calcolo attraverso silos di dati, zone, regioni e persino cloud.
Le caratteristiche e le capacità includono:
- Innovazione nell'orchestrazione dei dati per il multi-cloud:
- Gestione dei dati basata su policy
- Alluxio 2.0 include una nuova funzionalità che consente ai data engineer di automatizzare lo spostamento dei dati tra i sistemi di storage in base a policy predefinite su base automatizzata e continuativa. Ciò significa che man mano che i dati vengono creati e gestiti hot, warm e cold, Alluxio può automatizzare il tiering dei dati su un numero qualsiasi di sistemi di storage in locale e su tutti i cloud.
- I team che si occupano di piattaforme dati possono ora ridurre i costi di storage gestendo automaticamente solo i dati più importanti in sistemi di storage costosi e spostando gli altri dati in alternative di storage più economiche.
- Amministrazione migliorata delle policy di accesso ai dati: oltre alle policy dettagliate a livello di file, ora gli utenti possono configurare policy a qualsiasi livello di directory e cartella per semplificare l'accesso ai dati e le prestazioni dei carichi di lavoro. Questi includono la definizione di comportamenti per set di dati individuali su varie funzioni principali come la scrittura di dati o la sincronizzazione dei dati con i sistemi di archiviazione sotto Alluxio.
- Spostamento efficiente dei dati tra cloud storage tramite servizio dati: il nuovo servizio dati consente uno spostamento dei dati altamente efficiente anche tra archivi cloud come AWS S3 e Google GCS, rendendo le operazioni costose sullo storage di oggetti senza soluzione di continuità nel framework di elaborazione.
- Gestione dei dati basata su policy
- Accesso ai dati ottimizzato per il calcolo per Cloud Analytics:
- Partizionamento dei cluster incentrato sul calcolo: gli utenti possono ora partizionare un singolo Alluxio in base a qualsiasi dimensione, in modo che i set di dati per ciascun framework o carico di lavoro non siano contaminati dagli altri. L'utilizzo più comune include il partizionamento del cluster in base al framework Spark, Presto ecc. Inoltre, ciò consente di ridurre i costi di trasferimento dei dati, vincolando i dati a rimanere all'interno di una zona o regione specifica.
- Integrazione con origini dati esterne su REST: gli utenti possono ora importare dati anche da origini dati basate sul Web per aggregarli in Alluxio per eseguire le proprie analisi. Qualsiasi posizione Web con file può essere semplicemente indirizzata ad Alluxio per essere inserita secondo necessità in base alla query o all'esecuzione del modello.
- Altre caratteristiche includono:
- Servizi dati altamente distribuiti – 2.0 introduce Alluxio Data Service, un servizio distribuito in cluster, che consente operazioni sui dati come la replica e la persistenza, per consentire prestazioni elevate e scalabilità massiccia.
- Replica adattiva per una maggiore località dei dati – Nuova funzionalità per configurare un intervallo per il numero di copie dei dati archiviati in Alluxio che vengono gestiti automaticamente.
- Alta disponibilità con journal incorporato: una nuova modalità di tolleranza agli errori e alta disponibilità per i metadati di file e oggetti denominata journal incorporato che utilizza l'algoritmo di consenso RAFT ed è indipendente da qualsiasi altro sistema di archiviazione esterno. Ciò è particolarmente utile per astrarre l'archiviazione di oggetti.
- API POSIX di Alluxio – La funzionalità FUSE di Alluxio abilita un'API compatibile con POSIX in modo che framework come Tensorflow, Caffe e altri modelli basati su Python possano accedere direttamente ai dati da qualsiasi sistema di storage tramite Alluxio utilizzando l'accesso al file system tradizionale.
- Supporto Amazon AWS:
- Integrazione dei servizi AWS Elastic Map Reduce (EMR): man mano che gli utenti passano ai servizi cloud per distribuire carichi di lavoro analitici e di intelligenza artificiale, servizi come AWS EMR vengono sempre più utilizzati. Alluxio può ora essere avviato senza problemi in un cluster AWS EMR rendendolo disponibile come livello dati all'interno di EMR per i framework Spark, Presto e Hive. Gli utenti ora dispongono di un'alternativa ad alte prestazioni per memorizzare nella cache i dati di S3 o i dati remoti, riducendo allo stesso tempo le copie dei dati mantenute in EMR.
Disponibilità
Sono ora disponibili sia Alluxio 2.0 Community che Enterprise Edition.
Discuti questa storia
Iscriviti alla newsletter di StorageReview