L'8 agosto, Amazon Web Services ha rilasciato AWS Lake Formation, un servizio di data Lake. Molti clienti utilizzavano già Amazon S3 (Simple Storage Services) per il loro data Lake, quindi Lake Formation potrebbe essere meglio visto come un insieme di strumenti per rendere un data Lake Amazon meno costoso e più facile da usare.
L'8 agosto, Amazon Web Services ha rilasciato AWS Lake Formation, un servizio di data Lake. Molti clienti utilizzavano già Amazon S3 (Simple Storage Services) per il loro data Lake, quindi Lake Formation potrebbe essere meglio visto come un insieme di strumenti per rendere un data Lake Amazon meno costoso e più facile da usare.
Amazon elenca cinque strumenti chiave forniti da Amazon Web Services Lake Formation: crawler di origine, ETL e preparazione dei dati, catalogo dati, impostazioni di sicurezza e controllo degli accessi. Tutti questi strumenti sono gestiti tramite una console centrale di Lake Formation. Altri servizi AWS come Athena, Redshift ed EMR potranno comunque accedere ai dati una volta spostati.
I crawler di origine di AWS Lake Formation hanno lo scopo di ridurre il sovraccarico legato al semplice trasferimento dei dati da qualsiasi luogo si trovino attualmente nel tuo data Lake. I clienti con istanze S3 esistenti devono semplicemente indicare a Lake Formation le istanze che desiderano inserire. Il processo è leggermente più complicato per i nuovi clienti o per coloro che desiderano aggiungere nuove origini dati. AWS Lake Formation può inserire interi database o eseguire aggiornamenti incrementali basati su tabelle e chiavi definite dall'utente.
AWS Lake Formation utilizza AWS Glue per fornire servizi di estrazione, trasformazione, caricamento (ETL) e preparazione dei dati. Lake Formation fornisce anche un servizio di machine learning integrato per deduplicare i dati non appena vengono importati. Ciò dovrebbe aiutare a mantenere basse le dimensioni del data Lake, e quindi i costi.
Uno degli ostacoli più difficili per i data Lake è tenere traccia di tutto ciò che c'è nel Lake. AWS Lake Formation fornisce un catalogo di dati che descrive i diversi set di dati disponibili insieme ai gruppi di utenti che hanno accesso a ciascuno. Ciò dovrebbe rendere il processo di ricerca dei set di dati rilevanti più facile da usare.
Gli ultimi due strumenti integrati sono in realtà un insieme di strumenti per fornire sicurezza e controllo degli accessi. Il set di strumenti include servizi come AWS Identity, Access Management e AWS Key Management Service. AWS Lake Formation consente ai clienti di impostare policy a livello di data Lake tramite la console centrale. Se è necessario un controllo più granulare, supporta anche le impostazioni di sicurezza per set di dati.
Disponibilità
Immediato
Formazione del Lago Amazzonico
Iscriviti alla newsletter di StorageReview