Am 8. August veröffentlichte Amazon Web Services AWS Lake Formation, einen Data-Lake-Dienst. Viele Kunden nutzten bereits Amazon S3 (Simple Storage Services) für ihren Data Lake, daher könnte man Lake Formation am besten als eine Reihe von Tools betrachten, die einen Amazon Data Lake kostengünstiger und benutzerfreundlicher machen.
Am 8. August veröffentlichte Amazon Web Services AWS Lake Formation, einen Data-Lake-Dienst. Viele Kunden nutzten bereits Amazon S3 (Simple Storage Services) für ihren Data Lake, daher könnte man Lake Formation am besten als eine Reihe von Tools betrachten, die einen Amazon Data Lake kostengünstiger und benutzerfreundlicher machen.
Amazon listet fünf wichtige Tools auf, die Amazon Web Services Lake Formation bereitstellt: Quell-Crawler, ETL und Datenvorbereitung, Datenkatalog, Sicherheitseinstellungen und Zugriffskontrolle. Alle diese Tools werden über eine zentrale Lake Formation-Konsole verwaltet. Andere AWS-Dienste wie Athena, Redshift und EMR können nach der Übertragung weiterhin auf Daten zugreifen.
Die Quell-Crawler von AWS Lake Formation zielen darauf ab, den Aufwand zu reduzieren, der damit verbunden ist, Daten einfach von dort, wo sie sich gerade befinden, in Ihren Data Lake zu laden. Kunden mit bestehenden S3-Instanzen müssen Lake Formation lediglich auf die Instanzen verweisen, die sie abrufen möchten. Der Prozess ist für Neukunden oder solche, die neue Datenquellen hinzufügen möchten, etwas aufwändiger. AWS Lake Formation kann ganze Datenbanken abrufen oder inkrementelle Aktualisierungen basierend auf benutzerdefinierten Tabellen und Schlüsseln durchführen.
AWS Lake Formation nutzt AWS-Glue, um Dienste zum Extrahieren, Transformieren, Laden (ETL) und zur Datenvorbereitung bereitzustellen. Lake Formation bietet außerdem einen integrierten maschinellen Lerndienst zur Deduplizierung der eingebrachten Daten. Dies sollte dazu beitragen, die Größe des Datensees und damit die Kosten niedrig zu halten.
Eine der größten Hürden für Data Lakes besteht darin, den Überblick darüber zu behalten, was sich alles im Lake befindet. AWS Lake Formation bietet einen Datenkatalog, der die verschiedenen verfügbaren Datensätze beschreibt und angibt, welche Benutzergruppen jeweils Zugriff darauf haben. Dadurch soll die Suche nach relevanten Datensätzen benutzerfreundlicher gestaltet werden.
Bei den letzten beiden integrierten Tools handelt es sich eigentlich um eine Reihe von Tools zur Bereitstellung von Sicherheit und Zugriffskontrolle. Das Toolset umfasst Dienste wie AWS Identity, Access Management und AWS Key Management Service. Mit AWS Lake Formation können Kunden über die zentrale Konsole datenseeweite Richtlinien festlegen. Wenn eine detailliertere Kontrolle erforderlich ist, werden auch Sicherheitseinstellungen pro Datensatz unterstützt.
Verfügbarkeit
Unmittelbar
Besprechen Sie diese Geschichte
Melden Sie sich für den StorageReview-Newsletter an