Em 8 de agosto, a Amazon Web Services lançou o AWS Lake Formation, um serviço de data lake. Muitos clientes já estavam usando o Amazon S3 (Simple Storage Services) para seu data lake, portanto, o Lake Formation pode ser melhor visto como um conjunto de ferramentas para tornar um data lake da Amazon mais barato e mais fácil de usar.
Em 8 de agosto, a Amazon Web Services lançou o AWS Lake Formation, um serviço de data lake. Muitos clientes já estavam usando o Amazon S3 (Simple Storage Services) para seu data lake, portanto, o Lake Formation pode ser melhor visto como um conjunto de ferramentas para tornar um data lake da Amazon mais barato e mais fácil de usar.
A Amazon lista cinco ferramentas principais que o Amazon Web Services Lake Formation fornece: crawlers de origem, ETL e preparação de dados, catálogo de dados, configurações de segurança e controle de acesso. Todas essas ferramentas são gerenciadas por meio de um console central do Lake Formation. Outros serviços da AWS, como Athena, Redshift e EMR, ainda poderão acessar os dados depois que forem transferidos.
Os rastreadores de origem do AWS Lake Formation visam reduzir a sobrecarga envolvida apenas na obtenção de dados de onde quer que estejam, em seu data lake. Os clientes com instâncias S3 existentes só precisam apontar o Lake Formation para as instâncias que desejam obter. O processo é um pouco mais complicado para novos clientes ou para aqueles que desejam adicionar novas fontes de dados. O AWS Lake Formation pode extrair bancos de dados inteiros ou fazer atualizações incrementais com base em tabelas e chaves definidas pelo usuário.
O AWS Lake Formation usa cola AWS para fornecer serviços de extração, transformação, carregamento (ETL) e preparação de dados. O Lake Formation também fornece um serviço de aprendizado de máquina integrado para desduplicar os dados à medida que são trazidos. Isso deve ajudar a manter o tamanho do data lake e, portanto, os custos baixos.
Um dos obstáculos mais difíceis para os data lakes é acompanhar tudo o que há no lago. O AWS Lake Formation fornece um catálogo de dados que descreve os diferentes conjuntos de dados disponíveis junto com os grupos de usuários que têm acesso a cada um. Isso deve tornar o processo de localização de conjuntos de dados relevantes mais amigável.
As duas últimas ferramentas incorporadas são realmente um conjunto de ferramentas para fornecer segurança e controle de acesso. O conjunto de ferramentas inclui serviços como AWS Identity, Access Management e AWS Key Management Service. O AWS Lake Formation permite que os clientes definam políticas para todo o data lake por meio do console central. Se for necessário um controle mais granular, ele também suporta configurações de segurança por conjunto de dados.
Disponibilidade
Imediato
Inscreva-se no boletim informativo StorageReview