8 月 3 日,Amazon Web Services 发布了数据湖服务 AWS Lake Formation。 许多客户已经在为他们的数据湖使用 Amazon SXNUMX(简单存储服务),因此 Lake Formation 最好被视为一组工具,可以降低 Amazon 数据湖的成本并提高用户友好性。
8 月 3 日,Amazon Web Services 发布了数据湖服务 AWS Lake Formation。 许多客户已经在为他们的数据湖使用 Amazon SXNUMX(简单存储服务),因此 Lake Formation 最好被视为一组工具,可以降低 Amazon 数据湖的成本并提高用户友好性。
Amazon 列出了 Amazon Web Services Lake Formation 提供的五个关键工具:源爬虫、ETL 和数据准备、数据目录、安全设置和访问控制。 所有这些工具都通过中央 Lake Formation 控制台进行管理。 其他 AWS 服务,如 Athena、Redshift 和 EMR,在数据转移后仍将能够访问数据。
AWS Lake Formation 源爬虫旨在减少将数据从当前位置获取到数据湖中所涉及的开销。 拥有现有 S3 实例的客户只需将 Lake Formation 指向他们想要引入的实例。对于新客户或希望添加新数据源的客户来说,这个过程稍微复杂一些。 AWS Lake Formation 可以拉入整个数据库,或根据用户定义的表和键进行增量更新。
AWS Lake Formation 使用 AWS glue 提供提取、转换、加载 (ETL) 和数据准备服务。 Lake Formation 还提供了一个内置的机器学习服务,可以在数据传入时对数据进行重复数据删除。这应该有助于保持数据湖的大小,从而降低成本。
数据湖最艰难的障碍之一是跟踪湖中的一切。 AWS Lake Formation 提供了一个数据目录,它描述了可用的不同数据集以及哪些用户组可以访问每个数据集。 这将使查找相关数据集的过程更加用户友好。
内置的最后两个工具实际上是一组提供安全性和访问控制的工具。 该工具集包括 AWS Identity、Access Management 和 AWS Key Management Service 等服务。 AWS Lake Formation 允许客户通过中央控制台设置数据湖范围的策略。 如果需要更精细的控制,它还支持每个数据集的安全设置。
可用性
即时