今天在 AWS 全球峰會上,Alluxio 宣布了其數據編排技術的最新版本 Alluxio 2.0。 最新版本為數據工程師帶來了新的創新,旨在多雲分析和人工智能。
今天在 AWS 全球峰會上,Alluxio 宣布了其數據編排技術的最新版本 Alluxio 2.0。 最新版本為數據工程師帶來了新的創新,旨在多雲分析和人工智能。
正如我們最初所說,Alluxio 表示他們是世界上第一個以內存速度統一數據的系統。 “內存速度”將使企業能夠跨不同的存儲系統快速訪問數據,這反過來意味著他們可以更有效地管理他們的數據,更快地發現有價值的見解,並簡化他們對混合雲的採用。 目前,Alluxio 為阿里巴巴、百度、巴克萊銀行、CERN、ESRI、華為、英特爾和瞻博網絡等公司運行關鍵工作負載。
世界正在轉向基於雲的計算密集型工作負載。 這種新的關注點意味著計算需要以彈性方式獨立於存儲進行擴展。 雖然從性能角度來看這有幾個好處,但它給數據工程師帶來了潛在的麻煩。 Alluxio 旨在通過添加一個抽象層來解決這個問題,該抽象層帶來數據局部性、數據可訪問性和數據彈性,以跨數據孤島、區域、區域甚至雲進行計算。
特性和功能包括:
- 多雲的數據編排創新:
- 策略驅動的數據管理
- Alluxio 2.0 包含一項新功能,允許數據工程師根據預定義的策略自動和持續地跨存儲系統自動移動數據。 這意味著隨著數據的創建和熱、溫、冷數據的管理,Alluxio 可以在本地和所有云中跨任意數量的存儲系統自動對數據進行分層。
- 數據平台團隊現在可以通過僅自動管理昂貴存儲系統中最重要的數據並將其他數據轉移到更便宜的存儲替代方案來降低存儲成本。
- 改進的數據訪問策略管理:除了文件級別的細粒度策略外,現在用戶還可以在任何目錄和文件夾級別配置策略,以簡化數據訪問和工作負載的性能。 這些包括在各種核心功能上為單個數據集定義行為,例如在 Alluxio 下寫入數據或與存儲系統同步數據。
- 通過數據服務跨雲存儲高效數據移動:新數據服務允許高效數據移動,包括跨雲存儲(如 AWS S3 和谷歌 GCS),使對象存儲上的昂貴操作與計算框架無縫銜接。
- 策略驅動的數據管理
- 為雲分析計算優化數據訪問:
- 以計算為中心的集群分區:用戶現在可以根據任何維度對單個 Alluxio 進行分區,這樣每個框架或工作負載的數據集就不會被另一個所污染。 最常見的用法包括通過 Spark、Presto 等框架對集群進行分區。此外,這還可以降低數據傳輸成本,將數據限制在特定區域或區域內。
- 通過 REST 與外部數據源集成:用戶現在甚至可以從基於 Web 的數據源引入數據,以在 Alluxio 中聚合以執行他們的分析。 任何帶有文件的 Web 位置都可以簡化指向 Alluxio,以便根據查詢或模型運行按需拉入。
- 其他功能包括:
- 高度分佈式數據服務 - 2.0 引入了 Alluxio 數據服務,這是一種分佈式集群服務,可進行複制、持久化等數據操作,以實現高性能和大規模。
- 用於增加數據局部性的自適應複製——新功能可以為存儲在 Alluxio 中的自動管理的數據副本數量配置一個範圍。
- 嵌入式日誌的高可用性——一種新的文件和對像元數據容錯和高可用性模式,稱為嵌入式日誌,它使用 RAFT 共識算法並且獨立於任何其他外部存儲系統。 這對於抽像對象存儲特別有幫助。
- Alluxio POSIX API——Alluxio 的 FUSE 功能支持 POSIX 兼容 API,因此 Tensorflow、Caffe 和其他基於 Python 的模型等框架可以使用傳統文件系統訪問通過 Alluxio 直接訪問任何存儲系統中的數據。
- 亞馬遜 AWS 支持:
- AWS Elastic Map Reduce (EMR) 服務集成:隨著用戶轉向雲服務來部署分析和 AI 工作負載,AWS EMR 等服務的使用越來越多。 Alluxio 現在可以無縫地引導到 AWS EMR 集群中,使其可用作 Spark、Presto 和 Hive 框架的 EMR 中的數據層。 用戶現在有一個高性能的替代方案來緩存來自 S3 或遠程數據的數據,同時還減少了在 EMR 中維護的數據副本。
可用性
Alluxio 2.0 社區版和企業版現已推出。
討論這個故事