一、数据湖概述
1、概念
数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。
与数据仓库中的分层存储不同,数据湖是在平面架构中保存大量数据的集中位置。数据湖可以存储来自关系数据库、半结构化数据、非结构化数据和二进制数据的结构化数据,并且可以在“本地”或“云”中设置。下面,我们看看 Google 的 BigLake 如何与流行的数据湖相抗衡。
2、历史
时任Pentaho首席技术官的 James Dixon 在2011 年创造了该术语,以将其与数据集市进行对比,数据集市是从原始数据中提取的有趣属性的较小存储库。在推广数据湖时,他认为数据集市存在一些固有问题,例如信息孤岛。普华永道(PwC) 表示,数据湖可以“终结数据孤岛”。
许多公司使用Google Cloud Storage和 Amazon S3等云存储服务或 Apache Hadoop分布式文件系统 (ADFS) 等分布式文件系统。学术界对数据湖的概念逐渐产生兴趣。
普华永道在他们的研究中还谨慎地指出,并非所有数据湖计划都是成功的。他们引用了Cambridge Semantics的首席技术官 Sean Martin 的话。
“我们看到客户创建大数据墓地,将所有内容转储到Hadoop 分布式文件系统(HDFS) 中,并希望在未来对其有所作为。但随后他们就忘记了那里有什么。主要挑战不是创建数据湖,而是利用它提供的机会。”
二、顶级数据湖工具比较
1、阿里云数据湖
用户已经基于阿里云开源大数据生态系统(E-MapReduce,实时计算Flink,DLA等产品)来构建自己的数据处理分析平台,而在数据量飞速膨胀的趋势下,用户存储资源与计算资源扩容速度不匹配,有成本优化方面的诉求;大数据生态的丰富,用户的数据来源广泛,元数据分散较难管理,用户希望能统一管理不同存储中的元数据。
主要优势如下
支持多种数据类型和入湖渠道,支持数据统一清洗
智能元数据识别服务,统一收集避免分散管理
企业级数据权限管理,用户可以针对库、表、字段分别设置权限
支持上游多种计算引擎,轻松构建全链路数据湖服务
兼容Hive Metastore,提供多语言Open API,易集成
独有JindoFS数据加速功能,提供高性能数据湖分析加速能力
2、Google BigLake
BigLake是一个统一数据仓库和湖的存储引擎。它消除了复制或移动数据的需要,从而降低了成本和效率。BigLake 在 AWS 和 Azure 上的 BigQuery 和多云数据湖中提供细粒度的访问控制和性能加速。BigLake 还使数据可以跨 Google Cloud 和开源引擎统一访问。
“BigLake 将BigQuery十年来的创新扩展到多云存储上的数据湖,采用开放格式确保统一、灵活且具有成本效益的 Lakehouse 架构,”该团队表示。
BigLake 的主要特点:
1、在 BigLake 中,用户可以保留一份数据副本,并在大多数分析引擎中实施一致的访问控制。
2、允许用户通过与Dataplex的无缝集成实现大规模的统一治理和管理。
3、用户可以通过细粒度的安全控制将 BigQuery 扩展到多云数据湖和开放格式,例如 Parquet 和 ORC,而无需设置新的基础架构。
3、Azure 数据湖
Azure 数据湖包含旨在帮助开发人员、数据科学家和分析师存储任何大小、形状和速度的数据,并跨平台和语言进行所有类型的处理和分析的功能。Azure Data Lake 消除了摄取和存储所有数据的复杂性,并加快了批处理、流式传输和交互式分析。
Azure 数据湖的主要功能:
通过自动异地复制提供无限规模和数据持久性
精通以相同性能处理要求苛刻的工作负载
高度安全,具有灵活的数据访问、加密和网络级控制保护机制
通过独立扩展存储和计算来优化成本
用于摄取、处理和可视化的单一存储平台,支持最常见的分析框架
4、AWS湖
AWS Lake Formation 是为分析和 ML 服务设置数据存储的最简单方法之一。AWS 声称为客户提供“最安全、可扩展、最全面和最具成本效益的服务组合”,以在云中构建他们的数据湖。AWS 拥有 NETFLIX、Zillow、纳斯达克、Yelp、iRobot 和 FINRA 等客户,并提供公司结合数据和分析方法所需的规模、敏捷性和灵活性。
AWS Lake Formation 的主要功能:
定义和管理安全、治理和审计策略,以满足行业和地理特定的法规。
随时随地访问您的数据,以及自定义标签条款
审计日志有助于识别各种服务的数据访问历史记录。
与其他基于分析的服务集成
用户可以在至少三个可用区 (AZ) 中自动存储数据副本。可用区相隔几英里以提供容错,但不超过一百英里以确保低延迟。
5、Delta Lake
Delta Lake 是一个开放格式的存储层,可为流式处理和批处理操作提供可靠性、安全性和性能。Delta Lake 具有成本效益和高度可扩展性,为结构化、半结构化和非结构化数据提供单一存储空间。
三角洲湖的主要特点:
1、高质量、可靠的数据,所有数据的单一事实来源,包括实时流
2、开放和安全的数据共享
3、Apache Spark 的良好性能
4、开放和敏捷
5、自动化和可信的数据工程
6、大规模的安全和治理
6、Snowflake
Snowflake 是一家基于云计算的数据仓库公司,提供具有高并发工作负载可扩展性的完全托管服务。它提供了一个基于 Amazon Web Services 构建的云数据仓库。跨云平台可以访问各种工作负载的受管数据自助服务,而不会出现资源争用或并发问题。
雪花数据湖的主要功能
1、所有数据的一个平台,结合任何格式的结构化、半结构化和非结构化数据
2、快速、可靠的处理和查询
3、安全协作