数据湖(Data Lake)是Pentaho公司创始人及CTO James Dixon于2010年10月在2010年10月纽约Hadoop World大会上提出来的一种数据存储理念—即在系统或存储库中以自然格式存储数据的方法。数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化和非结构化数据。在数据湖中,可以存储不需要对其进行结构化的数据,这样就可以运行不同类型的分析。
简单表述总结为以下8点:
1) 数据湖需要提供足够用的数据存储能力,存储保存了一个企业/组织中的所有数据。
2) 数据湖可以存储海量的任意类型的数据,包括结构化、半结构化和非结构化数据。
3)数据湖中的数据是原始数据,是业务数据的完整副本。
4) 需要具备完善的数据管理能力(完善的元数据),可以管理各类数据相关的要素,包括数据源、数据格式、连接信息、数据schema、权限管理等。
5) 需要具备多样化的分析能力,包括但不限于批处理、流式计算、交互式分析以及机器学习;同时,还需要提供一定的任务调度和管理能力。
6) 需要具备完善的数据生命周期管理能力。不仅需要存储原始数据,还要能够保存各类分析处理的中间结果,并完整的记录数据的分析处理过程,帮助用户完整详细追溯任意一条数据的产生过程。
7)需要具备完善的数据获取和数据发布能力。
8) 对于大数据的支持,包括超大规模存储以及可扩展的大规模数据处理能力。
三大理念:
1)能够存储海量的原始数据
2)能够支持任意的数据格式
3)有较好的分析和处理能力
六大基本特征:
1)“保真性”
2)“灵活性”
3)“可管理”
4)“可追溯”
5)丰富的计算引擎
6)多模态的存储引擎
数据湖和数据仓库的对比:
当前的数据仓库痛点:
1)只能存储结构化数据,无法采集存储非结构化数据
2)无法存储原始数据,所有的数据须经过ETL清洗过程
3)离线数仓的数据表牵一发而动全身,数据调整工程量大
4)实时数仓存储空间有限,无法采集和存储海量实时数据
5)回溯效率低下,实时数据和离线数据计算接口难以统一
数据湖可以完美的解决传统数仓的各大痛点,更大力度的挖掘数据价值。数据湖是帮助企业实现全量数据单一存储的集中式存储库,无需任何预处理,可以存储任意规模、任意类型、各种需求速度的数据,包括结构化、半结构化和音视频、图片、文本等非结构化数据。
而且,数据湖通常存储原始格式的对象块或者文件,保证数据的”原汁原味”,对企业更加全面的抓取、分析和应用数据,创造更大的数据价值提供重要的基础支撑。
数据湖理念支持各种分析方式,可以运行从控制面板、可视化、大数据处理、实时分析到机器学习等不同类型的分析。
不同于传统数据的表模型建立方式,数据湖基于读取型Schema,采用读时模式,能够根据业务需求灵活建表,大大提升了敏捷性和精准度。
使用传统数仓的企业,每个部门都只有自己的数据。数据湖打破了 “数据孤岛”的闭塞,允许多种职能角色包括数据科学家、数据开发人员和业务分析师等通过各自选择的分析工具和框架来访问数据,而无须移动数据,
大大节省了定义数据结构、Schema和转换的时间。这不仅让跨领域、跨平台、跨媒介的数据分析简单实现,”时空旅行”的回溯秒回功能加持数据湖能够更敏捷地提供全量和全生命周期的数据分析结果和数据预测分析服务,灵活高效支撑企业各种决策的制定,真正助力企业实现降本增效,落地实现数智化转型发展。
通过数据湖技术可以实现”敏捷”地统一存储和统一分析,能够最大程度地解决大数据的痛点问题。
图片来自的原文链接:什么是数据湖?有什么用?终于有人讲明白了……_大数据-CSDN博客
数据世系被定义为数据的生命周期,包括数据的起源以及数据是如何随时间移动的。它描述了数据在各种处理过程中发生了哪些变化,有助于提供数据分析流水线的可见性,并简化了错误溯源。
可追溯性是通过标识记录来验证数据项的历史、位置或应用的能力
数据湖与数据仓库的关键区别
,数据湖与数据仓库的差别很明显。然而,在企业中两者的作用是互补的,不应认为数据湖的出现是为了取代数据仓库,毕竟两者的作用是截然不同的
数据湖的构建方法
不同的组织有不同的偏好,因此它们构建数据湖的方式也不一样。构建方法与业务、处理流程及现存系统等因素有关。
简单的数据湖实现几乎等价于定义一个中心数据源(数据中台),所有的系统都可以使用这个中心数据源来满足所有的数据需求。虽然这种方法可能很简单,也很划算,但它可能不是一个非常实用的方法,原因如下:
只有当这些组织重新开始构建其信息系统时,这种方法才可行。
这种方法解决不了与现存系统相关的问题。
即使组织决定用这种方法构建数据湖,也缺乏明确的责任和关注点隔离(responsibility and separation of concerns)。
这样的系统通常尝试一次性完成所有的工作,但是最终会随着数据事务、分析和处理需求的增加而分崩离析。
更好的构建数据湖的策略是将企业及其信息系统作为一个整体来看待,对数据拥有关系进行分类,定义统一的企业模型。
这种方法虽然可能存在流程相关的挑战,并且可能需要花费更多的精力来对系统元素进行定义,但是它仍然能够提供所需的灵活性、控制和清晰的数据定义以及企业中不同系统实体之间的关注点隔离。
这样的数据湖也可以有独立的机制来捕获、处理、分析数据,并为消费者应用程序提供数据服务
本书旨在帮助你选择正确的大数据技术并使用Lambda架构模式来为企业构建自己的数据湖。“数据湖”已经成为大数据行业的一个重要术语,它是数据科学家们获得有意义的洞察力的平台,这些洞察力可以被企业用来重新定义或改变它们的运营方式
常见的三大数据湖技术Delta、Hudi、Iceberg对比