1. 数据仓库

早期系统采用数据库来管理和存放数据,但随着大数据技术的兴起,大家想要通过大数据技术来找到数据之间可能存在的关系,所以大家设计了一套新的数据存储管理系统,把所有的数据全部存储到数据仓库,然后统一对数据处理,这个系统叫做数据仓库。

数据仓库是来自一个或者多个不同源的集成数据中央存储库。

数据仓库将当前和历史数据存储在一起,以利于各种分析方法如在线分析处理(OLAP),数据挖掘(data mining),帮助决策者能快速从大量的数据中,分析西湖有价值的信息,帮助构建商业智能(BI).

尽管仓库非常适合存储结构化数据,但是许多现在企业必须处理非结构化数据,半结构化数据以及具有高多样性,高速度和高容量的数据。数据仓库不适用于许多此类场景,并且成本效益并非最佳。

数据湖的出现是为了弥补数据仓库只能存储结构化数据的缺陷,数据湖的种类比较丰富可以包罗万象。

数据仓库更加适合成熟的数据当中的分析和处理,数据湖更加适合在异构数据上的价值的挖掘。

数据湖虽然适合存储数据,但是缺少一些关键的功能:他不支持事务处理,不保证数据质量,并且缺乏一致性/隔离性,从而几乎无法实现混合追加和读取数据,以及完成批处理和流式作业。

湖仓一体化为什么诞生?

数据仓库只能处理单一的结构化数据,对于在线的事务分析处理非常实用。但是现在很多公司对各类数据应用包括SQL分析,实时监控,数据科学和机器学习的灵活性、高性能系统的需求并未减少

AI的大部分最新进展是基于更好地处理非结构化数据(如text、images、video、audio)的模型,完全纯数据仓库的二维关系表已经无法承接半/非结构化数据的处理,AI引擎不可能只跑在纯数据仓库模型上。

结合数据仓库和数据湖优势,建立互藏一体化,进而解决数据湖和数据仓库的局限性:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。