文章目录
- 1. 数据湖
- 1. 数据中台
1. 数据湖
数据湖(Data Lake)概念最早是2011年由CITO Research网站的CTO和作家Dan Woods所提出,其比喻是:如果我们把数据比作大自然的水,那么各个江川河流的水未经加工,源源不断地汇聚到数据湖中。
数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。
数据湖概念的提出时间是仅次于大数据,可以说是一个很老的概念了。笔者认为数据湖本质上就是一个大数据平台,它随着大数据的技术不断完善,目前成熟的数据湖体系已具备了大数据存储、大数据处理、机器学习、大数据分析等等能力。
国外公司好像对数据湖情有独钟,像亚马逊的AWS、Informatica、IBM、微软等公司都有数据湖的相关产品和解决方案。而在国内,数据湖到底是个啥?他有啥用?时至今日依然存在着不少的争议。
绝大部分企业的需求数据仓库基本都能满足了,只有少部分企业才能用到数据湖或大数据平台,好多企业都被忽悠上了大数据平台,光有个架子,却不知道能用来干嘛。对非结构化数据的处理,大多数企业本身除了数据存储之外,几乎不知道该怎么用。甚至大多数据企业连结构化数据都还处理不好,数据意识还停留在起步阶段。
(网名)所说的是事实,也是目前的普遍现象。但在笔者看来:一项新技术,一个新事物从诞生到发展到普及,是需要一个由“基础认知—知识学习—能力建设—探索应用—成熟应用”的过程。
在这个过程中,各企业的发展水平一定是参差不齐的,没有那两家企业的现状、需求、目标、数据是完全相同的,所以不同企业对数据的意识程度不相同、技术能力不一样、应用水平差异大也是正常的。
1. 数据中台
对于数据中台,笔者阅读了很多大咖的文章,查阅了很多资料,也没有找到关于数据中台的标准定义。事实上也确实如此,数据中台是具有“中国特色”的一个概念,在国外并没有太多的人谈数据中台。而我们中国人创造的数据中台概念,目前还未形成一个统一的认知和基于共识的标准定义。
中台概念的鼻祖——阿里巴巴的数据产品部总经理朋新宇表示:
数据中台是数据+技术+产品+组织的组合,是企业开展新型运营的一个中枢系统。具象的说,它是一套解决方案,抽象的理解,它是一种新的公司运营理念。