我们在做数据安全时不可避免会涉及到数据的存储和调取,那不同企业在描述自己数据存储和调取的系统时,会提到各种各样的称呼:数据库、数据仓库、数据湖、大数据平台,目前还出现了数据中台。笼统的理解,这些系统都与数据息息相关,只是在数据处理的功能和适用场景有所不同。但对于从事数据安全的人员来说,还是需要详细了解这些系统之间的区别和关系,更好的应用到实际工作中。

一、数据库

1.发展历史

互联网的发展的同时也产生了大量的电子数据,为了科学地、有逻辑地处理和存储这些电子数据,搭建电子数据仓库,因而出现了数据库系统。

1964年,世界上第一个数据库系统IDS(Integrated DataStorage,集成数据存储)诞生;1979年,第一个商业数据库版本Oracle Release 1诞生,提供商用SQL;1996年,MySQL发布,开源数据库开始发展。

随着数据处理性能要求的提高,数据库的技术架构从单机发展到集中式又到分布式,部署位置从本地部署发展到云端部署,即使现在已经出现了各式各样的数据存储系统,但都是基于数据库系统的发展而来,目前广泛在用的依然是MySQL、Oracle、SQL Sever这类早期提出的数据库系统。出于安全和适配性考虑,我国也不断在研制自己的国产版数据库,出现了例如达梦、华为云GaussDB、OceanBase等优秀的国产数据库系统。

2.概念特征

严格来说,数据库系统由两部分组成,分别是数据库和数据库管理系统。数据库用来存放数据,数据库管理系统则对数据库进行统一管理。

从定义上看,数据库是一个按数据结构来存储和管理数据的计算机软件系统,其特点是可以实现简单的关联查询。

3.典型代表

按照数据结构的不同可以将数据库分为关系型数据库和非关系数据库。

关系型数据库:数据存放在行和列之中,形成数据表,用于结构化数据的存储。例如 MySQL、MariaDB(MySQL的代替品)、PostgreSQL、Microsoft Access、DB2、Oracle、SQL Server。

非关系型数据库:不需要按照一定的结构定义数据,可支持多种数据格式,用于非结构化数据的存储。例如Hbase、Redis、MongodDB、Neo4j。

4.应用场景

无论是关系型数据库还是非关系型数据库,已经在各行各业的信息化建设中得到了普遍应用,可以说只要有业务系统的存在就会有数据库的使用。而从结构上看,既有业务系统与数据库集成式,也有业务层与数据层分离式。

二、数据仓库

1.发展历史

随着企业的发展,企业产生的数据量也不断增多,需要调用频率不高或已失效归档数据不断累加占用数据库空间,为提高业务系统的运行效率,可以将这类数据抽取出来单独存放,而此类数据被成为“冷数据”。

另外,企业不同部门之间业务协作和数据共享需求的增加,以及数据分析与挖掘需求的出现,需要对多种多样的数据频繁查询和调用,如果直接接入原业务数据库反而会影响业务稳定性,因此同样可以考虑将此类数据转移出来单独存放,统一为需要的部门提供数据查询和分析服务。

基于以上两个主要需求,1990年比尔·恩门(Bill Inmon,数据仓库之父)提出“数据仓库(Data Warehoese)"的概念,实现对企业系统联机事务处理的数据,统一存储并做系统的分析整理,实现各部门可以根据自身业务特性对外提供统一的数据服务。

2概念特征

数据仓库具有面向主题、集成和稳定的特点。

面向主题:存储在数据仓库中的数据,会按照业务使用的主题进行划分,例如划分为生产域、订单域、物流域等。

集成:数据仓库中的数据是来自不同的数据源,包含了多个数据属性。另外在数据仓库中对数据处理后,会重新加工整合数据形成新的数据组合提供给需求方。

稳定:数据一旦流入数据仓库之后,需要对数据永久保存,并且提供的功能基本上为数据查询,数据删除和修改操作很少,因此数据在数据仓库中以相对稳定不变的形成存在。

简单的理解,数据仓库是专门存放数据的仓库,与数据库相比增加了数据分析和数据报表的功能,并且以服务的形式对外提供按主题归类的数据。




数据仓库 融合层 数据仓库和数据平台_数据仓库 融合层


3.典型代表

Hive:基于hadoop分布式架构,主流数仓产品

Spark数据仓库

pandas:数据分析类库;

QueryEngine数据仓库;

4.应用场景

大数据时代的到来让数据成为社会发展的重要资源,整合数据资源、挖掘数据信息、发挥数据价值越来越成为一个企业数字化发展的重点,数据仓库因其自身存储海量数据、提供数据分析服务的特点成为商业发展决策使用的核心技术方式。电商行业的用户行为分析和商品推荐、金融行业的运营管理、医疗行业的临床数据研究,都是数据仓库应用的主要场景。

三、数据湖

1.发展历史

2010年,Pentaho 的创始人James Dixon 为推广自家产品 Pentaho首次提出"数据湖"的概念,但不同于数据库出现时计算机技术只由少数企业所掌握,现在全球互联网厂商纷纷发展数家齐头并进,因此多家互联网厂商提出了自己的数据湖定义。

总体来看,数据湖是为了弥补数据仓库的缺陷而出现。传统下的数据仓库存储的数据基本上都是结构化数据,而无法接受所有的非结构化或半结构化数据,计算分析能力和跨平台能力也是有限的,数据湖解决了这一问题。另外随着大数据技术的发展,原有技术架构无法满足增长的扩展需求,而数据湖提供了低成本且高扩展的技术能力。

2概念特征

数据湖作为一个统一数据存储空间,可以接纳多种方式输入的任意结构的数据,并且与计算分析平台对接,根据业务场景的不同提供不同的数据处理与分析服务。


数据仓库 融合层 数据仓库和数据平台_数据库_02


3.典型代表

AWS、微软、阿里

4.应用场景

在国内数据湖还处于初步发展时期,一般大型企业或政府大数据中心会建有数据湖,用于存放海量的数据资源并满足复杂的数据处理需求,因此应用范围相对局限。

四、数据平台

1.发展历史

数据平台,因大数据的发展,目前普遍称为“大数据平台”。

大数据平台是与数据仓库、大数据一起发展而来,可以从其定义上去理解。

2.概念特征

从广义上来看,大数据平台是由数据抽取采集、数据湖或数据仓库、数据计算分析、数据展示应用组成的一整套基础设施,用于提供海量数据存储和高效数据处理的组合型业务架构。

数据湖或数据仓库是大数据平台的基座,是相互配合而非互为替代的关系。


数据仓库 融合层 数据仓库和数据平台_Powered by 金山文档_03


3.典型代表

典型的包括基于Hadoop生态构建的大数据平台,提供易于部署及管理的Hive、Spark、HBase、Flink等开源大数据计算和存储引擎。

4.应用场景

只要有数据仓库或数据湖的企业同步也会部署大数据平台,而依靠数据库搭建大数据平台也可以实现,只是有很大的局限性。目前在高校、医院、政府、电商等各行各业都会应用到大数据平台,甚至会专门成立大数据部门来运维大数据平台。

五、数据中台

1.发展历史

2015年,马云在参观芬兰的小型游戏公司Supercell之后,决定对阿里巴巴的组织和系统架构做整体调整,建立”大中台,小前台“的业务体制,搭建强大的阿里数据中台。

随着企业业务的不断扩大,业务流动和交互需求激增,API接口、库表交换等多种数据共享方式混合使用,数据类型和数据结构各有各的特点,为了规范数据使用流程提升数据质量,搭建以数据集中、数据治理、数据服务为中心的数据中台,统一对外执行数据服务。

2.概念特征

数据源为后台,数据治理和处理为中台,数据应用对接为前台。

数据与业务之间关联度低,即数据的变化不会过多影响业务流程,业务需求的变化也不会直接影响数据组织方式。数据与业务的维护可以分开进行,工作量降低成本降低。

数据的查询效率提升,数据中台支持分布式计算和分布式存储,可以高效扩充数据存储和分析空间。

数据中台与数据库、数据仓库、数据湖之间并不是同类关系,可以将数据中台视为一个大型模块化业务系统,数据仓库或数据湖可以作为其中的数据存储模块。

数据平台和数据中台在逻辑架构上有相似之处,但数据中台的流程建设更为灵活和全面。相比之下,数据平台提供数据处理加工的能力然后将结果按需输出,数据中台可以将原始数据整合然后输出完整内容,


数据仓库 融合层 数据仓库和数据平台_数据仓库_04


3.典型代表

阿里自身已经构建阿里数据中台,另外阿里作为数据中台厂商为大型国企或大型企业提供数据中台建设。

4.应用场景

数据中台还处于探索发展之中,需要海量数据源和大数据计算分析能力的支撑,目前的应用范围十分有限。

个人总结:

  • 无论是数据库、数据仓库还是数据湖,都可以将其视为数据存储的容器,在数据安全治理中主要关注容器的运维流程安全和该容器自身的安全,可以先不深究该容器实现的技术原理。
  • 数据中台和数据平台都可以视为一个大型的业务系统,在数据安全治理中可以详细梳理组成业务系统的各个模块之间的数据流动安全,因不同企业的数据中台和数据平台都会有所不同,只需要前期了解其基础架构,在梳理过程中再不断加深对数据中台和数据平台的理解。