前言:
经常在各种数据工作的文章中看到这个词,看词语意思就是要把数据管理好。作为数据基础支撑工作,其重要性也是可以想象的,平时工作中,有数据问题,一圈查下来就是一条记录的质量问题,更坑的是可能会多次都是因为同一种问题。这里有原始业务代码的bug,也有数据没有做好监管的问题。这也是很多时候的痛点。
不仅是传统提供数据仓库、BI、主数据管理、元数据管理、数据集成等数据服务的软件供应商在说数据治理,“BATJ”等互联网公司,大型国企、央企也都在谈数据治理,很多企业都将数据治理作为数智化战略的一项必要举措,列入了企业的战略行动计划。
在大部分人认识到“数字转型、治理先行”时,同时也要承认数据治理说起来容易,做起来难。

1.为什么要做数据治理

上面提到的只是平时遇到的一个普遍问题。
采用咨询常用的5Why分析法分析一下具体的意义:
为什么要做数据治理?
答:我们要建立数据标准,提升数据质量,实现数据资产统一管理。
为什么要建立数据标准、提升数据质量,不做会怎样?
答:数据质量问题比较多,无法提供准确的数据报表,影响业务效率,无法支撑企业的数字化转型。
都影响到了哪些数据报表、哪些业务?
答:XX报表不准确、统计口径不一致、系统之间数据孤岛,数据集成困难……吧啦吧啦……
为什么会造成数据报表不准确,口径不一致,系统集成难?
答:因为数据标准一致,数据源的数据质量差。

总结下:通过数据治理实现企业数据的标准化、提高数据质量、提升业务处理的效率,为数据分析提供准确的数据支撑,赋能业务,助力企业实现数字化转型。

但是,我们仔细分析这样的调研结果是浮于表面的,围绕数据的问题在原地打转,没有将为什么要做数据治理真正想透。

数据要产生价值,需要一个合理的“业务目标”,数据治理的所有活动应该围绕真实的业务目标而开展,建立数据标准、提升数据质量只是手段,而不是目标。因此数据治理的第一步不是分析数据问题,而是分析业务问题,找到企业的核心业务诉求,定义数据治理的目标和范围。

2.数据治理要做些什么

(1).数据治理有很多方向,要做的也很多,很杂。包括数据架构、数据建模、数据存储、数据安全、数据质量、元数据管理、主数据管理。每套体系,都不一样,当然也不是所有公司都是按这个来搞才行的。然而这里每一天都是要单独拿出来分析出一套理论的,这也是做好数据治理难的一点。

谈到数据治理,我们经常讲它是一个涉及到企业战略、组织架构、数据标准、管理规范、数据文化、技术工具的一个综合体。没有数据治理实践经验的,一定会认为:哇,数据治理好“高大上”呀!又是战略、又是标准、又是文化的,听起来很高深吗!

然而,只有你真正做过数据治理人才知道:数据治理不仅都是苦活、累活,还是个受累不讨好,经常背锅,领导看不见价值的活。这也是另一个难点,得有高层支持和理解,业务这玩意不是立马产生价值的东西,很难立即做出可视的成绩。

(2.)从技术实施角度看,数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。

数据资源梳理: 数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。

数据采集清洗: 通过可视化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。

基础库主题库建设: 一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。

元数据管理: 元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。

血缘追踪: 数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。

质量管理: 数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapReduce,HBase 等。

商业智能(BI): 数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,比较知名的产品有 Microsoft Power BI,QlikView,Tableau,帆软等。

数据共享交换: 数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等

3.怎么做好数据治理

前段时间,在网上看到一篇关于数据治理关键要素的总结文章,觉得写的很好,引用过来,供大家参考:

  1. 数据治理需要体系建设

为发挥数据价值需要满足三个要素:合理的平台架构、完善的治理服务、体系化的运营手段。

根据企业的规模、所属行业、数据量等情况选择合适的平台架构;治理服务需要贯穿数据全生命周期,保证数据在采集、加工、共享、存储、应用整个过程中的完整性、准确性、一致性和实效性;运营手段则应当包括规范的优化、组织的优化、平台的优化以及流程的优化等等方面。

  1. 数据治理需要夯实基础

数据治理需要循序渐进,但在建设初期至少需要关注三个方面:数据规范、数据质量、数据安全。规范化的模型管理是保障数据可以被治理的前提条件,高质量的数据是数据可用的前提条件,数据的安全管控是数据可以共享交换的前提条件。

公众号:数据观数据治理已成为数据中台的必争之地

  1. 数据治理需要IT赋能

数据治理不是一堆规范文档的堆砌,而是需要将治理过程中所产生的的规范、流程、标准落地到IT平台上,在数据生产过程中通过“以终为始”前向的方式进行数据治理,避免事后稽核带来各种被动和运维成本的增加。

  1. 数据治理需要聚焦数据

数据治理的本质是管理数据,因此需要加强元数据管理和主数据管理,从源头治理数据,补齐数据的相关属性和信息,比如:元数据、质量、安全、业务逻辑、血缘等,通过元数据驱动的方式管理数据生产、加工和使用。

  1. 数据治理需要建管一体化

数据模型血缘与任务调度的一致性是建管一体化的关键,有助于解决数据管理与数据生产口径不一致的问题,避免出现两张皮的低效管理模式。

4.小总结

数据治理是有必要的,网上也是不少讨论和‘教程’,但是结合公司实际情况,做好,做对数据治理还是要花很多功夫在调研和协调上,很多策略实施还是要因地制宜的,我也是在初期学习中,本文只是做一个开端,后期有新知识再做分享。
————————————————