参考《一本书讲透数据治理》、《数据治理》等
数据治理是什么
笔者自我理解就是:对数据进行任何规整处理,包括从数据从业务系统接入到最后被业务系统查询应用的这其中整个过程,都是数据治理。
然而,不同数据团队或者不同企业对数据治理的理解和定义却不尽相同
- 《一本书讲透数据治理》作者定义:所有为提高数据质量而展开的技术、业务和管理活动都属于数据治理范畴。数据治理的最终目标是提升数据利用率和数据价值,通过有效的数据资产管控手段,实现数据的看得见、找得到、管的住、用的好、提升数据质量和数据价值。
从管理者视角看数据治理
- 企业发展战略的组成部分
- 是指导集团进行数字化变革的基石
可以理解为与企业战略相关、指导企业数字化转型的策略
从业务人员视角看数据治理
- 定义数据、让抽象的数据变成可读、可理解的信息
- 要有一个完整的数据地图或者数据资源目录,盘活企业的数据资产,方便用户随时找到想要的数据
- 要做好数据质量管理,提升数据质量并提升数据的使用率
从技术人员视角看数据治理
- 从多年数仓领域工作经验来看:ETL(有数可用)+数据处理(有准确可用的数据)+元数据管理(对可用的数据可溯源可管理)
- 从系统运维来看:数据治理的重点应该是对业务系统数据的治理,数仓只是数据的应用端
- 从数据平台开发开看:数据治理得依靠数据湖,数据统一在湖中管理,业务端统一数据入湖,统一从数据湖中取数,故只要治理好数据湖的数据即可保证高质量的数据
国际定义
DAMA(国际数据管理协会):数据治理是对数据资产管理行使权力和控制的活动集合
DGI(国际数据治理研究所):数据治理是通过一系列与信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(who)能根据什么信息,在什么时间(when)和情况(where)下,用什么方法(How),采取什么行动(what)
数据治理相关术语定义
- 数据元:用一组属性描述定义、标识、表示和允许值的数据单元。数据元由对象、特性、表示三部分组成。数据元是组成实体数据的最小单元,或叫原子数据。
- 作用:作为最小颗粒度的对数据进行标准化定义的基础
- 举例:比如食品药品监管信息基础数据元标准
- 元数据:描述数据的数据或关于数据的结构化数据。元数据是数据治理中的核心要素,是构建数仓的基础,是构建企业数据资源全景视图的基础,清晰的学院分析、影响分析、差异分析、关联分析、指标一致性分析等是数据资产管理的重要一环。
- 作用:存储着对数据的描述信息。
- 举例:图书馆中的图书卡
- 主数据:是企业内需要在多个部门、多个信息系统之间共享的数据(如客户、供应商、人员、物料),主数据不同于记录活动的数据,它变化较慢。主数据是企业开展业务的基础,只有得到正确的维护们才能保证业务系统的参照完整性。
- 作用:在数据治理中,主数据用来解决企业异构系统之间核心数据不一致,不正确,不完整等问题。主数据是信息系统建设和大数据分析的基础,被认为是企业数字化转型的基石。
- 举例:不同行业不同领域的主数据内容不同。例如制造型企业中:核心主数据有:物料、BOM、设备、客户、供应商、人员等;在政府各部门:人口、法人、证照等都是主要的主数据
- 业务数据:业务数据是业务活动过程中的产生的既定事实数据。业务数据来自多个方面:业务交易过程中产生的数据(计划单、销售单、生产单)、系统产生的数据(软硬件运行情况、应用使用状况等)、自动化设备产生的数据
- 特点:时效性强、数据量大
- 作用:主要面向应用,提升管理和效率
- 举例:销售订单
- 主题数据:根据数据分析需要,按照业务主题对数据所作的一种组织和管理的方式,本质是为了进行面向主题的分析或加速主题应用的数据。主题数据一般是汇总的、不可更新的、用于读的数据
- 作用:按照一定的业务主题组织的,服务于各种数据分析或应用开发
- 举例:主题数据与行业或领域有较大关系,不同行业关注的主题不一样。
- 数据仓库:DataWarehouse DW。面向主题、集成的、相对稳定、反应历史变化的数据集合。可以理解为是为满足新需求而设计的一种新数据库,需要可以容纳更大数据集
- 作用:为企业所有级别的决策指定过程提供所有类型数据支撑的战略集合
- 对企业数据汇聚和集成
- 支持多维度分析,提高和简化用户数据分析能力
- 作为数据挖掘技术的关键和基础
- 举例:数据仓库是数据分析和数据可视化的基础,将来自不同业务系统的数据汇集到一起,并按照一定的主题进行编号、归类、分组,方便用户快速定位数据源,为数据分析提供支撑。(很多企业的数据治理项目实施动因都是解决数据仓库中的数据质量问题)
- 数据湖:wiki的定义:数据湖是一个以原始格式存储数据的存储库或系统。(结构化-数据库表、半结构化(CSV、日志、XML、JSON)、非结构化数据(电子邮件、PDF)、二进制数据(图片、音频、视频等))
个人理解:数据湖可以更方便、以更低成本解决不同数据结构的统一存储问题,同时还可以为机器学习提供全局数据。也可以理解为数据湖是一个融合了大数据集成、存储、处理、机器学习、数据挖掘的解决方案。
- 作用:这里主要是与数据仓库的作用对比
特性 | 数仓 | 数据湖 |
数据 | 来自事务系统、运营数据和业务系统的关系数据 | 来自Iot设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据 |
Schema | 设计在数据仓库实施之前(写入型Schema) | 写入在分析时(读取型Schema) |
性价比 | 更快的查询结果带来较高的存储成本 | 更快查询结果只需要较低存储成本 |
数据质量 | 可作为重要事实依据的高度监管数据 | 任何可hi或无法进行监管的数据(例如原始数据) |
用户 | 业务分析师 | 数据科学家、数据开发人员和业务分析师 |
分析 | 批处理报告、BI、可视化 | 机器学习、预测分析、数据发现和分析 |
- 举例:数据湖不是一个产品或工具,是一套完整数据解决方案。
- 数据湖的出现给数据治理带来了一定的挑战,数据湖将数据全部集中存储,那数据治理是在湖中还是湖外,这个是需要企业研究和探索的问题。
数据治理治什么
北大教授说:数据治理不是对数据治理,而是对数据资产治理,是对数据资产所有利益相关方的协调与规范。
我们从这里开始理解
什么是数据资产
- 数据资产是企业的交易或者事项形成的。即日常运营积累的数据
- 由企业拥有和控制。这是对数据的确权
- 预期会给企业带来经济利益。数据在被有效整合利用后会产生巨大价值,但是如果数据的获取管理和维护成本远大于实际产生的收益或者无法对数据有效变现,那么这些数据也不能视为资产
- 成本或价值可衡量。(实际数据资产价值是难以计量,取决于应用场景和应用方)
数据资产的利益相关方
- 数据生产者
- 数据拥有者或控制者
- 数据价值或经济利益的受益者
对利益相关方的协调和规范
- 数据的标准化
- 数据确权
- 流程的优化。数据治理有两个目标:一个是提升质量、另一个是控制安全,通过业务流程优化,规范数据从生产、处理、使用到销毁的整个生命周期,使得数据在各个阶段,各个流程环节中安全可控合规的使用
数据治理,是一个非常复杂的系统工程:
- 管理上:数据治理是企业战略层面的策略而非战术层面
- 业务上:通过数据治理要让数据能够管的住、看得见、找得到、用的好
- 技术上:涉及数据建模、数据集成、数据交换、数据清洗、数据处理、数据质量管理方方面面
数据治理的6个价值
降低业务运营成本
- 一致性的数据环境让系统应用集成、数据清理变得更加自动化,减少过程中的人工成本
- 标准化的数据定义让业务部门之间的沟通保持顺畅,降低由于数据不标准、定义不明确引发的各种沟通成本
提升业务处理效率
- 高质量的数据环境和高效的数据服务让企业员工可以方便、及时地查询所需要的数据,无需跨部门各种协调汇报。
改善数据质量
- 数据治理本就是为了提升数据质量
- 高质量的数据有利于提升应用集成的效率和质量、提升数据分析的可信度
控制数据风险
- 有效的数据治理有利于建立例如知识图谱等数据分析服务,帮助企业实现供应链、投融资、公共领域等的风控。
增强数据安全
- 有效的数据治理可以更好的保证数据的安全防护、敏感数据保护和数据的合规使用
- 通过数据梳理识别敏感数据,再通过实施相应的数据安全处理技术(加密解密、脱敏脱密、数据安全传输、访问控制、数据分级授权)等手段,实现数据安全防护和使用合规
赋能管理决策
- 有效的数据治理有利于提升数据分析和预测的准确性,从而改善决策水平
- 通过数据治理对数据处理过程的管理和控制,持续输出高质量的数据,从而制定出更好的决策和提供一流的客户体验
数据治理3个现状
由于国内各行业企业数据治理发展情况并不均衡,大致对企业数据治理现状可以分为以下3类:
- 企业拥有雄厚经济实力,信息化起步较早,企业的业务对信息化的数据依赖程度较高(BAT、各大银行、电信公司等),这类企业大约再10年前就开始数据治理,目前已经形成较为完善的数据治理体系
- 第二类:有一定的经济实力,建设的信息系统较多,单个业务条线上信息化的应用程度较高。这类数据治理普遍现状:早期信息化缺乏整体规划、大量信息系统沉淀了大量数据,但缺乏统一的数据标准,系统之间数据没有打通。他们迫切希望发挥数据的价值来驱动企业管理和经营模式的创新,他们开始再对数据进行大规模整合,并基于此进行探索数据治理和应用
- 第三类:企业经济实力相对薄弱,信息化刚起步,不同系统使用不同的厂商,有些数据甚至存在个人电脑,这类企业以生存为主,更关注业务和财务,我国中小企业大多属于此类。
虽然我国多数企业仍然处于中期的数据集成阶段,但是在云计算、大数据等新技术的推动下,很多企业开始迈开步伐,已经走进以数据管理为标志的数字化时代
数据治理5类问题
- 黑暗数据:被收集了,但是谁也不知道有什么用。数据价值未被挖掘
- 数据孤岛:各个信息系统(各个部门)之间数据未被打通,形成一个个数据孤岛。由于打通的成本高,难度大,周期长,众多企业望而却步
- 数据巴别塔:数据定义不清、口径不一致、缺乏规范导致各个部门之间无法顺畅沟通
- 糟糕的数据质量:企业数据普遍存在着不一致、不完整、不准确、不正确、不及时,数据质量得不到有效解决,那么数据价值化和数据业务化无从谈起
- 数据的安全风险:数据缺乏有效管理,一定会产生数据安全问题,比如缺少的数据采集、存储、访问、传输的规范制度,没有设定必要的数据使用权限,必然会导致数据遗失、篡改和泄密
数据治理的6个挑战
- 数据治理的业务价值认识不足:数据为什么重要、数据治理能解决什么问题?数据治理能实现什么价值等等这是数据治理经常被企业领导和业务部门质疑的三大问题。管理人员对于未来提升的数据质量没有解决业务的实际问题,造成对数据治理的业务价值认识不足
- 为了快速实现数据价值和成效,最直接的是以业务价值为导向,从企业实际面两的数据应用需求和数据痛点需求触发,满足管理层和业务人员的数据需求,以实现数据的业务价值,解决具体的数据痛点和难点为驱动来推动数据治理工作。
- 缺乏企业级数据治理的顶层设计:很多企业认识到了数据治理的重要性,可是大量的数据治理活动都是项目级和部门级的,缺乏企业级数据治理的顶层设计以及数据治理工作的资源统筹协调
- 数据治理涉及业务的梳理、标准的制定、业务流程的优化、数据的监控、数据集成和融合等工作;复杂度高、探索性强,如果缺乏顶层涉及的指导,那么在治理过程中出现偏离和失误概率较大,而一旦出现偏离和失误其影响难以估计
- 企业数据治理的顶层设计应该站在企业战略的高度,以全局视角对所涉及的各方面、各层次、各要素进行统筹考虑,协调各种资源和关系,确定数据治理目标,并为其指定正确的策略和路径。
- 顶层设计主要是抓牵一发而动全身的关键问题,抓长期依赖导致的各种矛盾的核心问题,抓严重影响企业信息化健康稳定发展的重大问题。唯有此才能纲举目张,为解决其他问题铺平道路
- 高层领导对数据治理不够重视:数据治理是企业战略层的策略,企业高层无疑是数据治理项目实施的核心干系人,高层领导对数据治理的支持不仅在于财务方面,对数据的战略细化和实施充分授权以及提供的资源是决定数据治理成败的关键因素
- 为了保证数据治理实施,一般成立专门的组织机构,有个德高望重的高管,负责指定数据治理目标,CDO(首席数据官)不仅统筹数据定义、数据标准、治理策略、过程控制、体系结构、工具和技术等数据治理工作,还需要关注如何为业务增加价值以及是否获得关键业务负责人支持等。
- CDO经常关注数据的业务价值,并利用数据科学家、分析师和管理人员的更多技能,想CEO报告以获得持续的资金、政策和资源支持
- 数据标准不统一、数据整合困难:
- 企业内部数据标准不统一
- 企业之间的数据标准不统一
- 业务人员普遍认为数据治理是IT部门的事情:业务人员由于认为不是自己的事情,事不关己高高挂起的态度。
- 业务人员没有和IT部门通力合作,造成数据治理进度缓慢
- 互相推诿,数据质量无法得到好的保证
- 缺乏数据治理组织和专业人才:数据治理实施的一个重要步骤是建立一个数据治理组织并选拔对应人才,让专业的人集中起来做专业的事
本文内容较为宽泛,统筹的让自己对数据治理的概念有了一个初步的了解。
数据作为数字近几个时代的新型生产要素,是企业的重要资产。没有高效的数据治理,何来有价值的生产要素?企业拥有了数据并不代表拥有了数据资产,而数据治理是实现数据资源向数据资产转化的过程。
毋庸置疑,数据治理将变得越来越重要!!