数据治理(Data Governance)
简单来讲,数据治理就是要约束输入,规范输出。
根据DAMA(国际数据管理协会)的定义,数据治理(Data Governance)是指对数据资产的管理活动行使权力和控制的活动集合(规划、监控和执行)。数据治理是识别、管理和解决几种不同类型数据相关问题的手段,包括数据质量问题、数据命名和定义冲突、数据安全等问题。
数据治理体现在那些方面?
数据治理,由元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据交换、生命周期、数据安全等组成。
- 全面自动的元数据管理
元数据管理致力于处理技术元数据、业务元数据、管理元数据,通过丰富的元数据分析和检核,帮助各行各业用户获得更多的数据洞察力,进而挖掘出隐藏在资源中的价值。
- 规范统一的数据标准
统一的数据标准制定和发布等一系列的活动,结合制度约束、系统控制等手段,实现企业大数据平台数据的完整性、有效性、一致性、规范性、开放性和共享性管理。
- 智能高效的数据质量
- 简单易用的数据交换
实现若干个业务子系统之间进行数据或者文件的传输和共享,提高信息资源的利用率,保证了分布在异构系统之间的信息的互联互通,完成数据的收集、集中、处理、分发、加载、传输,构造统一的数据及文件的传输交换。
- 丰富全面的数据集成
如:常用组件、输入输出、转换组件、数仓组件、脚本组件等,可高效快速完成数据的传输、清洗转换、装载落地等处理过程,保证数据可靠性。
- 直观清晰的数据资产管理
可进行不同角色的目录化管理,分析数据资产之间的关系;
- 统一共享的主数据
可为各业务系统数据调用提供黄金数据;
- 贯穿全程的数据安全
用于保证数据的安全性,提供对隐私数据的加密、模糊化处理;
- 便捷睿智的数据生命周期
对数据的全生命周期进行管理,按你所想进行自动归档和销毁,从而真正全方位的把控数据。
华中电力:数据质量管控服务平台
目 录
1) 什么是数据治理?
2) 为什么要实施数据治理?
3) 数据治理的目标是什么?
4) 当前数据治理存在哪些问题和困难?
5) 数据治理包含哪些内容?
6) 数据治理需要哪些工具?
(1)什么是数据治理?
我们认为,数据治理是指从使用零散数据变为使用统一数据、从具有很少或没有组织流程到企业范围内的综合数据管控、从数据混乱状况到数据井井有条的一个过程。
所以,数据治理强调的是一个过程,是一个从混乱到有序的过程。从范围来讲,数据治理涵盖了从前端业务系统、后端业务数据库再到业务终端的数据分析,从源头到终端再回到源头,形成的一个闭环负反馈系统。从目的来讲,数据治理就是要对数据的获取、处理和使用进行监督管理。
具体一点来讲,数据治理就是以服务组织战略目标为基本原则,通过组织成员的协同努力,流程制度的制定,以及数据资产的梳理、采集清洗、结构化存储、可视化管理和多维度分析,实现数据资产价值获取、业务模式创新和经营风险控制的过程。
所以,数据治理是一个过程,是逐步实现数据价值的过程,也正是因为这个过程特性,我们认为,数据治理是一个持续性的服务,而不是一个有着明确范围的一锤子买卖。
(2)为什么要实施数据治理?
当前,企业变革已经成为企业适应剧烈变化的市场环境、实现长期发展的必经之路。然而,过去为组织带来工作效率提升的烟囱式的孤岛式的业务系统已经成为组织变革重组的阻力,这也是从数据层面打通各个组织单元、实现业务单元快速重组的最根本的需求来源。
并且,在互联网的冲击下,各行各业都在寻求业务模式的创新,实现业务自动化向业务持续优化的转变,以求在竞争中找到一片蓝海。而组织要能实现业务模式的创新,第一步就是对自身的洞察,以及提升组织的运行效率,方能在互联网背景中立于不败之地。
所以,以下就是企业实施数据治理的根本原因:
1、经过 30 年的信息化建设,企业和政府部门都围绕着业务需求建设了众多的业务系统,从而导致数据的种类和数量大增,看似积累了众多的数据资产,实则在需要使用时,困难重重。
2、因为各个业务系统的建设都是围绕着业务需求来建设的,当业务环境发生变化时,原来的业务系统不能互联互通,不能满足跨部门、跨职能、跨组织的协作需求。
3、各个业务系统所产生的海量数据以复杂而分散的形式存储,导致数据之间的不一致和冲突等质量问题,从而导致数据在应用过程中的无所适从,难以实现数据的深度利用,从而难以实现业务模式创新和经营风险控制。
(3)数据治理的目标是什么?
数据治理本身不是目的,它只是实现组织战略目标的一个手段而已,例如基于需求的智能制造、智慧市场监督管理、融合市民服务、一网通办等。
从组织职能和体量大小方面来看,不同类型组织的数据治理目标大不相同,例如:
- 集团企业总部和政府大数据管理局的目标是:制定数据政策、保障数据安全、促进数据在组织内无障碍共享,其重点目标是推进和保障数据战略的顺利实施。
- 企业和政府业务部门的目标是:通过提升信息管理能力,提升组织精细化管理水平,提高业务运营效率,增强组织决策能力和核心竞争力,从而为实现组织战略目标提供能力支撑,其重点目标是数据价值获取、业务模式创新和经营风险控制。
(4)当前数据治理存在哪些问题和困难?
数据治理不只是技术问题,更是一个管理问题。例如大家常见的项目管理系统只是一个工具,如何让项目管理工具与项目管理思想相匹配才是项目管理系统实施过程中的最大挑战,也才能发挥最大的效果。数据治理也是同样的道理。
组织信息化建设正从以应用为中心向以数据为中心转变的关键时期,组织也逐步认识到数据的巨大价值,但低质量的数据和复杂的数据应用手段,让数据价值发掘的效果大大降低,甚至,会让组织决策层丧失数字化转型的信心。
那么,如果在项目实施的初期能识别出影响项目实施效果的困难,并找到相应解决办法,就显得异常重要。以下是龙石数据在工作中总结的最常见的数据治理问题:
1、跨组织的沟通协调问题。数据治理是一个组织的全局性项目,需要 IT 部门与业务部门的倾力合作和支持,需要各个部门站在组织战略目标和组织长远发展的视角来看待数据治理。因此,数据治理项目需要得到组织高层的支持,在条件允许的情况下,成立以组织高层牵头的虚拟项目小组,会让数据治理项目事半功倍。
2、投资决策的困难。组织的投资决策以能够产生可预期的建设成效为前提,但往往综合性的数据治理的成效并不能立马体现,它更像一个基础设施,是以支撑组织战略和长期发展为目标,所以,导致此类项目无法界定明确的边界和目标,从而难以作出明确的投资决策。面对此类情况,我们的经验是采用“大平台 + 小目标”的实施方案。“大平台”指的是数据治理的支撑平台。“小目标”指的是利用基础支撑平台和一小部分数据实现某一个具体业务目标。“大平台 + 小目标”方案的优势是能够快速实现可评估的工作成效,难点就在于基础支撑平台要能够对未来的综合治理提供足够的支撑能力,避免重头再来。以智慧市场监管为例,全部的数据包含企业法人监管、质量监督检查、食品监管、药品监管、特种设备监管、主题检查和执法等等,实施综合性的数据治理项目,则可以对企业法人实现全维度的分析和预警,而“大平台 + 小目标”的实施方案则可以实现诸如食品药品安全监管这些主题性的建设目标。
3、工作的持续推进。数据治理是以支撑组织战略和长远发展为目标,应当不断吸收新的数据来源,持续追踪数据问题并不断改进,所以数据治理工作不应当是一锤子买卖,应当建立长效的数据改进机制,并在有条件的情况下,尽量自建数据治理团队。
4、技术选型。前几年,随着大数据的发展,各种名词层出不穷,令人眼花缭乱,例如:数据仓库、ETL、元数据、主数据、血缘追踪、资源目录、结构化非结构化、Hadoop、Spark、联机事务处理(OLTP)、联机分析处理(OLAP)、商业智能(BI),等等。这里面有针对传统数据库的,有针对大数据数据库的,再加上组织对自身数据资产情况没有一个清晰的认识,这也就导致了数据治理的技术选型困难。而当下,基于传统关系型数据库仍然符合绝大多数据企业的业务需求,为避免误解,以下内容主要针对的是传统关系型数据库数据治理的介绍。
(5)数据治理包含哪些内容?
从我们龙石数据的实践经验来看,相对于国际组织和国际企业发布的数据治理框架,以下国家标准 GB/T 34960 发布的数据治理框架比较符合我国企业和政府的组织现状,更加全面地和精炼地描述了数据治理的工作内容,包含顶层设计、数据治理环境、数据治理域和数据治理过程。
图:国标 GB/T 34960 的数据治理框架
1) 顶层设计是数据治理实施的基础,是根据据组织当前的业务现状、信息化现状和数据现状,设定组织机构的职权利,并定义符合组织战略目标的数据治理目标和可行的行动路径。
2) 数据治理环境是数据治理成功实施的保障,指的是分析领导层、管理层、执行层等等利益相关方的需求,识别项目支持力量和阻力,制定相关制度以确保项目的顺利推进。
3) 数据治理域是数据治理的相关管理制度,是指制定数据质量、数据安全、数据管理体系等相关标准制度,并基于数据价值目标构建数据共享体系、数据服务体系和数据分析体系。
4) 数据治理过程就是一个 PDCA(plan-do-check-act)的过程,是数据治理的实际落地过程,包含确定数据治理目标,制定数据治理计划,执行业务梳理、设计数据架构、数据采集清洗、存储核心数据、实施元数据管理和血缘追踪,并检查治理结果与治理目标的匹配程度。
GB/T 34960.5-2018 的详细信息请参考:
(6)数据治理需要哪些工具?
从技术实施角度看,数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。
- 数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。
- 数据采集清洗:通过可视化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。
- 基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。
- 元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。
- 血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。
- 数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。
- 质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapReduce,HBase 等。
- 商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,比较知名的产品有 Microsoft Power BI,QlikView,Tableau,帆软等。
- 数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。
2018年3月16日,中国银监会发布了《银行业金融机构数据治理指引(征求意见稿)》,就相关数据治理问题,向全社会公开征求意见,至此银行业金融机构全面数据治理的大幕拉开。而在大洋彼岸,关于Cambridge Analytica滥用Facebook 5000万用户数据的丑闻正闹得沸沸扬扬,并持续发酵。这一切都说明,数据治理已经成了一个极其重要、亟待解决的重大社会问题。
一个科学合理的数据治理规范,是数据安全与价值的制度保障,是数据产业健康发展,甚至是国家人工智能战略实施不可或缺的前提条件。本文尝试根据自己的有限了解,提出一个数据治理的大概理论框架,希望能够为相关工作提供一些思路参考。
在我看来,所谓数据治理,就是对数据资产的治理,属于公司治理的范畴,是对数据资产所有相关方利益的协调与规范。
具体内容包括但不局限于:
(1)数据资源资产化;(2)数据确权与合规;以及(3)价值创造与人才培养。
第一、数据资源资产化。数据不等于数据资产,数据就是电子化记录,仅此而已。数据并不天生具备资产属性。资产需要能够给企业带来预期收益。因此,只有满足一系列必要条件的数据资源,才可能成为数据资产。
第二、数据确权与合规。隐私保护问题越来越受重视。所谓隐私保护就是对隐私数据的保护。最理想的情况是,能够在产权层面,确立相关个人作为隐私数据的合法的唯一拥有者。这就需要一个法律基础:对数据产权(包括但不局限于隐私数据)的确定,也就是数据确权。如果暂时做不到数据确权,那么至少要做到,对数据实际控制者的行为严加管束,做到合法合规。
第三、价值创造与人才培养。对价值创造而言,数据治理不应该关注太过具体的业务问题,因为业务形态千变万化,具有极强的不确定性,不可能通过一成不变的规章制度去治理。相反,数据治理应该关注人才团队的建立与培养,这才是价值创造的沃土。只要精通数据思维的人才沃土在,就一定会开出鲜艳的花朵,结出丰硕的果实。
一、背景介绍
2018年3月16日,中国银监会发布了《银行业金融机构数据治理指引(征求意见稿)》,就相关数据治理问题,向全社会公开征求意见。至此银行业金融机构全面数据治理的大幕拉开。该指引要求银行业金融机构将数据治理纳入公司治理范畴,并根据数据治理情况,评价公司治理水平,甚至与监管评级挂钩。该指引还鼓励银行业金融机构开展制度性探索,并设立专业岗位,为人才团队的培养建设提供了制度保障。
这是一个非常积极而且重要的事件,对数据产业(不仅限于银行业金融机构)的健康发展具有重大意义。它带来两个重要启示。
第一、从产业政策层面,作为银行业金融机构的主管机构,中国银监会对数据治理的重视与推动,必将对数据产业产生重大而且积极的影响。其影响也许不仅仅局限于银行业金融机构,还包括其他数据相关的产业。
第二、从理论层面,该指引的发布,驱动学术界从理论上思考:数据治理的内涵到底是什么?它和公司治理之间的关系到底怎样?数据治理的独特之处何在?需要一个相对统一的理论框架,便于开展理论研究,并形成同产业实践的良好互动。
为此,我尝试根据自己的有限了解,提出一个数据治理的大概理论框架,希望能够为相关工作提供一些思路参考。更重要的是,希望能够起到抛砖引玉的作用,吸引更多的政府、产业、学术专家,一起来关注这个重大问题。一个科学合理的数据治理规范,是数据产业健康发展,甚至是国家人工智能战略实施不可或缺的制度保障。
接下来,将从几个方面进行讨论。第一、银监会的指引里明确指出,数据治理应该纳入公司治理的范畴。为此,需要首先对公司治理有基本的了解。第二、数据作为一种新兴资产,它的治理工作,有哪些独特、重要,且具体的内容?第三、数据资产价值的创造离不开专业的人才。因此,人才团队的建立与培养也至关重要。
二、公司治理与数据治理
中国银监会《银行业金融机构数据治理指引(征求意见稿)》第四条(数据治理总体要求)明确指出:“银行业金融机构应当将数据治理纳入公司治理范畴”。为此,需要先简单了解一下:什么是公司治理(Corporate Governance)?
为了说明这个问题,虚构一个“老王卖耗子药”的搞笑案例。
假设老王开了一个小公司,叫做“老王科技”,专业售卖耗子药。老王科技就一个员工,那就是老王自己。老王既是唯一股东、董事长、CEO,又是市场总监、销售骨干、前台接待,全都是老王一个人干。那么,老王科技的业绩好坏,就看老王自己的经营能力是否够强。无论老王科技的业绩是好还是坏,都只跟老王一个人相关,跟其他人无关。
因此,这是一个纯粹的经营问题,跟公司治理无关。为什么?因为:“老王科技”这个资产(即:公司)的所有者(老王,唯一股东兼董事长),以及实际经营者(还是老王自己,兼任CEO、市场总监、销售骨干、前台接待等众多职务),是100%同一个人。因此,实际经营者(老王,CEO、市场总监、销售骨干、兼前台接待),在他的能力范围内,一定会100%尽全力为股东(还是老王,唯一股东兼董事长)努力奋斗,不需要任何制度鞭策。如果经营不善,老王自己负全责,没法怨天尤人。
这样的公司,只有经营问题,没有治理问题。
但是,老王科技发展的太好了,以至于必须开分店!一不小心,在北京城里开了100家分店,请问:老王自己一个人还忙得过来吗?显然忙不过来了。怎么办?老王必须为每个分店,请店长,请员工。为了协调这100家分店的市场行为,还在总店聘请了市场总监。为了协调100家分店的货物配送问题,还在总店安排了物流主管。这么多员工,他们的招聘、离职、五险一金,也是一个不小的事情,迫于无奈,老王还聘请了一个HRD。好家伙,这么七七八八算下来,总店的员工人数也不少了,太操心了。搞得老王连搓麻将、玩德扑、打电游的时间都没了。这可严重影响了老王的生活质量。于是,老王又重金聘请了一个海归MBA来当CEO(Michael)。
不知不觉中,老王科技的员工数目,已经从原来老王1人,变成300人了。这时候,新的问题就来了。作为“老王科技”的唯一股东,老王心心念念希望老王科技的利益(也就是自己的股东利益)越来越好。但是,员工的心思可不一样。无论是高管CEO、中层各种总监、还是最下面的店长店员,每个人的利益跟老王都有交集(毕竟老王科技做得好,大家才有工资奖金),但是又不尽相同(毕竟老王科技业绩,跟员工个人利益,并不是完全确定性关系)。于是,每个员工,自觉或者不自觉地,都有一点自己的小心眼儿。这不是一个好现象,也不是一个坏现象,这是一个太正常不过的中性现象。对于这个现象,如果利用得当,可以成为公司发展的巨大动力。但是,如果治理失控,就会极大地影响公司业绩,影响公司所有相关方的权益。这时候,公司治理就变得极其重要了。
由此可见,所谓公司治理,在一个相对狭义的层面,就是要解决公司实践中,资产所有者(股东老王)和实际经营者(CEO Michael,中层大张,店长小赵,N多店员)的分离所产生的矛盾。如果没有良好的治理制度保障,公司资产(例如:老王科技的分店)的实际经营者(店长+店员),极有可能做出伤害公司利益的行为(例如:利用老王科技的分店,私下兜售老李科技的产品)。这就是公司治理中经典的委托代理问题,也是现代金融学研究的核心内容之一。
如果老王科技有融资上市计划,公司治理问题会变得更加严重。以前老王科技就老王一个股东,他对公司中所有事物有绝对的生杀大权。但是,现在为了企业高速发展,老王科技经历了A到Z无穷轮融资,最后终于在海外上市。等到上市的那一天,老王在公司股权中的占比,已经不到10%,而其他的股权散落在各个投资机构,甚至散户手中。尽管通过双层的股权结构设置,老王仍然拥有在董事会的绝对控制权。但是,此时老王的影响力,肯定不如以前了。以CEO Michael为首的管理团队(公司资产的实际经营者),具备了很强的挑战老王的能力,散户就更别提了。管理团队具备了更大的用公司资产为自己谋私利的可能。此时,如果没有科学合理的制度设计,老王科技的前途堪忧。
目前为止,老王科技的治理问题只牵涉到两方利益,即:股东方(资产所有者)利益与管理方(实际经营者)利益。如果有第三方介入,老王科技的治理问题会变得更加复杂。例如,老王科技的快速发展,带来一个严重后果:环境污染。为了生产剧毒耗子药,老王科技的生产制造过程,不可避免的涉及到大量有毒有害的化学原料以及废弃物,对环境产生了很大的伤害。当地政府、居民,以及环保主义者都对此表示强烈的不满。为了解决该问题,老王科技同当地政府、居民,以及环保主义者,建立了良好的沟通机制,积极采纳最新的低排放生产工艺,找到了各方都满意的解决方法。此时,老王科技协调规范的不仅仅是股东、管理层之间的利益,还包括外部第三方(当地政府、居民、环保主义者)。从一个更加广义的范畴看,这也可以被看作是公司治理的内容。
因此,从一个更加广义的角度看,公司治理就是要对公司(作为一个资产)的所有相关者(不仅仅局限于股东和管理层,还包括第三方)利益的协调与规范。
回到数据治理问题的讨论,请问:数据治理,治理什么?治理的对象是什么?是数据吗?答:不是。
数据作为一种电子化记录,无处不在,大多数情况下都无关企业重大利益,并没有治理的必要。因此,数据治理的对象必须是重要的数据资源,是关乎企业重大商业利益的数据资源。这样的数据资源可以称其为“数据资产”。关于数据资产更加详细的讨论将在下一节进行。这里不难获得一个结论:所谓数据治理,不是对数据的治理,是对能够为企业带来商业利益的数据资产的治理。数据资产显然是公司资产的一部分。
因此,无论是从狭义的角度还是广义的角度看,数据治理应该属于公司治理的范畴。所有关于公司治理的典型问题,都可能在数据资产上出现。公司资产会出现所有者与实际经营者分离的问题,数据资产更会出现。数据资产的所有者,跟实际使用经营者,几乎从来就不是同一个人,或者至少极具争议。公司资产的实际经营者(例如CEO),有可能用公司资产谋取私利;数据资产的实际控制者(例如数据库管理员),更有便捷的条件,通过倒卖数据,谋取私利。公司的利益有可能同外部第三方(例如环保主义者)发生冲突;这个问题对数据资产而言更加突出。
以电商平台为例,除了股东、管理层以外,相关数据资产有一个天生的第三方——消费者。股东管理层对数据的利益诉求,极容易同消费者这个第三方冲突。作为冲突的焦点,数据确权与隐私保护首当其冲。
总结一下,所谓“数据治理”,不是对“数据”的治理,而是对“数据资产”的治理,是对数据资产所有相关方利益的协调与规范。
三、数据资源资产化
数据治理是关于数据资产的治理,那么数据资产又是什么?行业中有一个广泛流传的误解,很多朋友不假思索地认为:“数据就是资产!” 错!数据不等于数据资产。
所谓数据就是电子化记录,电子化记录就是数据。但并不是任何数据都可以被称为资产,因为数据资产的要求更高,只有数据具备了资产属性后,才可以被称为数据资产。那么,基础会计学中,对资产的定义是什么?其对数据资产的定义能有什么启发?
新《企业会计准则-基本准则》第20条规定:“资产是指企业过去的交易或者事项形成的、由企业拥有或者控制的、预期会给企业带来经济利益的资源。”如果照猫画虎修改一下,不难获得一个关于数据资产的定义:“数据资产是指企业过去的交易或者事项形成的,由企业拥有或者控制的,预期会给企业带来经济利益的数据资源。”由此可见,数据要成为数据资产,至少要满足3个核心必要条件:(1)数据资产应该是企业过去的交易或者事项形成的;(2)企业拥有或者控制;(3)预期会给企业带来经济利益。
其中(1)似乎不是问题。企业数据资源的获得无外乎两种途径。第一种途径,是自己过去正常经营的一个自然积累与产出,或者由于业务实施的必要而被实际控制。例如,对电商网站而言,网络浏览日志数据、消费购买数据自然而然就产生了;为了给消费者快递商品,消费者的姓名、银行卡、手机号、地址等数据也被记录了下来,被电商网站实际控制。第二种途径,就是资源互换。可能是A企业通过货币(或者等价物)购买了B企业的数据,也可能是A企业的数据同B企业的数据做了等价置换。假设相关操作合法合规,那么这种途径获得的数据资源也符合数据资产定义的条件(1)。
但是,(2)似乎是一个很大的问题。根据核心条件(2),数据要成为资产,要么被企业合法合规地拥有,要么被企业合法合规地控制。对于普通资产而言,这似乎不是一个很大的问题,因为普通资产的产权非常明晰。但是对数据资产而言,产权非常不容易界定。还是以电商网站为例,网站积攒大量的关于消费者的消费记录数据。这些数据的实际控制者是电商网站,但是其合法的产权方是谁?这不是一个容易回答的问题。对于该数据的生产,电商网站提供了软硬件设备,似乎贡献巨大。但是,这些数据的内容,却由消费者生产,并且关乎消费者隐私,消费者也有无可争议的权益。这其中的矛盾冲突,如何通过科学合理的制度予以规范协调,这是一个极具挑战,需要大智慧的问题。关于数据确权与合规这个重要问题,后面一节还会进一步讨论。
最后,(3)似乎也不是一个容易解决的问题。数据要成为资产,就需要能够给企业带来可预期的经济收益,否则就不是资产。因此,那些被大量存储,产生可观存储成本,但是却不能给企业带来可预期经济收益的数据资源,也不能被称为数据资产。只有那些能够给企业带来可预期经济收益的数据资源,才能够被称为数据资产。什么样的数据资源才能够产生可预期的经济收益?这需要一些必要条件。
第一、记录电子化。电子化的记录才是数据,否则连数据都不算,怎么能产生可预期的经济收益,又怎么能从数据资源变成数据资产?请不要忽视记录电子化这个卑微的工作,其意义极其重大。因为相关行业中,大量的历史记录都没有被电子化,而这些记录中蕴藏着海量的宝贵信息。
最典型的例子莫过于:病历!虽然现在的医院大量采用电子化病历,但是过去几十年里可都采用的是纸质病历。这些病历上写满了只有医生护士才看得懂的天书。这样的纸质病历,一个大型三甲医院,就有上亿份之多!里面蕴藏了无比珍贵的临床数据。不把这些记录电子化,就成不了数据,支撑不了科学研究,支撑不了规模化应用,产生不了可预期的经济价值,因此不是数据资产。
第二、数据聚合。统一的数据聚合平台,是数据资产化的优质条件。如果没有统一的数据聚合平台,每次不同的业务需求,都会产生不一样的数据提取、整合、清理需求。这些需求常常需要和不同的业务部门沟通,在不同的数据库上直接操作。
这需要高昂的沟通成本,以及不平凡的数据库操作技能,而这些技能往往是数据需求方(例如:业务方)不具备的。最后只能拜托技术团队去完成,而技术团队的时间成本也非常高昂。过高的数据提取整理成本,会抵消数据资源原本应该产生的经济收益,成为数据资源资产化的巨大障碍。而要消除该障碍,一个统一规范的数据聚合平台不可或缺。
第三、质量保证。数据分析中有一句名言,叫做:“垃圾进去,垃圾出来 (Garbage in, garbage out)”。它讲的道理是,如果数据本身质量很差,如同垃圾一样,还用做模型输入,那么无论模型有多高大上,最后出来的结果仍然是垃圾,没有任何价值。可见数据质量的重要性。数据质量主要表现在以下几个方面:(1)真实性。虚假数据是没有任何意义的;真实的数据,常常分散在各个职能部门中。
如果没有合理且强力的制度保障,正常情况下,没有任何人愿意主动贡献自己的真实数据,他的利益何在?因此,合理而且强力的制度设计非常重要。(2)完整性。该收集整齐的数据要尽量收集整齐。一套数据对被记录对象的所有相关指标的完整程度越高,相关模型的预测精度就会越好,数据资源就越有价值。相反,过多的缺失数据会极大地伤害相关模型的预测精度,进而限制数据的应用能力。(3)精准性。有三层含义:第一层含义是数据的逻辑要合理。例如:对于大气数据而言,由于PM2.5是PM10的一部分,因此,相关数据必须满足PM10的数值要大于PM2.5,否则就不合逻辑,是错误数据。第二层含义是数据的细致程度。同样的数据,不同的采集方式,不同的存储方式,带来的数据细致程度是不一样的。以车联网数据为例,数据采集应该细致到每秒?还是每15秒?在不考虑成本的情况下,显然越细致越好。第三层含义是数据的精确程度。以定位数据为例,应该精确到10米以内?还是1米以内?在不考虑成本的情况下,显然数据精度越高,对于业务的支撑能力越强。
四、数据确权与合规
随着社会的发展,隐私保护问题越来越受重视。所谓隐私保护就是要保护关乎个体隐私的数据。个人隐私数据之所以应该受到保护,就是因为这些数据的滥用有可能对个人造成巨大的财产甚至人身伤害。所谓隐私保护,其实就是对隐私数据的保护。一个最理想的情况是,能够在产权层面,确立相关个人作为隐私数据的合法的唯一拥有者。这就需要一个法律基础:对数据产权(包括但不局限于隐私数据)的确定,也就是数据确权。如果暂时做不到数据确权,那么至少要做到,对隐私数据实际控制者的行为要严加管束,做到合法合规。要避免,因为数据资产的错误使用,给任何相关方造成不必要的损失。因此,相关的数据治理规则非常重要,主要关注几个方面。
第一、数据确权。数据一旦成为资产,就一定有产权方,或者实际控制人,可以把他们统称为主人。请问:数据资产的主人到底是谁?
如同实物资产一样,如果一不小心,错用了别人的资产,可能会产生严重的法律后果。对于实物资产,确权似乎不是一个问题。因为,无论是桌椅板凳,还是电脑打印机,它们在产权层面是非常明晰的。制造商独立制造了这些产品,整个制造过程跟消费者无关,制造商独享产权。制造完成后,消费者通过付费,获得了这些实物资产的产权。但是,数据的生产过程太不一样了。以电商为例,大量的消费者数据被电商平台所掌控(例如:消费者的个人信息、购物信息等),电商平台事实上在经常使用这些数据为自己的业务服务(例如:支撑电商平台自己的个性化推荐)。甚至,不负责任的电商可能通过各种灰色交易将数据售卖给了莫名其妙的第三方。但是,这些数据资产的生产过程,可不是电商平台自己能够完成的。电商平台提供了“平台”,在这个平台上,消费者通过注册、浏览、订阅、购买、评论等一系列行为生产了相关的数据。因此,整个数据资产的生产过程,既有电商平台的贡献(在线场景、软硬件环境),也有消费者的贡献(注册、浏览、订阅、购买、评论)。这样的数据资产,其产权归属如何确定,其控制权应该如何治理?主人到底是谁?这是一个极具挑战性,而又非常重要的问题。
第二、数据采集。大量的数据采集来自业务实践,但相应的数据采集过程是否合法合规?
有几个基本的原则可供参考。第一个原则是“合法正当原则”。显然,非法采集的数据,通过不正当途径获得的数据,是不能采用的。第二个原则是“知情同意原则”。数据作为一种电子化记录,大量记录了关乎个人隐私(例如:姓名、手机号、身份证)或者商业机密(股权结构)的信息,因此非常敏感。采集如此敏感的信息,被采集方充分的知情、同意,并且授权,是必不可少的先决条件。第三个原则是“必要性原则”。由于数据可能涉及个人隐私或者商业机密等敏感信息,因此,数据采集应该遵循越少越好的原则。例如,一个电商平台的APP,采集用户的姓名、银行卡、手机号、地址等信息,非常必要。否则,无法完成在线支付、线下快递等必要业务。但是,如果该APP同时采集你的社交圈信息,还要看你的电话簿记录,这似乎就违背了数据采集的必要性原则。
第三、使用场景。即使企业对数据拥有100%的产权,或者合法合规的实际控制权,也不能对数据不分场景地任意使用。
这个道理其实好懂。
假设你拥有100个鸡蛋,你对这100个鸡蛋拥有100%的产权。这是否代表你可以对鸡蛋做任意处置?不可以!任何处置方式,都必须满足一个基本前提:不对他人造成不必要的伤害。例如,你可以把这100个鸡蛋变成:煮鸡蛋、煎鸡蛋、蒸鸡蛋。但是,你不能拿鸡蛋去大马路上扔汽车的挡风玻璃。这可就太危险了,容易引起交通事故,给他人造成伤害。由于数据记录了大量关乎机构或者个人的敏感信息,因此数据资产的使用场景,要慎之又慎!
坊间传闻,腾讯内部对QQ和微信的聊天记录(数据)给予最高的保密级别,称为“高压线”,不准任何人碰这部分数据。原因何在?这部分数据涉及到太多的用户隐私。这是一个负责任企业自我约束的好例子。因此,数据治理的一个重要工作就是定义数据的使用场景。什么样的数据,可以应用于什么场景?支持什么产品?谁来使用?使用的前提条件?都需要认真思考,需要必要的规章制度。
第四、使用手段。接下来应该关注的是数据的使用手段。即使企业对于数据拥有了100%的产权,也确定了一个合法合规的使用场景,也要对数据的使用手段非常谨慎。
因为数据记录了敏感信息,因此对数据的每次加工使用,都有泄密的风险。为此,要对数据的使用手段做出必要的合规要求。
这里继续沿用上面的例子。你对这100个鸡蛋拥有100%的产权,并且有一个合规的使用场景:餐厅。餐厅售卖各种加工后的鸡蛋,例如:煮鸡蛋、煎鸡蛋、蒸鸡蛋。结果某吃货发现,你给他提供的单面煎鸡蛋里面居然有三个蛋黄,这是一个极少见的“三黄蛋”!没想到,该吃货是鸡蛋大数据的高手,经过他的大数据分析,最后判断,世上能够产三黄蛋的老母鸡只能是隔壁家老李鸡场的78号老母鸡。该吃货把这个消息在微博微信上大肆宣扬,后果是老李鸡场78号老母鸡的隐私没了。其他老母鸡都知道78号下三黄蛋,觉得非常奇葩,超级鄙视,议论纷纷。78号老母鸡因此患上了严重的抑郁症,失去了产蛋能力,最后被主人老李炖成了一锅鲜美的鸡汤,下场好惨!这个例子说明,粗心大意的数据使用手段,容易产生隐私泄露的风险。因此,必要的隐私保护(或者加密)技术,应该被积极采纳。例如,当初厨房的鸡蛋治理制度规定:不许加工单面煎鸡蛋(能看出三个蛋黄来),而是要求蛋黄蛋清必须打碎搅和均匀后才能做进一步加工(例如:蒸鸡蛋、炒鸡蛋)蛋,这并不会对鸡蛋的美味产生太大的影响,但是却能够极小化三黄蛋(一个敏感信息)被识别的可能性,因此78号老母鸡的隐私也被保护了。
第五、数据安全。由于大量数据关乎个人隐私、商业机密,因此数据安全是一个非常重要的问题。现实生活中的数据泄露比比皆是。我自己的经验是,只要孩子参加了一个课外培训班(例如:英语),其他同行培训机构就会跟上来。曾几何时,有租房经验的朋友也知道,只要在任何一个房地产中介留下过租房信息,很快就有更多的中介找上门来。我们的个人手机号码,如此重要的个人数据,是如何泄露的?数据安全是整个数据产业正在面临的重大问题!数据安全的保障需要必要的软件和硬件。但是,最需要的是一个合理的数据治理制度。该制度应该对数据从产生、使用、到消亡的整个链条进行严格治理。具体内容包括但不局限于:存储安全管理、用户匿名化、访问权限管理等。
五、价值创造与人才培养
数据资产作为一种资产的必要条件是产生可预期的经济收益,或者商业价值。但是,如何才能让数据资产创造出最大的商业价值,相应的制度保障又是什么?
孤立而纯粹的数据没有价值,哪怕是聚合在统一的数据平台上的数据资产也没有价值。数据价值的彰显必须依赖于具体的、带有不确定性的业务场景。为此,企业需要:(1)寻找带有不确定性的业务场景,因为只有“不确定性”这个乱世,才有成就“价值”这个英雄的机会;(2)将该业务问题转化成为一个,关于Y(因变量)和X(自变量)的数据可分析问题。从此,抽象的业务问题,变成了具体的数据分析技术问题。这是数据资产价值创造的基本套路。为此,企业的经营管理团队,从上到下,都需要有数据思维的能力,尤其需要有回归分析的思想。如果业务团队缺乏数据思维能力,就无法把错综复杂的业务问题,转换成为技术团队擅长的数据可分析问题;如果技术团队缺乏数据思维能力,就无法准确理解业务需求,无法设计正确的数据产品;如果企业中层缺乏数据思维能力,朴素的数据价值观就无法在企业内部树立,回归分析标准的Y X语言就难以普及;如果企业高层缺乏数据思维能力,就无法从战略的高度,理解数据资产的商业价值,将失去开拓优质数据业务战略新方向的能力,并造成企业价值在资本市场的低估。
由此可见,数据资产价值创造,不是一个人两个人的事情,是企业全员团队的事情。需要企业各个岗位的员工、管理者都深谙数据商业价值之道,并在各自的业务实践中,自觉(甚至不自觉地)寻找可以彰显数据价值的业务机会。为此,企业需要全员的,以回归分析思想为核心的数据思维能力。由此可见,价值创造的过程,本质上是一个数据思维培养的过程,是一个全员人才培养的过程。为此,一方面需要对现有人员的数据思维能力做全面的培养提升,另一方面可以考虑在各个核心骨干的业务部门设立专门的岗位。该岗位人员的主要职责不是业务,不是数据,更不是技术,而是应该承担链接业务与数据的桥梁作用。为此,相关人员需要对业务、数据、技术都有足够的了解。对专业深度要求低一些,但是专业广度要求更高,而这样的人才就是商业分析人才。
由此可见,对数据资产的价值创造而言,数据治理应该关注的不是太过具体的业务问题。真实的商业环境千变万化,带有极强的不确定性,不可能通过一成不变的规章制度去治理。以银行业金融机构为例,站在任何一个时间点,都无法绝对准确预测,未来的商业形态会怎样?业务内容会怎样?相应的数据分析会怎样?因此,作为一个纲领性的制度设计,数据治理不应该过分关注具体业务问题。相反,应该关注人才团队的建立与培养,这才是价值创造的沃土。由于商业环境的变迁,业务形态的变化,数据价值的多样性,人们对于这片沃土上会结出什么花朵,什么果实,并不确定。但是,只要精通数据思维的人才沃土在,就一定会开出鲜艳的花朵,结出丰硕的果实。因此,培养人才,培养具备数据思维能力的人才,培养企业从上到下精通回归分析思想的人才,并为此提供科学的制度保障,这才是数据资产治理在价值创造这方面应该关注的重点。
六、讨论与总结
就在本文形成的过程中,大洋彼岸传来一个令人震惊的消息。据媒体报道,一家叫做剑桥分析(Cambridge Analytica)的数据公司,违规使用了5000万Facebook用户数据。通过对这些数据分析,预测每个人的政治倾向,然后动用心理学手段,形成干预的内容,最后通过Facebook的广告信息,将干预内容推送到用户面前,也许能达到不知不觉中改变一个人政治倾向的目的。
作为一个普通的读者,我们无法判断这样做的实际效果。但是,可以确认的一点是,Facebook的数据治理有重大缺陷。Facebook用户数据由Facebook实际控制着,并将该数据应用于其广告系统,为Facebook带来可观收益。对于这样的数据资源确权如果太困难,那么至少要做到合法合规。
为此,Facebook应该对数据的使用场景(例如:政治宣传或干预),以及使用手段(例如:通过广告系统推送个性化信息),建立更加严格的规章制度,加强数据治理。
最后,想用Facebook创始人马克扎克伯格就Cambridge Analytica数据违规使用问题的部分声明作为结尾,同关心数据产业健康发展的同行们共勉:
I started Facebook, and at the end of the day I'm responsible for what happens on our platform. I'm serious about doing what it takes to protect our community. While this specific issue involving Cambridge Analytica should no longer happen with new apps today, that doesn't change what happened in the past. We will learn from this experience to secure our platform further and make our community safer for everyone going forward.