|0x00 数据资产的重要性

在最近几年的业务发展中,数据都是各大公司建设的“宠儿”,几乎所有的业务都围绕数据展开,其重要性堪比信息化时代的“石油”。因此,大多数的公司都会建设自己的数据资产平台,一方面是为了做一些诸如统一数据口径一类的基础工作,另一方面也是为了深入挖掘数据的价值,为企业带来高额的利润回报。

回看过去的发展历史,围绕着数据的采集、建设、管理和应用,已经基本形成了体系化的建设方法。运营在做定价的时候,需要数据的支持;财务在评估预算的时候,需要数据的支持;法务在判定风险时,同样需要数据的支持…… 同时,随着企业发展的进行,数据口径的统一需要对数据进行治理;成本的管理需要对数据进行治理;支持业务的增多需要对数据进行治理…… 凡此种种,当我们缺少了数据资产门户的时候,很多的治理和查询工作,便很容易产生乱子。

某些意义上,数据资产的整理,是一种“脏活累活”,需要持续的维护和迭代,但做好之后,其发挥的价值,也是非常大的,只不过这种价值需要依附于别的项目才能体现出来。

因此,本文简单介绍一种整理数据资产的方法,供大家交流,篇幅不长,介绍思路更多一些。

|0x01 数据的整理

其实数据的整理,用“运营”的思路来讲,更像是“品类规划”。只有把类目和索引做到了,全局层面便有了可视化的基础,后续资产的整理和归类,也会有科学的指引。

像比较大一点的互联网公司,业务通常不是单一的,因此如何仿照类目的思路,将一、二、三级索引做好,就是一个关键点和难点。

从消费者的视角,可以根据行为偏好、互动行为、个人属性、社交关系等方面构建类目,行为偏好又可以分为购买行为、点击行为、浏览行为,等等;从业务的视角,可以根据电商、金融、社交、媒体等业务属性构建类目,电商又可以分为B2C、C2C、B2B2C等不同的业务模式;从部门的视角,又可以根据XX事业部这种方式来建设,然后一级一级细分到具体负责的团队。总之,根据某一种分类的原则,将一二三级类目做完整,通常情况下可以很快的定位到需要的数据。

当然,只有类目也是不行的,这时候支持一个基本的搜索功能,将业务名、表名、字段名、属性名等做成模糊匹配的方法,供用户搜索和查询,便可以支持绝大多数的自行查询场景。

当然,因为表或者字段的展示格式都是固定的,因此搜索的结果可以做到非常的美观,配合手工打上的标签,90%以上的场景都可以支持用户自定义查询。

总结一下,资产的导航,适合以“类目”的方式进行组织,以搜索的方式配合使用,展示的接口以树形最佳,配合标签等个性化的内容,可以最大程度上满足查询诉求。

|0x02 数据的获取和使用

当用户查询到需要使用的数据时,下一步便是如何获取和使用数据。在通常的技术场景下,研发的同学只需要申请对应的表权限既可以获得。

但现在是有三种情况,我们需要分别看获取的方式:

一种是这种数据不适合直接开放底表,因为权限隔离的缘故,不能把所有权限开放出去,这时候就需要有资产分离的功能,也就是根据适用范围申请数据;

一种是非技术的同学申请,通常直接给一个表也是不知道怎么用的,可能给一个数据看板,或者是申请一个数据集,更合适一些,非研发的同学,可以使用报表工具自行配置。当然这种场景可以支持的数据查询能力会比较有限,需要尽可能的将报表的门户建设做好之后,再开放出去;

一种是有明确数据安全场景的诉求,比如最近刚出台的“个保法”,对于用户隐私的数据监管非常严格,这时候就需要配套有对应的法务审批或者是其他的数据安全接口人审批,这里的流程也是要单独设置的。

但不论哪种方式,都少不了完善的数据使用流程,这其实是属于“流程管理”的范畴,系统通常会默认指定审批人,但如果有特殊的需要,比如“个保法”,通常也需要能够自行设定审批流程。

总结一下,数据的获取,根据场景和使用人的不同,提供数据表、字段或者是报表等多种方式,同时要配合有相应的权限审批和资产分离的功能。

|0xFF 数据的治理

数据的治理也是一项比较重要但繁琐的工作。因为数据资产的录入,通常是人来维护的,那么相同的指标,录入多次的时候,用户以哪次为准呢?这就是最典型维护难题,因此,在录入或者自动更新数据的时候,提供一些提示性的功能,或者通过“精品”、“临时”等标签予以区分,也是一种可行的思路。

因而,通常情况下,技术提供的公共资产,一般以公共层的数据为准,只有明确使用场景的情况下,ADS才会被提供出来。

接下来,就是针对庞大的数据资产,构建自动化的诊断和分析功能了,关于如何用数据来治理资产,参考个人之前的文章《数据资产治理概要:用数据来治理数据》。标准化的治理之前,通常需要有全局的数据资产视图,才能制定出明确的目标、范围和结果。

最后,数据资产的使用,通常也是需要有稳定性的治理,比如每个表或者某一份数据,更新的频率、每次更新的时间等,都需要有说明提供给使用者,而开发来维护显然是不现实的,因此通过监控Hadoop集群的运行结果来自动更新,就是一种不错的方法。同时,一些执行明显偏慢但又使用者非常多的数据,也可以有相应的预警邮件提供给使用者。

数据资产的管理,底层也是基于数仓建模、数据平台、元数据标准、质量监控等基础的机制,配合组织的审批、管理等标准,最终才能服务于顶层战略。