数据中台术语整理


文章目录

  • 数据中台术语整理
  • 什么是数据中台
  • 数据中台架构
  • 数据汇聚联通
  • 数据体系建设
  • 数据资产管理
  • 数据服务体系建设
  • 公众号
  • 参考


什么是数据中台

数据中台

  • 数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,是依据企业特有的业务模式 和组织架构,通过有形的产品和实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制。 – 《数据中台 让数据用起来》 P22
  • 数据中台需要具备:数据汇聚整合、数据提纯加工、数据服务可视化、数据价值变现四个核心能力,让企业员工、客户、伙伴能够方便地应用数据。 – 2019 Forrester 数据中台行业白皮书《拥抱数据中台,加速数字化转型》

汇聚整合

  • 数据中台需要对数据进行整合和完善,提供适用、适配、成熟、完善的一站式大数据平台工具,在简便有效的基础上,实现数据采集、交换等任务配置以及监控管理。-- 《数据中台 让数据用起来》 P24
  • 背景:随着业务的多元化发展,企业内部往往有多个信息部门和数据中心,大量系统、功能和应用重复建设,存在巨大的数据资源、计算资源和人力资源的浪费,同时组织壁垒也导致数据孤岛的出现,使得内外部数据难以全局规划。

提纯加工

  • 数据中台必须连通全域数据,通过统一的数据标准和质量体系,建设提纯加工后的标准数据资产体系,以满足企业业务对数据的需求。-- 《数据中台 让数据用起来》 P25
  • 数据需要经过提纯加工才能使用,这个过程就是数据资产化。
  • 背景:传统的数字化建设往往局限在单个业务流程,忽视了多业务的关联数据,缺乏对数据的深度理解。

服务可视化

  • 数据中台必须提供便捷、快速的数据服务能力,让相关人员能够迅速开发数据应用,支持数据资产场景化能力的快速输出,以响应客户的动态需求。-- 《数据中台 让数据用起来》 P26
  • 背景:多数企业期待数据中台可以提供数据化运营平台,帮助企业快速实现数据资产的可视化分析,提供包括实时流数据分析、预测分析、机器学习等更为高级的服务,为企业数据化运营赋能。
  • 背景:随着人工智能技术的发展,多数企业期待AI的能力能应用到数据中台上,数据中台必须提供丰富的分析功能,数据资产必须服务于业务分析才能解决企业在数据洞察方面的短板,实现与业务的紧密结合。

价值变现

  • 数据中台通过打通企业数据,提供以前单个部门或者单个业务单元无法提供的数据能力,以实现数据的更大价值的变现。-- 《数据中台 让数据用起来》 P27
  • 背景:企业期待数据中台能提升跨部门的普适性业务价值能力,更好地管理数据应用,将数据洞察变成直接驱动业务行动的核心动能,跨业务场景推进数据实践。
  • 背景:企业对于如何评估业务行动的效果也十分关注,因为没有效果评估就难以得到有效反馈,从而难以迭代更新数据应用,难以持续为客户带来价值。

数据中台架构

数据汇聚

  • 数据汇聚是数据中台数据接入的入口。。-- 《数据中台 让数据用起来》 P54
  • 背景:数据中台本身几乎不产生数据,所有数据来自于业务系统、日志、文件、网络等,数据汇聚是数据中台必须提供的核心工具,把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储,为后续的加工建模做准备。从汇聚的时效性来分,有离线批量和实时采集。

数据开发

  • 数据开发是一整套数据加工以及加工过程管控的工具,有经验的数据开发、算法建模人员利用数据加工模块提供的功能,可以快速把数据加工成对业务有价值的形式,提供给业务使用。-- 《数据中台 让数据用起来》 P56
  • 说明:数据开发模块主要面向开发人员、分析人员,提供离线、实时、算法开发工具,以及任务的管理、代码发布、运维、监控、告警等一系列集成工具。

数据体系

  • 数据体系是数据中台的血肉,开发、管理、使用的都是数据;不同的企业因业务不同导致数据不同,但数据建设方法可以相似,数据要统一建设,数据按照贴源数据、统一数仓、标签数据、应用数据的标准统一建设。-- 《数据中台 让数据用起来》 P56

数据资产管理

  • 数据资产管理包括对数据资产目录、元数据、数据质量、数据血缘、数据生命周期等进行管理和展示,以一种更直观的方式展现企业的数据资产,提升企业的数据意识。-- 《数据中台 让数据用起来》 P56
  • 背景:通过数据体系建立起来的数据资产较为偏技术,业务人员比较难理解。资产管理是以企业全员更好理解的方式,把企业的数据资产展现给企业全员(当然要考虑权限和安全管控)。

数据服务体系

  • 数据服务体系就是把数据变为一种能力,通过数据服务让数据参与到业务,激活整个数据中台,数据服务体系是数据中台存在的价值所在。 – 《数据中台 让数据用起来》 P57
  • 背景:利用数据汇聚、数据开发建设企业的数据资产,利用数据管理展现企业的数据资产,但是并没有发挥数据的价值。
  • 说明:数据中台的服务模块并没有自带很多服务,而是提供快速的服务生成能力以及服务的管控、鉴权、计量等功能。

运营体系和安全管理

  • 运营体系和安全管理是数据中台得以健康持续运转的基础,使得数据中台持续发挥数据的应用价值。 – 《数据中台 让数据用起来》 P57

数据汇聚联通

结构化数据

  • 规则、完整,能够通过二维逻辑来表现的数据,严格遵循数据格式与长度规范,常见的有数据库表、Excel等二维表。 – 《数据中台 让数据用起来》 P87
  • 说明:主要是关系型数据库中的数据,直接从业务系统DB抽取到贴源数据层。

半结构化数据

  • 数据规则、完整,同样严格遵循数据格式与长度规范,但无法通过二维关系来实现,常见如JSON、XML等形式表达的复杂结构。 – 《数据中台 让数据用起来》 P87
  • 说明:一般是纯文本数据,以各种日志数据为主,半结构化数据保留贴源数据的同时也做结构化处理,为后续使用做准备。

非结构化数据

  • 数据结构不规则或不完整,不方便用二维逻辑来表现,需要经过复杂的逻辑处理才能提取其中的信息内容,如办公文档、图片、图像和音视频等。 – 《数据中台 让数据用起来》 P88
  • 说明:主要是图片、音频、视频,一般保留在文件系统中,由于这类数据量一般比较庞大,而且没有太多挖掘分析价值,所以贴源数据层不保留原始文件,只保留对原始数据文件的描述,比如地址、名称、类型、分辨率等。

OLTP(On-Line Transaction Processing,联机事务处理)

  • 是专注于面向事务的任务的一类数据处理,通常涉及在数据库中插入、更新或删除少量数据,主要处理大量用户下的大量事务。 – 《数据中台 让数据用起来》 P98
  • 说明:一般都是高可用的在线系统,以小的事务以及小的查询为主,评估其系统的时候,一般看其每秒执行的事务及查询的数量。

OLAP(On-Line Analytical Processing,联机分析处理)

  • 主要通过多维的方式来对数据进行分析、查询并生成报表,有的时候也叫DSS(决策支持系统)。 – 《数据中台 让数据用起来》 P98
  • 说明:常用于报表分析场景,相对于 OLTP ,对准确性、事务性和实时性要求较低。
  • 说明:OLAP 系统的应用主要是对用户当前的数据和历史数据进行分析,帮助市场做决策,制定营销策略,主要用来执行大量的查询操作,对实时要求低。

数据体系建设

贴源数据层 ODS(Operational Data Store,操作数据层)

  • 对各业务系统数据进行采集、汇聚,尽可能保留原始业务流程数据,与业务系统基本保持一致,仅做简单整合、非结构化数据结构化处理或者增加标识数据日期描述信息,不做深度清洗加工。 – 《数据中台 让数据用起来》 P139

统一数仓层 DW(Data Warehouse)

  • 又细分为 明细数据层 DWD(Data Warehouse Detail) 和 汇总数据层 DWS(Data Warehouse Summary),与传统数据仓库功能基本一致,对全历史业务过程数据进行建模存储。 – 《数据中台 让数据用起来》 P139
  • 说明:对来源于业务系统的数据进行重组织。业务系统是按照业务流程方便操作的方式来组织数据的,而统一数仓层从业务易理解的视角来重新组织,定义一致的指标、维度,各业务板块、业务域按照统一规范独立建设,从而形成统一规范的标准业务数据体系。

标签数据层 TDM(Tag Data Model)

  • 面向对象建模,对跨业务板块、跨数据域的特定对象数据进行整合,通过 ID-Mapping 把各个业务板块、各个业务过程中的同一对象的数据打通,形成对象的全域标签体系,方便深度分析、挖掘、应用。 – 《数据中台 让数据用起来》 P139

应用数据层 ADS(Application Data Store)

  • 按照业务的需要从统一数仓层、标签数据层抽取数据,并面向业务的特殊需要加工业务特定数据,以满足业务及性能需求,向特定应用组装应用数据。 – 《数据中台 让数据用起来》 P139

ETL(Extract-Transform-Load)

  • 抽取、转换、装载,装载到数仓的是被清洗转换后的数据。 – 《数据中台 让数据用起来》 P141
  • 说明:这样的方式如果转换规则复杂,就会导致在ETL过程中消耗大量的计算资源,另外如果转换有错误,由于没有保留原始数据,则会导致在数仓层面无法追溯问题。进入大数据时代,由于存储成本降低和数据量增大,导致ETL过程中的复杂处理非常耗时,因此建议采用 ELT(Extract-Load-Transform) 方式。

ELT(Extract-Load-Transform)

  • 将所有原始数据都抽取数据中台的贴源数据层,在数据中台内部再利用大数据底层平台的计算能力进行转换操作。 – 《数据中台 让数据用起来》 P141
  • 说明:这样既可让数据的抽取过程尽可能简单,又保留了所有的原始数据,以便于问题的追溯,还能充分利用大数据的计算能力。

业务板块

  • 根据业务的属性划分出的相对独立的业务板块,业务板块是一种大的划分,各业务板块中的业务重叠度极低,数据独立建设。 – 《数据中台 让数据用起来》 P147
  • 说明:如地产板块、金融板块、医疗板块等。

模型设计

  • 以建模理论为基础,基于维度建模总线架构,构建一致性的维度和事实,同时设计出一套表命名规范。 – 《数据中台 让数据用起来》 P147

数据域

  • 数据域是统一数仓层的顶层划分,是一个较高层次的数据归类标准,是对企业业务过程进行抽象、提炼、组合的集合,面向业务分析,一个数据域对应一个宏观分析领域。 – 《数据中台 让数据用起来》 P147
  • 说明:如采购域、供应链域等。数据域是抽象、提炼出来的,并且不轻易变动,既能涵盖当前所有业务需求,又能在新业务进入时无影响地将其分配到已有的数据域中,只有当所有分类都不合适时才会扩展新的数据域。数据域是有效归纳、组织业务过程的方式,同时方便定位指标/度量。

业务过程

  • 业务过程是一种企业的业务活动事件,且是企业经营过程中不可拆分的行为事件。 – 《数据中台 让数据用起来》 P147
  • 说明:如下订单、银行转账、账号注册都是业务过程。业务过程产生度量,并且会被转换为最终的事实表中的事实。业务过程一般与事实表一一对应也有一对多或者多对一的特殊情况,比如累计快照事实表就会把多个业务过程产生的事实在一张表中表达。

修饰词

  • 修饰词指除统计维度以外的对指标进行限定抽象的业务场景词语,修饰词隶属一个修饰类型。 – 《数据中台 让数据用起来》 P147
  • 说明:如在日志域的访问终端类型下,有修饰词PC、无线端。修饰类型的出现是为了方便管理、使用修饰词。

原子指标

  • 原子指标是针对某一业务事件行为的度量,是一种不可拆分的指标,具有明确业务含义。 – 《数据中台 让数据用起来》 P148
  • 说明:如支付金额。原子指标有确定的字段名称、数据类型、算法说明、所属数据域和业务过程。原子指标一般采用“动作+度量”方式命名,比如支付金额、注册用户数。

派生指标

  • 派生指标可以理解为对原子指标业务统计范围的圈定。 – 《数据中台 让数据用起来》 P148
  • 说明:如最近1天北京买家支付金额。派生指标=1个原子指标+多个修饰词+时间修饰词。

计算方法

  • 指标的数学计算方式,比如汇总、平均、最大、最小等。 – 《数据中台 让数据用起来》 P148

维度表

  • 维度是观察事物的角度,提供某一业务过程事件所涉及的用于过滤及分类事实的描述性属性,用于描述与“谁、什么、哪里、何时、为什么、如何”(5W1H)有关的事件。 – 《数据中台 让数据用起来》 P148
  • 维度表是统一设计的,在整个数据仓库中共享,所有数据域、业务过程都需要用到维度,都可以在公共维度表中获取相关维度属性。

事实表

  • 事实是观察事物得到的事实数据,事实涉及来自业务过程事件的度量,基本都是以数量值表示。 – 《数据中台 让数据用起来》 P148
  • 说明:在确定数据域与业务过程后,就可以根据业务过程涉及的维度、度量及粒度,设计相关的事实表。事实表不跨数据域,根据需要,一个事实表可能对应同数据域下一个或多个业务过程。事实表又分为明细事实表和汇总事实表。
  • 说明:明细事实表记录事务层面的事实,保存的是原子数据,数据的粒度通常是每个事务一条记录,明细事实表数据被插入,数据就不再进行更改,其更新方式为增量更新。
  • 说明:汇总事实表是把明细事实表聚合形成的事实表,包括以具有规律性的、可预见的时间间隔

粒度

  • 粒度是指统一数仓层数据的细化或综合程度,对各事实表行实际代表的内容给出明确的说明,用于确定某一事实表中的行为表示什么。 – 《数据中台 让数据用起来》 P148
  • 说明:确定维度或者事实之前必须声明粒度,因为每个维度和事实都必须与定义的粒度保持一致。原子粒度是最低级别的粒度,是对业务过程最详细的刻画,原子粒度事实必须保留。

一致性指标定义

  • 指标归属到具体数据域定义指标的含义、命名、类型、计算方法,确保指标的全局一致性。 – 《数据中台 让数据用起来》 P148

事务事实表

  • 事务事实表描述业务过程事务层面的事实,每条记录代表一个事务事件,保留事务事件活动的原始内容。 – 《数据中台 让数据用起来》 P154
  • 说明:事务事实表中的数据在事务事件发生后记录,一般记录后数据不再进行更改,其更新方式为增量更新。事务事实表相对其他事实表保存的数据粒度更细,可以通过事务事实表对事务行为进行详细分析。

周期快照事实表

  • 周期快照事实表以具有规律性、可预见的时间间隔产生快照来记录事实,每行代表某个时间周期的一条记录,记录的事实是时间周期内的聚集事实值或状态度量。 – 《数据中台 让数据用起来》 P154
  • 说明:周期快照事实表的内容一般在所表达的时间周期结束后才会产生,一般记录后数据就不再更改,其更新方式为增量更新。周期快照事实表一般是建立在事务事实表之上的聚集,维度比事务事实表少,粒度比事务事实表粗,但是由于对事实进行了多种形式的加工从而产生了新的事实,故一般事实会比事务事实多。

累计快照事实表

  • 累计快照事实表覆盖一个事务从开始到结束之间所有的关键事件,覆盖事务的整个生命周期,通常具有多个日期字段来记录关键事件时间点。 – 《数据中台 让数据用起来》 P154
  • 说明:周期快照事实表涉及的多个事件中任意一个的产生都要做记录,由于周期快照事实表涉及的多个事件的首次加载和后续更新时间是不确定的,因此在首次加载后允许对记录进行更新,一般采用全量刷新的方式更新。

对象

  • 是客观世界中研究目标的抽象,可以是现实存在的,也可以是虚拟的,是具备独立特征的个体,比如自然人、产品、账户等。 – 《数据中台 让数据用起来》 P159

对象标识

  • 对象的标识符用以标识一个对象,一般是各种ID,比如手机号、身份证、登录账号等。 – 《数据中台 让数据用起来》 P159

标签

  • 利用原始数据,通过一定的加工逻辑产出,能够为业务所直接使用的可阅读、易理解、有业务价值的数据。 – 《数据中台 让数据用起来》 P159

标签类目

  • 是标签的分类组织方式,是标签信息的一种结构化描述,目的是管理、查找标签,一般采用多级类目。 – 《数据中台 让数据用起来》 P160

属性标签

  • 属性是对实体基本性质的刻画,属性的变化非常缓慢,有些甚至永远固定,属性是一类实体区别于另一类实体的差异所在。属性标签是根据人类对实体的长期认知得出的,比如性别、年龄、体重。 – 《数据中台 让数据用起来》 P160

统计标签

  • 统计标签是特定场景下,维度和度量的组合。构建出实体所在场景的维度、度量矩阵,就可以根据经验和实际业务需要组装统计标签,比如日均登录次数、最近30天交易额。 – 《数据中台 让数据用起来》 P160

算法标签

  • 算法标签是不可以直接获取的,需要通过复杂逻辑分析推理得出,是通过分析对象在多个场景下发生多个事件的规律性得出的相关结论,比如信用指数、购买能力、品牌偏好。 – 《数据中台 让数据用起来》 P160

标签融合表

  • 以对象为核心把属性标签、统计标签、算法标签组装起来得到的表,是标签数据层落地的产出物。标签融合表设计要考虑标签的类目结构进行合理组织。 – 《数据中台 让数据用起来》 P160

数据资产管理

数据资产

  • 由企业拥有或控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源。 --《数据资产管理实践白皮书4.0》 中国信通院 2019年6月

数据资产管理

  • 规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关的数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。 --《数据资产管理实践白皮书4.0》 中国信通院 2019年6月
  • 说明:-《数据资产管理实践白皮书4.0》中阐述的数据资产管理的八大职能中,数据标准管理、元数据管理、数据质量管理和数据安全管理等同时也属于传统数据治理的必要工作内容。数据资产管理在传统数据治理的基础上,加入了数据价值管理、数据共享管理等内容。

数据治理

  • 是指对数据资产管理行使权力和控制的集合(规划、监督和执行)。 – 《数据中台 让数据用起来》 P201

数据血缘分析

  • 指的是获取到数据的血缘关系,以历史事实的方式记录数据的来源、处理过程等。 – 《数据中台 让数据用起来》 P217
  • 说明:数据血缘分析对于用户具有重要的价值,比如当时在数据分析中发现问题数据的时候,可以依赖血缘关系,追根溯源,快速定位到问题数据的来源和加工流程,减少分析的时间和难度。
  • 说明:数据血缘和影响性分析主要解决“数据之间有什么关系”的问题。

数据影响性分析

  • 它能分析出数据的下游流向。当系统进行升级改造的时候,如果修改了数据结构、ETL程序等元数据信息,依赖数据的影响性分析,可以快速定位出元数据修改会影响到哪些下游系统,从而减少系统升级改造带来的风险。 – 《数据中台 让数据用起来》 P217

数据冷热度分析

  • 主要是对数据数据表的被使用情况进行统计,如表与ETL程序、表与分析应用、表与其他表的关系情况等,从访问频次和业务需求角度出发,进行数据冷热度分析,用图表展现表的重要性指数。 – 《数据中台 让数据用起来》 P219
  • 说明:用户可以参考数据的冷热度报告,结合人工分析,对冷热度不同的数据做分层存储,以便更好的利用HDFS资源,或者评估是否对失去价值的这部分数据做下线处理,以节省存储空间。

主数据(Master Data)

  • 是指用来描述企业核心业务实体的数据,是企业核心业务对象、交易业务的执行主体,是在整个价值链上被重复、共享应用于多个业务流程的、跨越各个业务部门和系统的、高价值的基础数据,是各业务应用和系统之间进行数据交互的基础。 – 《数据中台 让数据用起来》 P220
  • 说明:从业务角度,主数据是相对“固定”的,变化缓慢。主数据是企业信息系统的神经中枢,是业务运行和决策分析的基础。常用的主数据如供应商、客户、企业组织机构和员工、产品、渠道、科目、交易方式等。

主数据管理(Master Data Management,MDM)

  • 是一系列规则、应用和技术,用以协调和管理与企业的核心业务实体相关的系统记录数据。 – 《数据中台 让数据用起来》 P220
  • 说明:主数据管理的主要内容包括如下几项:主数据相关标准及规范设计、主数据建模、主数据梳理与集成、主数据质量管理、建立灵活的主数据共享服务、建立主数据维护流程。
  • 说明:主数据管理通过对主数据值进行控制,使得企业可以跨系统使用一致的和共享的主数据,提供来自权威数据源的协调一致的高质量主数据,降低成本和复杂度,从而支撑跨部门、跨系统数据融合应用。

数据质量管理

  • 数据质量管理主要用来解决“数据质量现状如何,谁来改进,如何提高,怎样考核”的问题。
  • 当谈到数据质量管理的时候,必须有一个数据质量评估的标准,有了这个标准,才能知道如何评估数据的质量,才能将数据质量量化,并知道改进的方向,以及如何评估改进后的效果。
  • 目前业内认可的数据质量标准有如下几类:
  • 1)准确性:描述数据是否与其对应客观实体的特征一致。
  • 2)完整性:描述数据是否存在缺失记录或缺失字段。
  • 3)一致性:描述同一实体同一属性的值在不同的系统中是否一致。
  • 4)有效性:描述数据是否满足用户定义的条件或在一定的取值范围内。
  • 5)唯一性:描述数据是否存在重复记录。
  • 6)及时性:描述数据的产生和供应是否及时。
  • 7)稳定性:描述数据的波动是否稳定,是否在其有效范围内。
  • 8)连续性:描述数据的编号是否连续。
  • 9)合理性:描述两个字段之间逻辑关系是否合理。

数据安全管理

  • 数据安全管理是指对数据设定安全等级,按照相应国家/组织相关法案及监督要求,通过评估数据安全风险、制定数据安全管理制度规范、进行数据安全分级分类,完善数据安全管理相关技术规范,保证数据被合法合规、安全地采集、传输、存储和使用。 – 《数据中台 让数据用起来》 P228

数据价值管理

  • 数据价值管理是对数据内在价值的度量,可以从数据成本和数据应用价值两方面开展。

数据共享管理

  • 数据共享管理主要是指开展数据共享和交换,实现数据内外部价值的一系列活动。数据共享管理包括数据内部共享(企业内部跨组织、部门的数据交换)、外部流通(企业之间的数据交换)、对外开放。 – 《数据中台 让数据用起来》 P229

数据资产地图

  • 数据资产地图为用户提供多层次、多视角的数据资产图形化呈现形式。数据资产地图让用户用最直观的方式,掌握数据资产的概况,如数据总量、每日数据增量、数据资产质量的整体状况、数据资产的分类情况、数据资产的分布情况、数据资产的冷热度排名、各个业务域及系统之间的数据流动关系等。 – 《数据中台 让数据用起来》 P232

数据服务体系建设

数据服务

  • 数据服务是对数据进行计算逻辑的封装(过滤查询、多维分析和算法推理等计算逻辑),生成API服务,上层数据应用可以对接数据服务API,让数据快速应用到业务场景中。 – 《数据中台 让数据用起来》 P246
  • 说明:按照数据与计算逻辑封装方式的不同,数据服务可分为以下三类:
  • 基础数据服务:它面向的对象是物理表数据,主要面向的场景包括数据查询、多维分析等,通过自定义SQL的方式实现数据中台全域物理表数据的指标获取和分析。
  • 标签画像服务:它面向的对象是标签数据,主要面向的场景包括标签圈人、画像分析等,通过界面配置方式实现数据中台全域标签数据跨计算、存储的统一查询分析计算,加快数据应用的开发速度。
  • 算法模型服务:它面向的对象是算法模型,主要面向的场景包括智能营销、个性化推荐和金融风控等,主要通过界面配置方式将算法模型一键部署为在线API,支撑智能应用和业务。

查询服务

  • 查询服务通过一个标识(key)查询其所对应的内容,可以附加一些条件过滤项来满足检索要求。如常见的根据账号查询其相关的档案信息、根据商品查询其销售信息等,都属于查询服务的应用场景。 – 《数据中台 让数据用起来》 P250

分析服务

  • 分析服务通过各种数据统计分析的方法,对数据任意维度的数据分析挖掘,让数据分析人员快速了解数据集的特点,以支持数据化运营、分析决策等场景。常见的如BI工具、数据化运营中的路径分析、漏斗模型等,大部分是基于这种能力来构建 的。 – 《数据中台 让数据用起来》 P253

推荐服务

  • 推荐服务即所谓的千人千面,对不同的人对物的行为进行数据挖掘,构建每个人与物之间的关系程度,来推荐人、物以满足用户的兴趣偏好,以提升用户对业务的黏性。 – 《数据中台 让数据用起来》 P256

圈人服务

  • 各行各业都会涉及广告营销场景,而如何找到对的人推送广告就成了大数据场景要解决的问题。圈人服务应运而生,通过提供人群圈选服务,帮助服务使用者从全量用户数据中基于标签组合筛选出符合指定特征的人群,并以API的形式对接上层的营销系统,从而实现营销广告的精准触达,最终达到老客户召回、休眠客户激活等运营目的。 – 《数据中台 让数据用起来》 P260

数据服务背后的产品技术

  • 数据服务背后的产品技术主要有5种:多样的数据服务、全生命周期管理、服务安全控制、多版本管理、审计与计量计费。 – 《数据中台 让数据用起来》 P274

多样的数据服务

  • 为了快速支撑不同业务对数据服务的需求,数据服务有多种生成方式,通过选取合适的生成方式,快速生成适合业务的数据服务。常见的数据服务生成方式如下:标签服务化、自定义SQL服务化、算法模型服务化、注册API服务化。 – 《数据中台 让数据用起来》 P274

生命周期管理

  • 对API服务提供完整的生命周期管理,可以大大降低日常维护成本,包括API服务的新建、维护、上线/下线、授权、监控等。数据服务的生命周期全链路管理主要分为以下几个阶段:服务的创建部署、服务的授权赋能、服务的运行监控、服务的更新升级、服务的到期停服下架。 – 《数据中台 让数据用起来》 P276

服务安全控制

  • 服务提供时,需要考虑服务的稳定性和安全性,在保障服务稳定的同时保证数据可控、范围可控等。稳定性方面主要考虑做好自动扩容、容错等相关的工作,一般采用分布式的部署机制,提高性能及可靠性。完备的服务安全防护机制包括以下方面:鉴权机制、黑白名单、申请审批。 – 《数据中台 让数据用起来》 P277

多版本管理

  • 服务在应用到具体场景的过程中,有必要对多版本提供支持。常见的场景有:
  • 业务不同阶段的需求变化导致服务经常升级、回滚。
  • 服务升级后老服务支撑的业务无法短期升级,通过多版本来支撑过渡。
  • 蓝绿部署、灰度验证等场景的需要。
  • 数据服务通过对服务的多版本管理,可以便捷支持切换服务多版本,同时支持蓝绿部署和灰度验证,以及业务需求的升级和回滚,有效保障服务的连续性。其中主要涉及以下两个关键点:多版本服务在线、服务路由管控。 – 《数据中台 让数据用起来》 P277

审计与计量计费

  • 服务授权后,需要对服务的使用情况进行审计监控。以服务为对象,统计该服务的所有调用方信息、总调用情况、成功调用次数统计、失败调用次数统计等,为后续计量计费、访问控制、流量控制提供审计数据基础。审计控制模块为服务API的调用情况提供了全链路的追踪溯源,为服务的提供方和调用方带来了极大便利,是服务管理服务监控、服务分析、服务运维等不可或缺的重要模块。
  • 数据服务的审计功能主要包括服务API的审计列表、API调用成功记录、API调用失败记录、API调用方来源审计记录等。 – 《数据中台 让数据用起来》 P278