(2020.12.01)

 标签数据层建设--数据价值魅力所在

      大数据的核心价值和魅力通过标签数据的多样性应用得到充分体现;

1、相关概念

  • 标签数据层:面向对象建模,把一个对象各种标识打通归一,把跨业务板块、数据域的对象数据在同一个粒度基础上组织起来达到对象上;
  • 标签数据层建设:一方面让数据变得可阅读、易理解,方便业务使用;另一方面通过标签类目体系让标签组织排布,以一种适用性更好的组织方式来匹配未来变化的业务场景需求;
  • 标签类型:

        a. 属性标签:对象本身的性质;

        b. 统计标签:对象在业务过程事件中产生原子标签,原子标签与修饰词、计算方法可组装出统计标签;

        c. 算法标签:对象在多个业务过程的规律特征通过一定的计算方法可以计算出算法标签;

  • 对象:客观世界中目标的抽象
  • 对象标识:对象的标识符用以标识一个对象,一般是各种ID;
  • 标签:利用原始数据,通过一定的加工逻辑产出,能够为业务所直接使用的可阅读、易理解、有业务价值的数据;
  • 标签类目:标签的分组组织方式,是标签信息的一种结构化描述,目的是管理、查找标签、一般采用多级类目;
  • 属性标签:对实体基本性质的刻画,是根据人类对实体长期的认知得出,eg,年龄、体重
  • 统计标签:特定场景下,维度和度量的组合,eg:日均登录次数、最近20天交易额等;
  • 算法标签:通过复杂的逻辑分析推理得出,通过分析对象在多场景下发生多个时间的规律性得出的相关结论;
  • 标签融合表:以对象为核心把属性标签、统计标签、算法标签组装起来得到的表,是标签数据层落地的产出物;标签融合表设计要考虑标签类目结构的合理组织;

2、确定对象

  • 对象分为:人、物、关系;一般都是选择典型的对象建立标签体系,eg,客户、员工、设备等;
  • 人:主动发起行为的主体;
  • 物:行为中的被施与对象;
  • 关系:指人、物、人和物、人和人、物和物在某时某刻发生的某种行为、关联、关系;

       a. 包括行为关系、归属关系、思维关系等;

       b. 根据动因又分为事实关系、归属关系;

3、对象ID打通

  • 将同一个具体对象在不用业务中的不同ID标识打通,完成该对象的全面数据的刻画;
  • 大数据领域中的ID-Mapping技术就是用机器学习算法来取代野蛮计算,解决对象数据打通的问题;基于输入的ID关系对,利用机器学习算法做稳定性和收敛性计算,输出关系稳定的ID关系对,并生成一个Super-ID作为唯一识别该对象的标识码;
  • 通过算法打通对象的不同ID标识,两两ID之间打通关系有一定的误差,通过置信度来描述这个误差,置信度越高则误差越小,反之则越大;

4、标签类目设计

  • 类目体系存在核心意义:帮用户快速查找、管理数据/标签
  • 根目录:人、物、关系

5、标签设计

  • 标签本质:一种对客观世界中实体对象的度量和描述,是经过缜密的逻辑分析和处理后的产物,用以引导发挥数据应用价值;数据必须转化成能帮助业务提升的标签才具有价值,否则就是数据负累;大数据业内一直尝试探索的最核心环节是数据的商业变现
  • 标签化:将数据提炼转化为标签的过程叫标签化
  • 标签设计的两大前提条件:

        a. 标签必须是业务上需要的,能体现业务价值,帮助业务人员做出业务判断或者能创造性的唤醒新业务场景德国数据项;

        b. 必须要探查清楚根据业务需求提炼、整理出的标签是否具有数据可行性,是否有原始数据可以用于加工成标签,不能天马行空、没有落地点;

  • 标签设计中容易混淆的一些概念

        a. 标签根目录:标签的对象(人、物、关系)

        b. 标签类目:对对象的拆分及对象的角度、层面或过程

        c. 标签:对对象具体属性、特征、信息、内容的字段级刻画

        d. 标签值:对对象属性、特征、信息、内容的具体取值

  • 标签设计内容,两类如下:

        a. 偏业务方向,主要登记与业务所有相关的指标:标签类目、标签名、标签加工类型、标签逻辑、值字典、取值类型、示例、更新周期、安全登记等;

        b. 偏技术方向,主要登记表名、字段名、负责人、完成时间

6、标签融合表设计

  • 标签融合表组织方式:

        a. 纵表:类似K-V表,每行为对象的一个标签,eg,ID、标签名、标签值

        b. 横表:普通二维表,每行表示一个对象,含多个标签

  • 纵表和横标对比:

        a. 模型稳定性:纵表较稳定,增加新的标签是增加记录即可不需要修改模型结构;横表不稳定,只有增加或修改标签元数据,都会涉及模型的修改;

        b. 易用性:横表较易理解,大多数数据处理技术都是面向二维表,易用性高;纵表适合做单值查询,复杂计算不方便,易用性差;

        c. 性能:横表增加标签仅增加列,行数和对象数相同,性能相对较好;纵表每增加一个标签,对应所有对象都要增加一行,处理较难;

  • 方便易用的数据服务是数据中台建设的主要目标,推荐使用横表的方式设计标签融合表,以满足性能和易用性的要求;一般使用多张融合表来存储标签;

7、标签融合表实现:

  • 按照设计和命名规范创建标签表
  • 开发生成标签数据的逻辑代码
  • 代码测试
  • 代码发布,加入生成调度,并配置相应的质量检测和报警
  • 持续进行任务运维监控;

应用数据层建设--灵活支撑业务需求

       应用数据层是构建在统一数仓层与标签数据层之上的简单数据组装层,不像数据集市那样要为某个特定的业务独立构建,应用数据层的构建和完善是从企业级多个类似业务场景来考虑,具备数据集市灵活相应的特点;没有非常规范的建设标准。

1.、应用数据表设计

      应用数据层是强业务驱动,业务部门需要参与到建设中来,有以下几种结构:

  • 应用场景是多维的即席分析,一般为了减少连接,提升性能,会采用大宽表的形式组织;
  • 如是特定指标查询,可采用K-V表形式组织;
  • 有些场景下一次要查询多种信息,可能会用复杂数据组织结构;

2、应用数据表实现,步骤如下

  • 调研业务应用对数据内容、使用方式、性能的要求,需要明确业务应用需要哪些数据,数据怎么交互,对于请求的相应速度和吞吐量有什么期望;
  • 盘点现有统一数仓层、标签数据层数据是否满足业务数据需求;
  • 组装应用层数据;

3、应用数据场景支撑

  • 应用常见:BI分析报表、客户兴趣推荐、根据客户历史行为做搜索优化、快速获取客户信息服务等。
  • 应用数据层加工过的结果数据集,要根据不同的使用场景,同步到不同的存储介质,以达到业务对不同吞吐量和相应时间的需求;