元数据
元数据(Metadata),元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据的数据。不仅包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等。它描述了数据本身(如数据库、数据元素、数据模型)、数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施)、数据与概念之间的联系(关系)
元数据是对数据的结构化描述,使得数据更容易理解、查找、管理和使用。元数据可以帮助企业理解其自身的数据、系统和流程,也可以帮助用户评估数据质量。对数据库与其他应用程序的管理来说元数据是不可或缺的。元数据有助于处理、维护、集成、保护、审计和治理其他数据.
元数据分类
业务元数据:
1)主要是描述数据的业务含义、业务规则等。
2)通过明确业务元数据让人们更容易理解和使用业务元数据,元数据消除了数据二义性,让人们对数据有一致的认证,避免“各说自话”,进而为数据分析和应用提供支撑。常见的业务元数据包括:业务定义、业务术语、业务规则、业务指标等
3)描述数据系统中业务领域相关概念、关系和规则的数据;包括业务术语、信息分类、指标、统计口径等。(从业务角度描述的)
技术元数据:
1)主要是关注技术的实现
2)是对数据的结构化,方便计算机或数据库之间对数据进行识别、存储、传输和交换。技术元数据可以服务于开发人员,让开发人员对数据的存储、结构更明确,从而为应用的开发和系统的集成奠定基础。技术元数据也可服务于业务人员,通过元数据理清数据关系,让业务人员能够更快速的找到想要的数据,进而对数据的来源去向进行分析,支持数据血缘追溯和影响分析。常见的技术元数据包括:存储位置、数据模型、数据库表、字段长度、字段类型、ETL脚本、SQL脚本、接口程序、数据关系等
3)描述数据系统中技术领域相关的概念、关系和规则的数据;包括数据平台内对象和数据结构的定义、源数据到目的数据的映射、数据转换加工过程的描述等。
管理元数据:
1)主要是关注数据处理的过程和关系。
2)描述了数据的管理属性,包括管理部门、管理责任人等,通过明确管理属性,有利于数据管理责任到部门和个人,是数据安全管理的基础。常见的管理元数据包括:数据所有者、数据质量定责、数据安全等级等
2)描述数据系统中管理领域相关概念、关系、规则的数据;主要包括人员角色、岗位职责、管理流程等信息。
元数据类型 | 元数据 | 元数据描述 | 元数据实例 |
业务元数据 | 业务定义 | 数据的含义 | 客户的完整名称,并具有法律效力 |
业务规则 | 数据录入规则 | 企业的营业执照、组织机构代码证书,统一社会信用代码证书等具有法律效力的证明文件中的中文名称全称 | |
技术元数据 | 存储位置 | 数据的存储什么地方 | ERP系统 |
数据库表 | 存储数据的库表名称和路径 | ERP/Customers | |
字段类型 | 数据的技术类型 | 字符型 | |
字段长度 | 数据存储的最大长度 | [200] | |
更新频率 | 数据的更新频率 | 每年更新一次 | |
管理元数据 | 管理部门 | 数据责任部门 | 客户管理部 |
管理责任人 | 数据责任部门 | 客户管理部业务员 |
元数据模型成熟度
在实施元数据管理的过程中,可以参照元数据管理的成熟度模型确定企业当前元数据管理所在层次,并根据业务需要制定路线图实现元数据管理水平的提升
1、第一阶段:需要手动管理元数据,即在数据治理流程外需要额外增加的步骤。
2、第二阶段:在数据探查阶段自动生成元数据。
3、第三阶段:自动构建数据流转元数据。
L0: 初始状态
元数据分散于日常的业务和职能管理中,由某个人或某一组人员在局部产生或获取,并在局部使用。在局部环境工作数月或数年后,人们使这些元数据以及对它的理解内在化,使对这种信息有习惯性的理解。这些元数据会永远保存在某个人那儿,一旦这个人调离,这些元数据将永远消失。
L1: 从属于业务系统
在这个阶段,随着各个业务系统自动化构建完成,相应的元数据也随着需求整理、设计、开发、实施和维护等过程被各个业务系统孤立的全部或部分管理起来。业务元数据可能分散在各种业务规章、流程规定、需求、需求分析和概要设计等文档以及业务系统中,技术元数据可能分散在详细设计、模型设计和部署方案等各种文档和各种中间件以及业务系统中。由于各个业务系统处于一个个竖井之中,元数据之间互通互联困难,如果需要获取其他系统的元数据,除了调阅各种文档外,对分散在各种中间件和业务系统中的技术元数据需要一定的集成方式实现互通互联。
L2:元数据统一存储
元数据依然在局部产生和获取,但会集中到中央存储库进行存储,业务元数据会手工录入到中央存储库中,技术元数据分散在文档中的部分也通过手工录入到中央存储库中,而散落在各个中间件和业务系统中的技术元数据则通过数据集成的方式被读取到中央存储库中。业务元数据和技术元数据之间全部或部分通过手工方式做了关联。中央存储库的构建,使得元数据在整个企业层面可被感知和搜索,极大地方便了企业获取和查找元数据。缺点是,元数据仍然在各业务系统上维护,然后更新到中央存储库,各业务竖井之间仍然使用不同的命名法,经常会造成相同的名字代表不同意义的事情,而同一件事情则使用了多个不同的名字,有些没有纳入业务系统管理的元数据则容易缺失。元数据没有有效的权限管理,局部元数据更改后也不自动通知其他人。
L3: 元数据集中管理
在 L2 的基础上做了改进,增强了元数据的集中控制,局部业务单元或开发小组如不事先通知其他人,将无法对元数据进行修改。局部元数据的修改完成后将被广播给其他人。和其他中间件和应用系统的交互,仍然通过桥集成的方式进行,中央存储库中的业务元数据和技术元数据之间还是通过手工方式进行映射。
L4:元模型驱动管理
在 L3 的基础上,通过构建元模型以及元元模型,优化各业务单元之间的各种冲突和各种副本,创建、管理和共享业务词汇表和分类系统(基于主题领域的层次结构)。业务词汇表(业务元数据)包含与企业相关的词汇、词汇业务含义以及词汇与信息资产(技术元数据)的关系,可以有效帮助企业用户了解其业务元数据和技术元数据对应的业务含义。分类是基于主题领域的层次结构,用以对业务术语归类。和其他中间件和应用系统的交换,通过基于 CWM 的适配器方式进行连接。
L5: 元数据管理自动化
在 L5 元数据管理是高度自动化的,当逻辑层次元数据变更时,会被传播到物理层次,同样物理层次变更时逻辑层次将被更新。元数据中的任何变化将触发业务工作流,以便其他业务系统进行相应的修改。由于各个业务系统遵照相同的业务词汇表和分类系统(元模型),他们之间的关系可以通过知识本体进行推断,因此各个应用系统之间的数据格式的映射自动产生
元数据管理平台架构
元数据管理平台从应用层面,可以分类:元数据采集服务,应用开发支持服务,元数据访问服务、元数据管理服务和元数据分析服务
元数据采集服务
在数据治理项目中,通常涉及到的元数据还包括:数据源的元数据,数据加工处理过程的元数据,数据仓库或数据主题库的元数据,数据应用层的元数据,数据接口服务的元数据等等。元数据采集服务提供各类适配器满足以上各类元数据的采集,并将元数据整合处理后统一存储于中央元数据仓库,实现元数据的统一管理。这个过程中,数据采集适配器十分重要,元数据采集要能够适配各种DB、各类ETL、各类DW和Report产品,同时还需要适配各类结构化或半结构化数据源。目前市场上的主流元数据产品还没有哪一家能做到“万能适配”,都需要在实际应用过程中做或多或少的定制化开发。
元模型驱动的设计与开发
通过元数据管理平台实现对应用的逻辑模型、物理模型、UI模型等各类元模型管理,支撑应用的设计和开发。应用开发的元模型有三个状态,分别是:设计态的元数据模型,通常由ERWin、PowerDesigner的等设计工具产生。测试态的元数据模型,通常是关系型数据:Oracle、DB2、Mysql、Teradata等,或非关系型数据库:MongDB、HBase、Hive、Hadoop等。生产态的元模型,本质上与测试态元数据差异不大。通过元数据平台对应用开发三种状态的统一管理和对比分析,能够有效降低元数据变更带来的风险,为下游ODS、DW的数据应用提供支撑。另外,基于元数据的MDD(代码生成服务),可以通过模型(元数据)完成业务对象元数据到UI元数据的关联和转换,自动生成相关代码,表单界面,减少了开发人员的设计和编码量,提升应用和服务的开发效率。
元数据管理服务
市场上主流的元数据管理产品,基本都包括:元数据查询、元模型管理、元数据维护、元数据版本管理、元数据对比分析、元数据适配器、元数据同步管理、元数据生命周期管理等功能。
元数据访问服务
元数据访问服务是元数据管理软件提供的元数据访问的接口服务,一般支持REST或Webservice等接口协议。通过元数据访问服务支持企业元数据的共享,是企业数据治理的基础。
元数据分析服务
血缘分析:
是告诉你数据来自哪里,都经过了哪些加工。其价值在于当发现数据问题时可以通过数据的血缘关系,追根溯源,快速地定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度。这个功能常用于数据分析发现数据问题时,快速定位和找到数据问题的原因。
影响分析:
是告诉你数据都去了哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的关联关系,向下追踪,快速找到都哪些应用或数据库使用了这个数据,从而避免或降低数据问题带来的更大的影响。这个功能常用于数据源的元数据变更对下游ETL、ODS、DW等应用应用的影响分析。
冷热度分析:
是告诉你哪些数据是企业常用数据,哪些数据属于“僵死数据”。其价值在于让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰的看到数据的活跃程度,以便更好的驾驭数据,激活或处置“僵死数据”,从而为实现数据的自助式分析提供支撑。
关联度分析:
是告诉你数据和其他数据的关系以及它们的关系是怎样建立的。关联度分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,从而进一步了解该实体的重要程度,如:表与ETL 程序、表与分析应用、表与其他表的关联情况等。本功能可以用来支撑需求变更的影响评估。
数据资产地图:
是告诉你有哪些数据,在哪里可以找到这些数据,能用这些数据干什么。通过元数据可以对企业数据进行完整的梳理、采集和整合,从而形成企业完整的数据资产地图。数据资产地图支持以拓扑图的形式进行可视化展示各类元数据和数据处理过程,通过不同层次的图形展现粒度控制,满足业务上不同应用场景的数据查询和辅助分析需要
元数据管理工具核心能力
1)元数据采集能力
元数据采集能力是指从错综复杂的企业环境中自动实时解析和采集各种元数据的能力,为应对各种数据环境,这个环节通常需要使用各种技术和语法来支持大数据平台、关系型数据库、第三方工具、存储过程、脚本、文本文件、表格文件中的自动化数据采集。
2)元数据存储能力
元数据存储能力是将采集到的元数据进行统一存储的能力。为支持各种元数据,以及元数据之间关系的存储,元数据存储需要灵活、可扩展的架构支撑,另外,能够实时更新存储也是很重要的一点。
3)元数据查找能力
元数据查找能力是一种提供统一的端口对元数据进行查找的能力。完善的元数据管理工具应该能支持按照企业的各种分类方法来对元数据进行查找(有一部分分类方式蕴含在元数据本身中,需要通过对元数据进行分析之后才能获得)。
4)血缘分析/关系分析能力
血缘分析/关系分析能力是指分析数据的来源和数据的流向,揭示数据的上下游关系的能力。在元数据管理工具中可以分析、描述并可视化其中的细节,方便用户对关键信息进行跟踪。完善的血缘分析需要是横向(当前)和纵向(历史)皆可用的,以方便对同一时期的不同对象进行分析和不同时期的同一对象的变化进行分析。
5)基于角色的访问控制和分层能力
元数据的增、删、改等权限的控制是元数据管理工具中需要特别注意的地方。元数据管理工具应该支持访问权限控制,比如,数据管理员具有所有权限,开发人员可能更关注开发环境、测试环境元数据,而企业管理者可能只关注生产环境的元数据,总经理级别的用户需要访问企业多种环境下的元数据,而部门负责人级别的用户可能只关注与本部门相关的元数据。
6)业务元数据管理能力
采集企业环境中的业务元数据,并完成业务元数据与技术元数据的映射,为元数据赋予业务属性。
7)元数据变更控制能力
当元数据需要变更时,元数据管理工具提供了变更控制能力,明确元数据版本,保存元数据的历史状态,在发生任何问题时可以自动恢复到之前的版本。在某个元数据项发生变更时,可能还需要对该次变更将要产生的影响进行分析和评估。
8)源数据对比分析能力
无数据管理工具还可以对不同环境中的元数据进行对比分析,分析其中的异同,必要时还能根据分析结果产生相应的分析报告。
9)数据生命周期管理能力
在理想状态下,元数据管理工具应该保留数据“创建→存储→过时”这个过程中被删除/备份等各种状态下的元数据,从而管理数据在整个生命周期中的流动。作为一项规则,较新的数据和那些很可能被更加频繁访问的数据,应该存储在容易被访问的位置;而那些不是很重要的数据,则可以备份存储在比较便宜的、慢一些的媒介中
10)与其他系统的集成能力
要想让元数据管理系统发挥业务价值,还有非常重要的一点就是元数据管理工具与其他系统的集成能力。
元数据管理价值
1.自动采集企业元数据,全面梳理企业信息资产
2.分析数据流向,迅速响应业务数据问题
3.通过多场景对比分析,消除系统上线隐患。
一图在手,天下我有
通过元数据以企业全局视角对企业各业务域的数据资产进行盘点,实现企业数据资源的统一梳理和盘查,有助于发现分布在不同系统、位置或个人电脑的数据,让隐匿的数据显性化。数据地图包括了数据资源的基本信息,存储位置信息、数据结构信息、各数据之间关系信息,数据和人之间的关系信息,数据使用情况信息等,使数据资源信息详细、统一、透明,降低“找数据”的沟通成本,为数据的使用和大数据挖掘提供支撑。
追根溯源,发现数据问题本质
企业在做数据分析的时候,数据分析结果不正确,原因可能是数据分析过程出现数据问题,也可能是数据源本身就有问题,还可能是数据在加工处理过程中出现了数据问题……。通过元数据血缘分析,能够快速定位数据来源和加工处理过程,能够帮助数据分析人员快速定位数据问题。另外,通过元数据血缘关系分析,可以理解不同数据指标间的关系,分析产生指标的数据源头波动情况带来的影响
模型驱动,敏捷开发
基于元数据模型的数据应用规划、设计和开发是企业数据应用的一个高级阶段。当企业元数据管理达到一定水平(实现自动化管理的时候),企业中各类数据实体模型、数据关系模型、数据服务模型、数据应用模型的元数据统一在元数据平台进行管理,并自动更新数据间的关联关系。基于元数据、可扩展的MDA,才是快速满足企业数据应用个性化定制需求的最好解决方案。通过将大量的业务进行模型抽象,使用元数据进行业务描述,并通过相应的模型驱动引擎在运行时驱动,使用高度抽象的领域业务模型作为构件,完成代码转换,动态生成相关代码,降低开发成本,应对复杂需求变更。