数字化时代,数据成为了人类社会中必不可少的元素,也变成了现代企业经营管理中的关键。借助海量的数据,企业进行了深层次的数字化改革,把数据当成了企业发展的核心,但无效的数据即使规模再大,也对企业没有意义,所以数据质量也就愈发重要。

数据质量概述

1.数据质量管理的定义

数据仓库安全指标 数据仓库的管理_数据

 数据管理系统 - 派可数据 BI 可视化分析平台

数据质量管理是一种为了满足企业对于数据的需求,对各种业务活动产生的数据进行规范存储,然后通过ETL方法处理后把不同来源数据统一存放在一个数据仓库中的过程。

数据质量不是短时间进行数据处理的工具,也不是一种数据处理的技术,更不是一个软件系统,而是一种长期循环的管理活动,是包含着方法论、业务和管理的数据类技术解决方案。

2.数据质量的标准

数据仓库安全指标 数据仓库的管理_数据仓库安全指标_02

 数据质量标准 - 派可数据 BI 可视化分析平台

虽然在企业经营活动中会产生很多业务数据,但这些未经处理过的数据很多都是对企业发展无效的。真正可以为企业所用的数据,也就是说数据质量是有一定标准的,符合这些标准的才算是高质量且能被实际应用的数据。

完整性

数据的完整性是企业利用数据时最关心的一点。

企业数据的完整性一般受两个方向的影响,第一个方向是企业业务流程不规范,没有形成数据驱动的意识,导致某项数据缺失或记录遗漏。比如旗下门店服装店员交接不规范导致消费者购买记录缺失,造成数据不全,或是企业根本没有意识到要设置存储消费者购买衣服颜色的数据,导致无法对消费者喜爱衣服颜色进行分析;

第二个方向就是企业TI信息技术部门出现问题,这个问题在企业中也很常见。比如技术人员没有完善好业务数据库的设置,缺少关键的主键,导致业务流程中产生的数据有一部分不能存储到数据库中。

准确性

数据的准确性是企业能够放心利用数据的关键。

业务活动中,企业业务数据的准确性经常受到挑战,就拿路边随时能看到的餐饮连锁店来说,目前大部分线下店还是采用的店员手动点餐,这就相当于是手动记录业务信息,一旦店员疏忽记错餐品或是太忙没有顾及细节,即使线下店铺能够解决业务问题,其产生的数据也已经进入系统后台中,只能依赖后续的增删改来保证数据的准确性。

及时性

数据的及时性决定了企业能否在一定时间内利用数据。

企业中有些数据是非常强调实时性的,相关的IT或分析人员需要在短时间内利用数据,一旦数据没有及时到位,超出了预定的时间,对于企业而言这个数据就已经失去了价值。举个例子,有些企业喜欢在周五进行复盘总结,对下周的业务进行调整,如果这周的业务数据直到下周才能调取,那这些数据的意义已经不大了。

一致性

数据的一致性是企业数据存储的基础。

企业在建设数据库前,一般都需要先确定指标体系,对企业的各种业务进行抽象化,也就是确定好不同业务之间的命名、结构、层次等。得到业务流程中各个节点的具体指标后,技术人员根据指标提前设置好后台数据库,这样一线业务人员储存数据时,海量的数据就能根据设置好的规则自动找到位置,避免数据出现错误、冲突。

唯一性

数据的唯一性是影响数据质量的重要因素。

想要在数据库海量的数据中寻找某种数据,实现相关业务数据的快速查询,最关键的就是数据唯一性,它不仅可以在数据库中帮助识别重复数据,还能轻松获取企业业务的复盘数据,帮助管理人员更好决策。

数据质量分析

数据仓库安全指标 数据仓库的管理_数据仓库安全指标_03

 不同视角进行数据分析 - 派可数据 BI 可视化分析平台

1.业务视角

一线业务人员一直都是企业中最先接触到业务数据的人员,是业务数据的生产者和存储者。这些特性都决定了业务人员对数据质量起着关键作用,是不容忽视的重要的一环。

  • 数据指标体系没有和业务紧密结合,导致获取数据脱离实际业务需求;
  • 业务需求不够清晰,企业没有形成一套固定的业务流程;
  • 业务人员手动录入数据时容易发生错误,不能保证业务数据质量;
  • 企业没有规范数据存储规则,业务人员在执行一线业务时没有数据意识;
  • 企业业务数据样本量少,IT人员发现不了业务人员录入的问题数据。

2.技术视角

如果把企业整个数据流程做一个区域划分,业务人员执行的是生产和录入,IT技术人员负责的是存储和输出。同样是企业数据体系中重要的一环,技术也会深刻影响数据质量。

  • 数据存储模型设计有问题,导致数据库中存在大量重复数据;
  • 没有对数据进行处理,排除问题数据,导致数据准确性不足;
  • 数据接口配置出现问题,数据库获取不到最新业务数据;
  • 系统后台设计有问题,高峰期系统崩溃,导致数据丢失、错配。

3.管理视角

在整个数据质量管理体系中,业务和技术人员负责的都是具体的执行,管理人员负责的则是“顶层设计”。如果一开始的顶层设计出现了问题,那么业务人员、技术人员再努力也会收效甚微。

  • 管理人员没有数据意识,不注重数据质量的培养,只能凭借经验做事;
  • 没有统一规划企业各部门业务系统,导致数据指标不同,业务数据不能通用;
  • 没有处理好业务和技术人员之间的关系,导致两者缺少沟通,数据不能闭环;
  • 缺少数据质量的KPI指标,导致数据质量流程没有分工、责任制度。

数据质量评估

数据仓库安全指标 数据仓库的管理_数据_04

企业数据闭环 - 派可数据 BI 可视化分析平台

企业的数据有很多种利用方式,不同的利用方式有不同的质量评估方式,下面我们从目前在主流的用法,数据分析的角度来看待数据质量评估。

从一线业务执行产生数据存储,调取数据进行分析,再到分析结果对业务执行产生影响,这是一个完整的闭环流程,不管中间哪个环节出现问题都会影响到全部,更别提贯穿前后的数据,一旦数据质量出现问题,所产生的数据分析将直接影响业务执行,进而阻碍企业发展。

很多数据分析人员应该都遇到过这种情况,从数据库以及不同来源辛苦收集来的数据,分析了半天怎么都觉得结果有问题,研究了半天才发现是业务数据有问题,这半天的时间精力全都浪费在错误数据上。

如果企业数据质量很好,数据分析人员可以直接取数据分析,结果也可以更好的反馈给企业。当业务人员、技术人员、分析人员还有管理人员都信任数据质量及其产生的数据分析结果时,那么企业发展时就会降低风险,缩短决策流程,提升工作效率。

数据质量管理

数据仓库安全指标 数据仓库的管理_数据仓库_05

 数据质量管理阶段 - 派可数据 BI 可视化分析平台

和文章开篇提到的数据质量管理定义一样,数据质量管理是一个长期持续的,需要企业所有员工共同努力奋斗的解决方案。这个数据质量管理方案会贯穿业务数据从生产到利用的整个流程,将会给企业带来巨大增益。

1.数据规划

企业管理人员必须先确定好数据质量管理体系的顶层设计,从思维的方向出发把企业文化变成数据驱动型文化,然后提前做好数据规范,将其融合到企业的KPI指标中,利用奖惩制度监督员工,把数据确立为企业的基石。

2.数据存储

部署派可数据商业智能BI,将企业原本拥有的业务信息系统以及其它不同来源的数据统一连接到数据仓库中,再经过ETL过程处理后,企业的数据质量就能飞速提高。

3.数据利用

数据仓库安全指标 数据仓库的管理_数据分析_06

 可视化分析 - 派可数据 BI 可视化分析平台

数据分析人员可以通过派可数据BI中的可视化分析功能,从图表直连数据仓库取数,实现流程的自动化,避免出现其他干扰,然后通过联动、钻取等功能实现不同图表之间的互动,深化可视化分析报表展现的数据量和深度。

4.形成闭环

业务活动产生数据,分析人员利用数据判断出业务发展趋势,辅助管理人员对业务发展进行决策。在这么一个不断优化的闭环流程中,数据质量将会不断提高,逐渐将企业数据精细化到极致,进而产生变革。