数据质量

1.一个数据质量分析师正在试图分析一个数据仓库之中数据的质量状况。这个数据仓库的数据量非常的大,数据质量分析师准备用抽样的方式进行分析。但是他不知道需要抽样多少数据,如何抽样,以及如何向用户解释抽样分析的结果是准确的。这位数据质量分析师应该如何来进行工作呢?

2.一个电信公司有一个含有14TB数据的数据仓库。这家公司估计到,该数据中有10TB以上的数据可能是冗余的。这家公司没有命名约束,其中只有20%的数据有相关的元数据。面对这种局面,这家公司应该如何来识别和消灭冗余数据呢?

3.企业管理层没有意识到业务系统中数据是多么的脏乱。这些数据中存在冗余、记录不完备、默认值不正确、有不符合规则的数据存在、参照完整性缺乏等问题。随着数据仓库团队工作的逐步进展,来在项目团队和用户的意见已明确显示出,数据的质量已经不足以让项目继续下去。净化数据需要大量的时间,而这些时间在项目时间表中没有安排。面对这种局面,项目经理应该如何来处理?

4.企业数据仓库的数据质量非常差,净化的过程将是高代价的。管理层没有意识到数据质量的问题,这些业务系统表面上看工作的很好。此外,管理层不愿意花费金钱和资源纠正非常脏乱的数据。面对这种局面,数据仓库团队应该采取什么样的对策来让管理层相信需要净化他们的数据呢?

5.一名没有经验的数据仓库设计师坚决主张,只有100%正确的数据才能进入数据仓库。他开发了一个复杂的临时存储区,用来存储、检查、改正和重新处理错误的源数据。这个临时存储区很快变得非常巨大。由于太多的数据被拒绝进入数据仓库,大部分都是微不足道的错误,业务用户对数据仓库的信任度正在迅速下降。面对这种局面,项目经理应该采取什么样的对策?

6.一家企业的数据仓库系统已经开发完毕,也使用正式数据进行了详细的测试。但是正式上线几个月后,却发现出现了问题,经查实,是从源系统提取数据的FTP脚本出了问题。这个脚本会随机的出现故障,而ETL程序也没有确定出正在处理的数据只是部分数据集。现在数据仓库和源系统已经严重不同步。这个数据仓库团队应该如何才能使数据仓库回到正确的轨道上来呢?

7.一家企业的数据仓库根据源系统记录中的“最后更新”时间戳来从源系统中提取数据。脚本运行了几个月后,运行时间严重超常。经查实,问题出在一个源系统上。一名开发人员正在这个源系统上定期大规模修改数据,以便修改一个还没有在应用代码中得到纠正的错误。这名开发人员大规模修改一次,“最后更新”时间戳就会被全部更新,数据仓库迁移脚本就会一夜之间处理完全部的数据。这个问题应该如何来解决呢?

Sid Adelman的著作Impossible Data Warehouse Situations。