数据仓库的开发过程主要有几个方面:规划分析阶段、设计实现阶段、使用维护阶段
1、数据源分析
数据源是数据仓库系统所有信息的源头,主要是操作型业务应用系统存放的数据集合
数据源的分析的过程分为范围分析、格式分析、更新方式分析、质量分析4个方面
1> 范围分析:是指分析数据的范围。用户需要确定数据仓库系统需要数据源中的哪些原始数据
2> 格式分析:是指对原始数据在数据库中的物理存储方式进行分析。包括存储类型、存储长度、数据精度等
3> 更新方式分析:是指对原始数据在应用系统中的更新方式、更新频率、更新内容进行分析判断
4> 质量分析:是指分析业务数据的质量,主要是数据的完整性、准确性、一致性。通常这也是数据源分析中最重要和工作量最多的部分
2、数据迁移
1> 数据的抽取
数据抽取前需要清楚:数据源来自哪几个业务系统,各个业务系统的数据库管理系统分别是什么
数据抽取可以有两种方式:直接抽取方式、间接抽取方式
直接抽取是指数据抽取过程直接从业务源数据库到目标库,中间没有任何过度。但是直接抽取方式必须确定业务系统数据库为ETL过程提供的数据库用户名、授权给该用户访问的表名称,对该用户授权的方式、数据抽取式相关的安全措施等内容
间接抽取是指采用文件交换的方式进行数据抽取,考虑网络连接、数据库的分布等客观因素。也叫异步ETL方式
3、数据转换
数据转换是将业务系统的各种源数据,通过自定义的转换脚本或者其他计算方法,将源数据转换成符合数据仓库要求的数据
4、数据转载
数据经过清洗、转换后,需要装载到目标数据库中
5、数据粒度
数据仓库粒度的划分是设计的重要内容,因为它直接影响了数据仓库查询的效率、查询的灵活性和数据仓库数据量的大小
数据仓库的粒度级别越低,则它的细节程度越高;反之,则相反
在数据仓库设计过程中,应该慎重考虑粒度的问题,既要满足所有的查询需求,也需要考虑查询的效率、存储空间等问题