一、概念与特点:
多源数据汇聚也称数据上报、数据集中。
一般采用N+1模式,将地理上分布于多点的下辖部门日常产生的业务数据同步汇聚到数据中心,汇聚后的数据包含原始业务数据所有信息,用于集中共享或向大数据平台提供输入数据。多源数据汇聚项目一般具有以下特点:
1. 部门众多,每个部门包含多个业务系统,不同业务系统采用不同类型数据库。
2. 同一类业务系统在各个部门间存在数据库类型、表结构不一致等情况。
3. 业务数据库与中心数据库类型不同导致的数据不兼容问题(空串、字符集编码等)。
4. 每个业务系统汇聚数据涉及成百上千张表,或者存储在外部文件中。
5. 业务系统升级导致的数据格式改变。
6. 某段时间内,某个部门到数据中心网络中断,或业务系统维护停机或意外宕机。
二、实例与应用
市面上各数据系统提供商一般都具有以上基本特点,但是各厂商的系统也具有一些特色,例如我们使用的
Beeload、BeeDI(灵蜂ETL软件)实施多源数据汇聚项目,具备如下优势:
1.软件提供广泛的数据接口,支持对各类主流数据库(Oracle、DB2、SQL Server、MySQL、PostgreSQL、Informix等)、外部文件(文本、XML、Excel)进行读写访问。
2 软件内置丰富的数据转换功能,如类型转换、字段运算、参照转换、字符串处理、字符集转换、空值处理、日期转换、聚集运算、既定取值、字段切分、字段合并、字符集转换等,用于对汇总数据进行标准化。
3 软件不仅支持图形界面辅助用户快速定义数据转换规则,还额外提供脚本开发环境,当汇聚表数以千计时,使用图形界面逐表配置会是一个相当繁重耗时的工作,而采用灵蜂ETL软件强大的脚本功能,可以起到事半功倍的效果。
4 软件支持同构或异构表结构的读取比对功能,对于业务表结构的变更,软件可以自动更新目标表结构并重传所有数据。
5 软件支持全量覆盖、差异更新、增量抽取等数据同步模式。其中增量模式包括时间戳、触发器、日志解析(BeeDI支持),增量模式支持数据断点续传功能。
6 软件提供工作流调度功能,用于定义多个相关任务的执行顺序、触发条件、异常逻辑等。