一、行业背景

随着企业自身业务不断发展,其按照IT规划分阶段研发和采购不同的信息系统。这些信息系统所依赖的技术,在其建成投产时已经固化,系统间的数据共享交换都存在一定难度。而企业运营需求的激增、业务部门对于数据集中共享的需求、领导决策对于数据多维关联分析的需求,都迫切需要企业实现数据统一存储管理,并对外提供数据应用服务,而这些信息却散落在一个个独立的信息系统中,造成信息孤岛问题。为了破局,将信息孤岛的数据汇聚到一起,形成一个全局统一的数据视图,这就需要构建统一的数据集成平台,通过多源异构数据统一集成,实现数据的统一存储和应用。

本案例所服务的是一家国有大型新能源企业,业务包括能源系统、科技环保和产业金融等方向。其业务系统繁杂,从场站设计管理到招投标、从投产到生产安全、从设施监控到运维检修、从产品营销到财务管理等,相关核心业务系统约有30余个。根据该新能源企业总体战略目标和阶段战略规划,对企业内部信息系统中的数据做统一存储和分析是未来一个阶段的重中之重的工作。为此该企业提出了数据平台的建设需求——将散落在各个业务系统的数据进行数据集成,形成统一的数据存储,为后续的数据资产管理、数据分析提供统一的数据源。

二、项目挑战

1、信息系统繁多

该企业的30余个核心业务系统使用的技术框架、部署环境和中间件各不相同,数据难以在各业务系统之间交流、共享和融合,造成企业内部信息孤岛。数据集成时需要对众多业务系统开展调研工作,针对系统的数据存储形式和数据结构进行分析,利用不同的数据集成技术对接各个系统,实现数据的统一汇聚。

2、数据多源异构

通过与各个业务系统对接,发现每个系统提供数据的方式各不相同:有基于数据库连接提供的、有基于文件提供的、有基于接口提供的、有基于消息提供的,有一些系统历史数据已经归档,需要单独还原数据再进行数据集成。同时,还需要针对结构化、半结构化和非结构化的不同类型数据完成数据集成。

3、数据时效不一

业务部门针对需求进行数据分析实现时,其分析数据的时间维度与数据源能够提供的时间维度相关,这就导致需要按照分钟级、小时级、天级等不同时效进行数据集成。

如财务部门对会计税务和预算成本的业务需求,基本按照半月和整月的方式提数据需求;工程建设对项目管理的业务需求,基本按照项目核心里程碑(单月、多月或季度)的方式提数据需求;生产运维对安全生产及运营管理业务需求,基本按照小时甚至分钟级的方式提数据需求。

4、数据结构多变

数据集成时各个业务系统所处的建设状态不一致,对于已完成建设的系统,在系统升级后存在数据结构变化的可能;对于试运行和在建系统,随着需求的逐步实现使得底层数据结构变化的风险更大,导致之前编写的数据集成脚本或者程序无法正常工作。所以需要数据集成平台可以发现数据源变更,并对其做出预警响应。

5、监控告警分析

对接如此繁多的业务系统将会涉及大量的数据表,同一时间有多个数据集成任务在并行调度执行。这就需要有监控告警机制去了解每个业务系统数据集成的状态、进度、速率等,以便及时定位、分析和解决数据集成中遇到的问题。

三、解决方案

建投数据自主研发的数据集成平台基于分布式计算框架,利用并行化处理技术,实现海量、实时数据迁移,满足数据采集、转换、装载的整个数据集成作业过程中的应用需求,为数据仓库、数据湖、湖仓一体等解决方案提供统一的数据集成链路,解决跨区域、跨层级、跨协议、跨平台、跨数据源的各种数据集成问题。

数据集成平台支持离线同步、实时同步。支持数据库、数据仓库、NoSQL数据库、文件存储、消息队列等不同异构数据源之间的数据同步。基于文件、JDBC、接口、数据库变更和消息队列等多种接入方式接入数据,还可以满足客户个性场景和特殊数据格式等的接入需求。系统功能涵盖数据集成过程中的开发、管理、监控等各环节,同时可以与第三方数据产品进行集成,为数据开发、数据治理、数据分析提供统一的数据集成平台保障。

四、功能特性

数据集成产品功能特性:

1、支持主流数据库和大数据引擎

2、支持多种数据源类型接入方式

3、支持拖拉拽无代码数据集成操作

4、支持离线批量和实时流数据集成

5、支持全量数据和增量数据集成

6、支持数据一致性校验和补数机制

7、支持数据集成数据采集速度控制

8、支持数据采集过程数据转换控制

五、价值体现

数据集成平台是面向数据的应用,可以满足当前数字政府、智慧城市、一网统管等各类对数据集中管理和分析的场景,最终的价值体现在快速实现分散数据的集中管理,为数据中台提供源源不断的数据支撑。其价值主要体现在以下几个方面:

1、提高集成效率

通过数据集成产品的使用,提供数据集成效率,快速交付多个业务系统到数据仓库的数据集成工作。

2、屏蔽数据源复杂性

将数据库、文件系统、消息系统和接口等统一抽象为数据源,屏蔽底层实现细节,统一实现从数据源进行数据抽取,再将转换后的数据加载到数据仓库的数据集成过程。

3、降低运维复杂度

自动化部署脚本,通过监控分析进行任务全局监控和管理,准确定位和解决数据集成中的各类问题。

4、辅助元数据梳理

在数据集成的过程中,对接各个部门的信息系统,梳理出各个业务系统的技术元数据,为后续元数据标准化提供了信息参考。

5、辅助业务流程梳理

在数据集成的过程中,通过对数据表、数据文件、消息数据等的梳理,结合业务调研,形成业务主题、业务对象。为元数据标准化提供业务元数据支撑和管理元数据支撑。

6、辅助数据资产目录盘点

在数据集成的过程中,通过元数据梳理和业务梳理,初步形成数据资产目录,为后续数据资产标准化提供数据支撑。