- 产品背景
随着科技的不断发展,信息化从IT时代迈入DT时代,数据量呈指数级增长,信息资源爆炸式激增。各行业的决策者已经意识到了数据是企业的核心资产,并期望对数据进行存储和挖掘以达到资产保值甚至增值的目的。然而,传统的信息资源管理、整合、应用技术已经无法应对大数据时代的挑战。大多数企业在面对海量、异构、实时的大数据时,往往没有足够的技术能力和经验,进行复杂的大数据处理,并支撑多元化的应用。
Gartner 2016年商业智能和分析平台魔力象限报告提出,这几年,全球商业智能与分析平台市场经历了从“IT主导的报表模式”往“业务主导的自服务分析模式”转折的临界点。Gartner给出数据分析的愿景是,人人都是数据分析师,人人都能分析数据。数据建模是数据分析过程中重要的一个环节,自助建模将是数据分析工作的未来趋势。
- 市场需求
对于大数据的应用,大部分行业用户普遍存在这样的心态:不利用时觉得心慌,现在大数据如火如荼,感觉落后一步就要跌入深渊。想要上马利用时却又觉得迷茫:如何真正从全局出发,基于行业需求,整体架构以及应用角色和场景,让数据发挥出最大价值?目前需要解决以下问题:
- 数据管理不到位
一是数据质量管理问题。数据质量直接影响业务绩效,以及数据整合与综合应用,需要建立质量监管和纠错模式,加强统筹,完善协调机制和任务分工,确保数据资源准确、及时和完整。
二是数据存储管理问题。大数据时代已经到来,待处理的数据资源,无论是结构化还是非结构化数据,在数量上呈几何指数增长,传统的存储、备份、归档等技术与方法,已经不能满足业务部门在空间、性能和安全性等方面的差异化需求。
三是数据整合管理问题。业务部门在各自领域均承担着数据资源整合的职责,存在职能交叉和业务重复,数据管理分散,影响数据整体管理效率和开发利用效率。
- 数据融合不足
在数据融合方面,实现数据的跨网、跨平台、跨系统间的深度融合,确保内部与外部、网上与网下、真实与虚拟的信息有效整合。数据存在以结构化数据为主、半结构化为辅、非结构化数据增量巨大的特点,来源纷杂、类型多样、标准不一、结构多元,数据接入整合难度较大,建立数据深度治理和标准化机制,进行系统化、仓储化、精细化的分类管理。
- 应用深度不足
随着数据资源的积累和爆发式增长,传统方式的数据资源应用及服务方式已经无法满足日益复杂的业务场景需求,一是数据综合利用、增值服务意识有待加强;二是数据深层次挖掘不充分,面向业务发展和决策的综合性数据分析与应用乏善可陈,无法支撑业务的快速开展。
其次,对于数据的处理和应用通常都极度依赖软件开发,由于大数据的量大,多维度等特点,普通的数据处理(如:excel,access等)都已经无法满足对于海量数据的加工处理,任何的数据应用都需要大量的软件研发作为基础,行动缓慢,更难以转化为应用,直接影响的数据分析应用的发展。
此外,可用数据资源种类限制了应用的开展深度,数据资源的数据质量、数据更新的时效性、数据整合及服务支撑能力也限制了应用发展。智能化的应用深度即需要在业务上进行创新,也需要技术支撑上的突破,还需要相关机制的不断完善。
总体而言,目前的信息综合应用深度还存在很大的不足,信息资源价值和人工经验都没有得到充分发挥。
- 服务能力不足
随着行业信息化基础条件的不断完善和信息化应用能力的快速提升,各业务部门渴望获得范围更广、种类更多、功能更强大、响应更快、接口更灵活、运行更可靠、数据更鲜活的信息服务和数据支撑,对数据服务人员提出了新的更高的要求。目前提供的服务方式仅限于查询、小批量比对,缺乏深度的信息挖掘。由于对海量数据的支撑技术手段不足,导致海量的有价值信息无法进入综合资源库或者无法通过共享应用发挥作用。传统技术手段已经无法满足业务应用对数据服务的高性能、大批量、高可靠、易使用的需求。
- 传统架构急需优化
随着数据资源类型不断增加,数据规模快速增长,服务对象范围日益扩大,支撑数据资源库的技术体系有待升级完善。
当前的数据种类和数据量与资源库建设初期已经增长超过一个数量级,海量的动态轨迹类信息成为资源库难以承受的负载。
现有数据抽取整合与共享服务模式、接口技术与方法等,难以满足日益增长和变化的业务需求;
数据资源存储空间和设备处理能力,已趋于饱和,新的海量数据无法入库。
数据资源日常管理与备份管理效率低,耗费人力资源大。
基于传统技术体系构建的数据资源库已经无法满足“大数据”环境下日益增长的数据共享服务需求,迫切需要在技术架构上进行升级。
- 产品定义
- 产品概述
数据建模平台系统是一站式全链路数据生命周期管家,帮助各个行业用户管理数据资产并挖掘价值。平台提供多源异构的数据采集模块、实时/离线计算框架,简洁易用的开发环境和平台接口,为政府机构、企业、科研机构、第三方软件服务商等客户,提供大数据管理、开发和计算的能力。让客户最大化的发现与分析行业内部核心业务数据价值,挖掘现有业务和应用系统的潜在商机,培育完好的业务创新产业链,实现数据应用的完整闭环,帮助客户实现商业价值。
数据建模系统的核心组成部分,包括数据采集、数据治理、数据建模、数据接口及可视化工具。产品的主要作用为对下层数据进行抽取,然后对抽取数据进行数据治理,经过自助建模对大数据进行深度挖掘,将分析的结果数据提供给上层各业务应用,同时可以把分析好的成果数据通过可视化设计进行展示,为业务平台提供数据支撑和可视化专题分析展示等。
数据建模分析流程
数据建模系统专注于多来源、碎片化数据的高效治理和可视化拖拽式建模应用,提供丰富、易用的数据治理工具,用户可以快速对采集的海量数据进行数据结构标准化、数据分类编目等的规范化治理;实现可视化拖拽式的模型设计功能并集成多种算法模型,极大的降低了建模的技术门槛,让用户可以轻松高效的完成建模工作;并提供丰富的可视化展示界面,支持PC、大屏等多种载体进行可视化展示,充满科技感的页面效果,将海量数据以用户理解熟悉的方式进行展示。
- 系统架构
系统架构主要分四层,包括基础支持层,数据管理层,数据服务层,行业应用层。
基础支撑层:主要是围绕支撑平台运行的软硬件环境,虚拟化环境,分布式大数据平台环境,数据库环境等等。
数据管理层:包括数据源管理(数据接入),数据治理,数据资产,算法模型库等模块。
- 数据治理模块为用户提供数据清洗、筛选、并集、差集、交集、分组等工具,用户可依据建模需要进行灵活组合进行数据治理工作。
- 数据资产模块提供对检索的数据资产目录、数据映射功能、数据资产维护管理功能等。。
- 数据源管理提供对数据源连接及任务的管理。
- 模型算法模块提供历史算法库、算法维护、算法共享等功能。
数据服务层:主要包括数据推送服务、微应用服务和数据可视化服务。
- 数据推送服务,支持定向定时推送成果数据到指定的数据库(mysql\oracle)等。
- 微应用服务,提供应用模块化功能,将数据、平台工具、模型应用转化为APP应用功能。以APP的方式上架到应用超市中,供用户自主选择所需服务。
- 数据可视化服务提供图形化图标软件,可自由拖拽生产可视化面板,并进行数据展示等。可视化大屏场景共享发布。
行业应用层:各个行业业务软件,通过接收数据建模系统进行数据治理和算法模型生成的成果数据,结合他们的业务服务行业客户。支持两种集成模式,其一,数据集成,支持数据推送;其二,业务可视化集成,通过数据建模软件可以根据业务需求定制可视化看板场景,然后把看板场景发布出来,通过行业业务软件进行集成页面。
- 目标用户
数据建模系统主要行业及目标用户群体包括科研教育、电商零售、物联网、企业数字化、公安交管行业、智慧农业、桥梁监测、医疗行业等等。
- 科研教育:包括教学数据分析、科研数据分析、校园网物联网数据分析、面向校级宏观决策的数据分析等等。
- 医疗行业
1)通过对临床数据的分析,对患者进行更有前瞻性的治疗和照护,提高疾病的治疗效果;
2)通过对最新的数据库的分析提高对临床决策的支持;
3)通过对统计工具和算法的使用来改善临床试验的设计;
4)通过对大数据集的分析为个性化医疗提供支持;
5)通过优化业务决策支持,以确保医疗资源的适当分配;
- 金融行业
1)运营类:历史记录管理、多渠道数据整合分析、产品定位分析、客户洞察分析、客户全生命周期分析等。
2)服务类:个性化坐席分配、个性化产品推荐、个性化权益匹配、个性化产品定价、客户体验优化、客户流失预警与客户挽留等。
3)营销类:互联网获客、产品推广、交叉销售、社会化营销、渠道效果分析、差异化广告投放等。四、数据分析在风险管理领域可应用于实时反欺诈、反洗钱、实时风险识别、在线授信等场景。
- 物联网行业:物联网数据分析提供丰富的数据可视化组件、常用统计分析方法及大数据分析工具,致力于降低数据分析门槛,助力物联网行业应用,赋能行业。
- 公安交管:基于公安交管的人、车、物、手机、出行轨迹、住店数据等等,进行专业场景分析,构建业务数据模型。
- 企业数字化转型:助力企业内部多源异构数据有效整合、清洗与梳理,进行数据资产沉淀,形成可辅助决策的分析模型,构建企业大脑,通过可视化大屏进行展示。
- 智慧农业:农情环境监测设备(传感器、监测终端、传输终端)部署为基础,在各类种植区域内部署多个监测点,对多项重要的环境要素进行监测,通过对这些数据进行有效的数据建模分析,实现获取更多、更全、更实用的帮助农企、农户种植进一步优化的可靠数据。
- 桥梁监测:基于桥梁监测中的物联网数据,包括温湿度、风速、混凝土内部温度、桥梁受力、桥梁同行车辆数据等等,进行多维度挖掘分析,对桥梁进行有效实时监测。
- 电商零售:获取电商数据及关键指标,深入洞悉市场趋势,推动业务增长。