1Data Analytics简介

Data Analytics是由DataHunter(北京数猎天下科技有限公司)自主研发的一款企业级业务数据可视化分析产品。其基于探索式分析技术,以最新的数据自服务理念为核心,具备操作简单、部署灵活、秒级响应等特点。Data Analytics可广泛应用于各行各业,从百亿级数据量的企业到各垂直中小企业,专注解决各行业的业务数据分析需求。

Data Analytics可以帮助企业搭建一站式的业务数据可视化分析平台,提供了从数据采集、数据处理、数据分析、数据可视化于一体的完整解决方案。Data Analytics致力于帮助企业快速了解业务状况,及时发现问题进而改进业务。

2Data Analytics核心价值

2.1消除数据孤岛,整合业务数据

众所周知,我国的企业信息化发展相对落后,企业早期缺乏长远的IT建设规划,发展至今,各个业务系统仍相对独立,导致数据孤岛长期存在。随着大数据时代的到来,数据来源变得多样化,数据结构也更加复杂化,这使得企业在数据采集、ETL等方面会耗费很大精力。业务数据的过度分散,让企业很难从全局角度去分析业务的发展情况。

针对企业数据孤岛问题,Data Analytics提供了完善的解决方案。基于自主研发的数据连接器框架,Data Analytics可以对接企业内各个业务系统,包括ERP、CRM、财务系统、日志系统等,帮助企业整合所有业务数据。此外,Data Analytics支持海量业务数据的处理,响应速度可以达到秒级。

2.2基于探索式分析,快速发现业务问题

传统BI产品所采用的是验证式分析模式,这种模式使得数据分析的流程固化、周期较长,一方面给企业IT部门带来了很大的工作负担,另一方面,管理层也无法针对现有的业务情况做出及时有效的决策。

相比于验证式分析,Data Analytics所采用的探索式分析模式,无需进行复杂的数据建模,系统就可以根据现有的业务数据特点,智能推荐可视化呈现方式,同时,Data Analytics支持丰富的交互方式,包括动态关联分析、全维度数据钻取、协同过滤等,使得业务人员或决策者可以自由地进行深度探索和分析,从而快速发现业务问题。

2.3实时可视化呈现,辅助业务决策

如今,市场变化日新月异,竞争环境日趋激烈,越来越多的管理者开始意识到,想要在严酷的市场竞争中脱颖而出,必须摆脱粗放式的经营方式,运用数据分析,及时做出更科学、更合理的业务决策。这其中,企业需要解决两个问题:即数据的时效性和实时可视化呈现。

通过对接企业各个业务系统,Data Analytics支持实时的业务数据采集,同时,基于实时内存分析引擎,Data Analytics可以快速的将分析结果进行输出,用户在进行拖拽分析操作的同时,就可以同步看到分析结果。通过Data Analytics,企业管理者和业务人员可以随时随地进行数据处理和分析,从而及时掌握业务情况,第一时间做出最合理的决策。

3Data Analytics产品特性

 ►  异构数据源整合: 兼容多种数据源,可接入企业内部各类业务系统API、各种经典关系行数据库(Oracle, SQL Server, MySQL, DB2等),各种NoSQL数据库(MongoDB等),各种数据文件(CSV, EXCEL),还有其他公共数据服务等来源,兼容各种数据源类型,轻松集成整合所有相关业务数据;

►    动态数据关联:按需调整数据关联,不同来源的数据也可以进行关联分析,并可以动态调整;支持 Left Join、Right Join 等常用数据关联方式,从而快速构建分析模型;

►    拖拽式分析交互:提供直观的数据指标拖拽分析,让业务人员也可以直接参与业务数据分析过程;

►    探索式分析能力:根据数据特点,智能推荐可视化分析方式,并可在图形间随意切换,动态数据建模,无需预计算;

►    交互式实时数据展示:看板上的数据可以联动,并进行协同过滤,自由地进行多维数据钻取、排序、筛选,将一定的分析能力交给用户;

►    分享、沟通、讨论:兼容 PC、手机和 Pad等各种终端,支持故事板功能,可以以PPT / PDF形式进行内容分享;看板的讨论版功能,可以让用户针对数据看板随时随地进行沟通讨论,完成基于数据的业务闭环;

►    大屏展示投放:支持将 Dashboard 内容投影至 TV 大屏,支持触摸屏互动;通过实时业务数据展示,帮助业务人员时刻掌握业务动态。

​4Data Analytics技术架构

4.1架构组成

​Data Analytics产品基于B/S架构开发,业务人员可以直接使用浏览器进行数据分析操作,避免了单机产品IT部署管理的难题,其架构体系如下图所示:


Data Analytics_看板



4.1.1DataHunter产品服务架构

Data Analytics总共分为十六个模块,采用标准的微服务架构,每个模块相对独立,可以独立升级维护;同时也可以根据客户实际情况,选择性的部署其中的一部分模块。

►    User Interface / Admin:Data Analytics产品采用前后端分离的模式进行开发,User Interface / Admin属于前端应用模块,通过API服务和后端服务进行通信,前端应用可以通过浏览器直接使用,也可以根据实际情况,打包成本地应用程序,兼容客户端安装模式。

►    RPC Service:数据中台的服务路由模块,用于处理各类前端业务请求,并路由至相对应的模块。

►    Common Library:产品共用类库模块,属于系统底层支持层。

►    Authorization:用户权限模块,对用户的操作行为进行授权,Analytics使用此模块进行用户权限管理。

►    Monitor / Audit:监控审计模块,可以通过此模块对产品内的用户操作行为进行监控和审计,同时可以监控整个产品的运行状况。

►    Dashboard Service:Data Analytics的核心模块,允许用户进行数据可视化分析,提供探索式分析基础能力支撑,看板协同过滤,任意维度下钻分析等能力。

►    Storyboard Service:Data Analytics数据报告模块,可以通过快照、图表,自动化组建数据报告,并可以生成导出为PPT / PDF。

►    Admin Service:系统管理服务功能,用于Analytics企业版本对用户,数据进行管理。

►    Scheduler Engine:任务调度引擎,用于内部批量数据处理任务调度,可以根据数据处理计算量,进行多节点部署,自动进行集群化平滑扩展。

►    Data Algorithm:数据算法引擎,可以训练机器学习算法,嵌入AI算法,对数据集进行操作和计算,帮助Analytics赋能业务。

►    Data Source:数据处理引擎,提供Analytics内部工作表管理,数据模型管理,表关联等能力。

►    Query Engine:数据查询服务模块,可以将用户的协同过滤,下钻等数据分析操作,映射为数据查询语句和方法。

►    Connector:数据连接器模块,用户可以通过此模块,导入企业内各类异构数据源,包括结构化数据库,NoSQL数据库,数据文件,API等数据来源。

►    Storage Adapter:存储适配器,可以将数据操作封装起来,适应不同的数据存储方案,兼容客户原始投资。

►    Data Engine:DataHunter 自有的数据存储引擎,采用最先进的MPP + 内存架构,支持多节点集群部署,可以满足企业大规模数据存储以及快速数据分析响应的要求。

4.2运行原理

4.2.1 异构数据整合

Data Analytics的核心能力之一,就是整合异构数据源。通常在企业数据分析场景中,数据来源比较复杂,有Excel文件,也有关系型数据库,甚至还有业务系统API数据,某些场景下,还需要引入互联网数据。

Data Analytics产品借助DataHunter独有的数据连接器框架,可以方便的让业务人员自己导入数据,并建立数据之间的模型关系,从而为上层业务分析和探索打好基础。

4.2.2 可视化分析能力

Data Analytics的可视化分析能力可以从两个维度阐述:

►    拖拽式的数据可视化分析界面,大大降低了业务人员使用数据分析工具的门槛。系统内嵌的数据可视化引擎,可以根据用户选择的数据类型,推荐适合的可视化方案,帮助用户进行数据探索分析。

►    交互式的数据看板,使得数据的观看浏览者也可以轻松的参与数据分析。通过系统底层的数据引擎(MPP + 内存)技术,可以让用户进行任意维度的下钻,多维筛选,协同过滤,而无需IT人员做任何的预处理。

4.2.3 数据协作能力

Data Analytics的数据协作能力,是DataHunter产品中特有的设计,区别于其他同类型产品,Data Analytics可以更大限度的发挥数据的价值,能够让数据分析和业务沟通决策过程形成业务闭环,避免了以往数据分析产品和业务脱节的情况。

Data Analytics的数据协作能力包括多终端的可视化呈现能力,包括PC、平板、智能手机、电视等设备;也可以将 Dashboard 内容投影至 TV 大屏,支持触摸屏互动;数据协作能力还包括讨论板和故事板功能,用户可以通过讨论板随时随地和其他同事进行基于数据的沟通,也可以根据业务要求,自动化的形成各种类型的数据报告,并导出为PDF / PPT。

4.2.4 用户体系集成

Data Analytics支持与客户系统的用户认证体系集成,可以对接Microsoft AD域,LDAP服务,或者是企业自定义OAuth认证机制。

具体对接方案,请参考Data Analytics用户权限体系集成相关文档。

4.2.5 Portal看板嵌入集成

Data Analytics制作完成的分析看板,可以通过URL的方式进行共享输出,客户Portal系统只需要将该URL嵌入iFrame中,即可进行嵌入。看板共享时支持Token加密,也可以通过请求参数,进行看板展示内容的调整。

具体嵌入方案,请参考Data Analytics看板嵌入集成相关文档。

​4.3部署运行

4.3.1部署方式

Data Analytics支持多种部署方案,可以独立部署至企业内网,也可以采用混合云架构,部署至企业私有云,或者直接使用DataHunter提供的公有云部署环境。

同时Data Analytics支持企业内部Windows域、VLAN、VPN等网络环境,从而确保企业在不同的网络环境下都可以使用Data Analytics,满足企业的实际应用需求。

4.3.2系统要求

Data Analytics支持市面上几乎所有的主流操作系统,包括Windows Server,Linux,Unix等。针对Linux的众多发行版,Data Analytics也都有很好的支持,如CentOS、 Ubuntu、RHEL等。

针对国产化需求,Data Analytics产品同样支持各种基于Arm架构的国产Linux操作系统:深度、红旗,麒麟等。

4.3.3配置要求

Data Analytics产品中,由于采用了微服务架构,所有的模块均可以根据实际业务情况进行独立部署,其中有四个模块,可以随着业务量,数据量的增长,进行动态集群化扩展。

Data Analytics中的服务模块支持最小化部署方案,可以将所有服务部署至一台服务器,每个服务至少需要0.5个CPU核心,2G内存。(上述配置不含操作系统需要的硬件资源)

针对最基础的Data Engine处理模块,可以通过计算的方法,得出硬件配置要求。具体计算条件为:1个CPU核心,1秒,可以扫描1000万行数据。涉及复杂业务计算时,需要降低一个数量级(除以10)。

Data Engine初期可以从1个节点开始,每个节点使用2个8核CPU,32-64G内存,4T的存储。配置计算依据为:1核CPU对应4G内存对应0.5T存储。

推荐硬件配置方案:


Data Analytics_看板_02

4.3.4浏览器要求

Data Analytics的访问和管理界面,可以通过浏览器进行,属于标准的BS结构产品,因为在开发中使用了前后端分离的技术,也可以根据客户需要,将前端应用直接打包成PC端应用程序。Data Analytics目前支持主流的浏览器,包括:Chrome、Firefox、IE edge 等多种常用浏览器。大多数情况下,我们建议您使用Chrome浏览器。

​4.4功能描述

4.4.1数据源支持

Data Analytics支持多种数据源类型,包括离线数据文件、各种主流数据库以及第三方公共数据源。具体如下:

(1)离线文件:Excel、CSV格式文件;

(2)数据库:支持My SQL 、Oracle 、MongoDB 、Postagre SQL 、SQL Server 、华为GaussDB、Hive、GreenPlum、Oracle、Kylin、SAP HANA、Sybase、Vertica、SAP BW以及GPDB;

(3)第三方公共数据源:提供统计数据、金融数据、天气数据等公共数据,统计数据包括全国地区人口统计、人口增长率、人口结构比、普通高校毕业人数、全国地区农产品价格指数、全国地区GDP统计、全国居民GNP统计和人口结构;金融数据包括汇率、沪深A股收盘详情以及沪深A股实时详情。

Data Analytics_数据_03

Data Analytics_看板_04

Data Analytics_看板_05

Data Analytics_Data_06


Data Analytics_看板_07

Data Analytics支持对上传后的数据表进行一系列的操作和编辑,具体如下:

(1)    可以随意更改表格文件名称;

(2)    用户可以自由更改表格分组;

(3)    自动识别或修改字段类型;

(4)    当工作表数据有更新时,可以进行替换操作;

(5)    可编辑工作表内数据;

(6)    可以新建计算字段。

4.4.2数据关联

Data Analytics具有智能化的数据关联功能。支持按需调整数据关联,这意味着不同来源的数据也可以关联分析和动态调整。目前,Data Analytics支持 Left Join、Right Join 等常用关联方式。具体功能如下:

1. 只需拖动工作表,即可自由关联相关数据表;

2. 自由选择关联字段;

3. 支持全部联接、左侧联接、右侧联接以及内部联接四种方式;

4. 可进行多字段关联(关联两个文件表中的多个字段);

5. 可查看关联工作表的详细数据;

6. 制作图表时,左侧自动出现已经关联的工作表。
 

Data Analytics_数据_08

Data Analytics_看板_09

 

4.4.3图表制作

Data Analytics的图表制作页面简洁清晰、一目了然。用户只需要将相应的字段拖拽到对应的维度和度量区域,系统就会智能推荐适合展现的图表类型。一般来说,离散型数据适用于维度,如字符、时间、地理位置等;连续型数据适用于度量,如数字。Data Analytics默认图表类型为交叉表,维度项分为行和列,度量项显示为值,同时还可以计算行和列的数据。Data Analytics为用户提供了丰富的图表制作功能:

(1)    可自由命名看板名称及图表名称;

(2)    可针对度量项进行计算求值,计算方式包括总和、平均值、最大值、最小值、计数、去重计数;

(3)    可针对维度项和度量项进行排序,排序方式包括:默认顺序、升序、降序;

(4)    丰富的图表类型,其中包括:柱状图、堆积柱图、条图、堆积条图、折线图、面积图、双轴图、散点图、地图、气泡图、饼图、表格、矩形树图、数字图、漏斗图、子弹图;

(5)    智能推荐适合展现的数据图表(高亮显示);

(6)    智能数据筛选,可直接拖拽维度项内容到筛选区域,选择条件进行数据筛选;

(7)    自定义图表配色。可直接拖拽维度或度量项内容到颜色区域进行配色,也可以自定义配色方案;

Data Analytics_数据_10

4.4.4图表配置

Data Analytics为数据图表设计了丰富的个性化配置选项,具体包括:

(1)自定义图表名称;

(2)可选择是否显示图表标签,包括数值和比例;

(3)坐标轴配置,可自定义X轴标题与Y轴标题;

(4)支持针对图表上的数字进行配置,包括数值缩写格式、数值类型、小数位数和后缀;

(5)配表度量支持条件着色;

(6)可对维度数量进行限制,当数据维度过多时,可通过限制维度选项,观察重点维度;

(7)支持缩略轴,选择显示后,用户可以在图表下方看到缩略轴,并通过拖拽方式灵活地查看数据;

(8)可以针对图表设置参考线。可以给参考线命名,参考值类型包括两种,固定值和计算值。用户也可添加多条参考值;

(9)预警功能。当图表数据出现异常时,用户将收到短信和邮件提醒。目前,预警功能支持的图表组件包括:柱状图、条形图、折线图、散点图、双轴图;

(10)跳转功能。用户可以将两个看板之间建立跳转关系,从而更方便的进行查看和分析;

(11)下钻限制。Data Analytics支持全维度数据钻取,但用户也可以根据需要,自行选择需要下钻的维度。

Data Analytics_看板_11

Data Analytics_Data_12

Data Analytics_Data_13

4.5业务看板

通过看板,用户可以方便快速的查看业务数据并进行分析工作,同时,还可以在看板中与团队成员进行沟通讨论。Data Analytics看板支持用户进行自由组合,也可以在看板中加入图表组件。

1. 用户可随意添加删除看板;

2. 可对看板进行自定义命名;

3. 用户可在看板中对所有图表进行拖拽组合以及自由布局;

4. 图表组件和筛选器可自由拖拽添加到看板中;

5. 可在看板中与团队成员进行讨论沟通,支持发送文字、图片和快照;

6. 支持看板分享。可通过团队共享功能,将此看板分享给团队中任意成员;也可通过链接分享功能,快速分享给其他人。
 

Data Analytics_Data_14

Data Analytics_数据_15

4.6交互式分析

Data Analytics提供了多种交互式分析功能,如对度量项添加计算指标、各组件之间的数据联动、全维度数据钻取、数据预警、高级分析预测等,满足用户灵活方便的分析需求。

其中,高级分析预测目前开放了“折线图”预测功能,系统可以在用户对字段配置之后,对于数值变动进行自动预测,生成模拟折线图。

Data Analytics_Data_16

Data Analytics_看板_17

Data Analytics_数据_18

4.7权限管理

Data Analytics支持用户创建团队和自定义权限管理。用户可以对团队中不同的角色分配对应的看板,满足各级人员分析查看业务数据的需求。

Data Analytics_Data_19

4.8多屏显示

Data Analytics支持多平台数据可视化展现。支持电视、电脑、手机等多屏同步显示,7x24小时不间断展示业务数据动态,方便随时决策。

Data Analytics_看板_20

5Data Analytics核心技术

►    微服务架构:Data Analytics产品采用标准的微服务架构,各个模块相对独立,可以针对性的进行模块优化和升级。降低了系统之间的耦合度,为产品提供了更好的业务适应性;

►    Go体系:Go语言作为一个高性能开发语言,在Data Analytics中,涉及性能要求比较高的模块,均采用Go作为开发语言,保证了整体系统性能。Go体系经过长期的发展,已经非常成熟,也可以降低一部分系统部署复杂度。►    DH Data Engine(MPP + 内存混合数据引擎):作为数据中台的核心引擎,数据的快速处理能力,是重中之重。DataHunter独有的MPP + 内存混合并行计算架构,可以为数据业务化提供强劲的支持。该技术融合了并行计算架构和内存结算架构,可以充分利用内存,释放硬件能力。

►    DH Data Connector Framework(数据连接器框架):可以帮助客户对接企业内的各个业务系统,获取数据。►    DH Query Processing Engine(实时动态处理引擎):生成适应多种数据库的SQL,可以支持任意维度数据图形化钻取,无需预先建立cube。

►    DH Internal Script Engine(内置脚本引擎)& DH Template Variable Converter (模板变量转换器):支持数据层面的用户分级管理,多人分享和展示权限内的数据。