大数据技术的核心是什么?
面对这个问题,相信大家都会回答是大数据分析系统。
大数据分析系统从海量类型多样、增长快速、内容真实的数据背后挖掘、分析,从中找出可以帮助决策的价值信息,未知的单方/双方/多方关系,并结合用户需求有针对性地进行调整和优化。
今天,大数据分析系统已然扎根于各行各业,对信息安全、社会经济生活、民生等起着十分重要的作用。但是,在它繁荣兴盛的背后,又存在着哪些无奈呢?我们一起来梳理一下。
一、系统组件太多,孤岛情况突出,运维和安全成本太高
目前,很多大数据分析系统的架构是这样的。
第一层,数据采集与整合层,由双向/单向数据同步系统、分布式消息总线Kafka、数据集成系统ETL组成。
第二层,大数据存储与分析层,由分布式文件系统、分布式数据库系统作为存储组件,开源大数据计算框架Spark、Storm等作为分析工具。
第三层,服务与接口层,部署SOA架构的服务总线系统以及大数据工具的集合。
第四,应用层,由各类自主研发的UI应用系统构成。
这种系统架构就像一个拼接的魔方,它既庞大又复杂。
IT资源种类及其数量不断增多,网络形态更加复杂。一方面给运维工作带来巨大的压力和挑战,另一方面在实现数据资源共享和挖掘潜在价值方面,也暴露出包含大量敏感和重要信息的数据资源被泄露和非法利用的风险。
二、无法深度融合人工智能AI与商业智能BI的优势
目前,市面上优秀的大数据分析系统比较多,可以将其划分为两类:
第一类,以MapReduce和Spark计算框架等为代表的高性能分析系统,以各种高性能处理算法、智能搜索与挖掘算法等为主要研究内容,也是大数据分析的研究主流。
第二类,以大数据可视化分析(isual analytics of big data)为主要代表(比如,Tableau),主要以人机交互为主,强调以人作为分析主体,结合各类精美的可视化图表进行分析。
可见,第一类系统侧重于AI,第二类系统侧重于BI,他们各有特色,但并未深入的相互融合。
虽然,目前一些商业智能系统已开始整合AI功能,但并未深入融合AI技术,因此难以全面地支持人工智能。同时,大数据本身的新特点和多元化的用户分析需求,也对AI与BI提出了更为迫切的需求与更加严峻的挑战。
三、非轻量级交互式编程语言,学习成本高且不利于交互分析
数据分析是一项需要具备较高的知识与技能的工作,除了要熟悉行业知识,掌握数学和统计学的方法外,还需要掌握一门分析编程语言才能驾驭大规模的海量数据!
常用的可编程分析语言有R语言、Spark、MATLAB等。这此语言由变量、赋值语句、表达式、控制语句等构成指令序列,有比较复杂的保存和编译过程。
第一,无法逐句执行,不能执行一条输出一个结果。非常不利于分析师定位错误,进行数据探索。
第二,不能灵活组合多种原语,无法将复杂的数据分析场景简单化,更适合于有编程经验的程序员,学习和入门门槛高。
四、可视化大屏只能看,不能交互
当数据驱动决策的大潮来袭后,对海量数据进行高效分析后,能够进行多维度的高清展示就成为每一个决策者心中的期待!为了这份期待,很多数据公司提供了创造性的呈现方式及内容(美仑美奂的高清展示大屏、划分清晰而完整的主题)。即便如此,在一些方面仍不能满足用户的需求。
第一,数据大屏的信息量太大,无法让用户迅速聚焦重点。
第二,无法快速了解多个屏幕在整体上的布局情况,当需要寻找某一具体信息时,不能通过缩略布局图快速返回。
第三,目前大屏信息量较大,虽有划分主题,但在宏观上还是不好区分。快速定位的问题仍有待解决。
第四,不能有效地下钻链接内容。
第五,同屏及多屏互动功能还处于空白阶段。
抛开现象看本质,可视化是表象,分析内核才是灵魂。如果表现形式不能很好地反映内在,即使做的再精美也是难以发挥价值的。
五、定制化需求太多,实施成本太高,要赚钱很难
首先,大数据开源技术的蓬勃兴盛造就了大数据行业的低门槛,越来越多的IT公司正在或打算从事大数据业务,造成了激烈的行业竞争。但是开源技术虽然成熟,应用广泛,但如果要作为商用,承担大任,就会存在如何根据用户基础架构和数据特点,进行开源组件优化和二次开发的问题。而开源技术存在涉及面广、版本更新快的问题,对技术开发能力的要求是比较高的,无法普适于一般的数据分析师。
其次,定制化需求比较多。大数据时代,如何用数据充分挖倔价值是王道。每个客户可能都有着不一样的分析需求,不能用一款产品定制出多元化的项目是痛中之痛。
再次,我们知道做一个大数据分析项目的大致流程是这样的:
需求分析 → 部署Hadoop/Spark等平台 → 数据处理ETL → 数据探索,构建模型 → 开发可视化界面 → 交互测试 。
可以看出,过程长而复杂,这就对开发人员提出了很高的要求。要求基础平台搭建工程师,拥有HADOOP、SPARK、ELK、Sqoop、UTL、关系型数据库等技能;要求后台开发工程师,拥有J2EE/XML/Web Servie、Map/Recude、Spark Driver、Spark streaming等技能;要求分析和数据挖掘工程师,拥有Hive/Impala/Spark SQL、spark MLLib/graphx、Matlab、ES QueryDSL/ESQL等技能;要求前端开发工程师,拥有HTML5\CSS3、JavaScript、JQuery\Bootstrap、Echars\D3.js等技能。一个项目需要这么多的人力成本,且对技能的要求如此之高,让项目管理负重而行。
以上问题共同造成了用户的哀伤,如何解决,才能截然不“痛”呢?