话题讨论:Storm, Spark, Hadoop三个大数据处理工具谁将成为主流
大数据现在是业内炙手可热的话题,随着技术的发展,大数据存储技术已经不在是难点,但是对大数据如何做好存储后的下一步处理将是未来竞争的焦点,目前比较受欢迎的Storm, Spark, Hadoop三个大数据处理工具都是JVM上的语言写成的。
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点。
Storm由
和clojure写成,storm的优点是全内存计算,因为内存寻址速度是硬盘的百万倍以上,所以storm的速度相比较hadoop非常快。
hadoop是实现了mapreduce的思想,将数据切片计算来处理大量的离线数据数据。hadoop处理的数据必须是已经存放在hdfs上或者类似hbase的数据库中,所以hadoop实现的时候是通过移动计算到这些存放数据的机器上来提高效率。
本期我们将围绕以下几个话题讨论:
1、大数据核心是什么?
2、Storm, Spark, Hadoop三个大数据处理工具谁将成为主流?
3、你觉得今年大数据的发展趋势如何?
回答者:http://www.itpub.net/home.php?mod=space&uid=26837803
1、大数据核心是什么?
===============================
为什么要处理大数据?这恐怕是为了发掘其中的隐含价值。
将大数据从某个方面进行加工处理得到为特定业务的便利性,甚至是预见性的核心数据。这就是大数据的价值。
再者,大数据的量,分析切面、维度都是难易度量的。
进而我觉得它的核心就是:
①:在指定时间内能分析出结果
②:能根据实际需求找到合理的分析切面以及分析维度
===============================
2、Storm, Spark, Hadoop三个大数据处理工具谁将成为主流?
===============================
只是了解Hadoop,其余两个只是听过概念。不敢妄加评论。
不过涉及到内存计算的技术在2013用的倒是挺多。估计未来短时间内会被重视。
至于是不是主流,不得而知..
===============================
3、你觉得今年大数据的发展趋势如何?
===============================
①:随着智能设备的普及大数据必将进入移动应用、与移动应用结合。
这个将是短时间内最能出现的发展趋势
②:人工智能,机器学习的相关研究领域也将涉及大数据。
必须是Spark,Spark已经正式从孵化器毕业,成为Apache顶级项目,Spark的核心技术是RDD(Resilient Distributed Datasets),而RDD的核心思想则是内存计算存储。Spark提供的编程接口,非常易用,RDD间的关系构成一个DAG,方便任务调度。Spark关键词:高效,易用。未来Hadoop的顶层必定是Spark。 |