话题讨论:Storm, Spark, Hadoop三个大数据处理工具谁将成为主流



     大数据现在是业内炙手可热的话题,随着技术的发展,大数据存储技术已经不在是难点,但是对大数据如何做好存储后的下一步处理将是未来竞争的焦点,目前比较受欢迎的Storm, Spark, Hadoop三个大数据处理工具都是JVM上的语言写成的。


      Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点。


      Storm由

java

和clojure写成,storm的优点是全内存计算,因为内存寻址速度是硬盘的百万倍以上,所以storm的速度相比较hadoop非常快。


      hadoop是实现了mapreduce的思想,将数据切片计算来处理大量的离线数据数据。hadoop处理的数据必须是已经存放在hdfs上或者类似hbase的数据库中,所以hadoop实现的时候是通过移动计算到这些存放数据的机器上来提高效率。


       本期我们将围绕以下几个话题讨论:


       1、大数据核心是什么?


       2、Storm, Spark, Hadoop三个大数据处理工具谁将成为主流?


       3、你觉得今年大数据的发展趋势如何?



回答者:http://www.itpub.net/home.php?mod=space&uid=26837803

1、大数据核心是什么?


===============================


为什么要处理大数据?这恐怕是为了发掘其中的隐含价值。


将大数据从某个方面进行加工处理得到为特定业务的便利性,甚至是预见性的核心数据。这就是大数据的价值。


再者,大数据的量,分析切面、维度都是难易度量的。


进而我觉得它的核心就是:


①:在指定时间内能分析出结果


②:能根据实际需求找到合理的分析切面以及分析维度


===============================


2、Storm, Spark, Hadoop三个大数据处理工具谁将成为主流?


===============================


只是了解Hadoop,其余两个只是听过概念。不敢妄加评论。


不过涉及到内存计算的技术在2013用的倒是挺多。估计未来短时间内会被重视。


至于是不是主流,不得而知..


===============================


3、你觉得今年大数据的发展趋势如何?


===============================


①:随着智能设备的普及大数据必将进入移动应用、与移动应用结合。


   这个将是短时间内最能出现的发展趋势


②:人工智能,机器学习的相关研究领域也将涉及大数据。


arron刘


必须是Spark,Spark已经正式从孵化器毕业,成为Apache顶级项目,Spark的核心技术是RDD(Resilient Distributed Datasets),而RDD的核心思想则是内存计算存储。Spark提供的编程接口,非常易用,RDD间的关系构成一个DAG,方便任务调度。Spark关键词:高效,易用。未来Hadoop的顶层必定是Spark。