- Spark Streaming
Spark Streaming核对实时流式数据的处理具有可扩展性、高吞吐量、可容错性。我们可以从kafka、flume、Twitter、 ZeroMQ、Kinesis等源获取数据,也可以通过高阶函数map、reduce、join、window等组成的复杂算法计算出数据。最后,处理后的数据可以推送到文件系统、数据库、实时仪表盘中。事实上,你可以将处理后的数据应用到Spark的机器学习算法、图处理算法中去。
Spark Streaming接收实时的输入数据流,然后将这些数据切分为批数据供Spark引擎处理,Spark引擎将数据生成最终的结果数据。
Spark是UC Berkeley AMP lab所开源的类HadoopMapReduce的通用并行计算框架,Spark基于map reduce算法实现分布式计算,拥有MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果是保存在内存中,从而不再需要读写HDFS。因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
Spark重要性:
(1)Spark提供的框架能够实现高级分析,如:查询加速、机器学习算法、图形处理、流分析等等。
(2)Spark实现快速、精准的数据分析方式。
(3)Spark提供了不同层面的灵活性。
(4)Spark借Hadoop之势,与Hadoop无缝结合;接着Shark(Spark上的数据仓库实现)借了Hive的势。
2.Streaming流计算框架
流是现在推特、微博、微信、图片服务以及物联网、位置服务等等的重要数据形态,因此流计算正显得前所未有的重要。流计算框架是所有互联网服务商的核心基础架构,Amazon、Microsoft都已经推出了Event消息总线云服务平台,而facebook\twitter等更是将自己的流计算框架开源。
Spark Streaming专门设计用于处理流式数据。通过Spark Streaming,可以快速地将数据分析处理环节,具有高的吞吐量、更快速的失败恢复。