1. Hadoop vs Spark vs Flink - 数据处理
Hadoop:Apache Hadoop专为批处理而构建。它需要输入中的大数据集,同时处理它并产生结果。批处理在处理大量数据时非常有效。由于数据的大小和系统的计算能力,输出会产生延迟。
Spark:Apache Spark也是Hadoop Ecosystem的一部分。它也是一个批量处理系统,但它也支持流处理。
Flink:Apache Flink为流和批处理提供单个运行时。
2. Hadoop vs Spark vs Flink - Streaming Engine
Hadoop:Map-reduce是面向批处理的处理工具。它需要输入中的大数据集,同时处理它并产生结果。
Spark:Apache Spark Streaming以微批处理数据流。每批包含在批处理期间到达的事件的集合。但对于我们需要处理大量实时数据并实时提供结果的用例来说,这还不够。
Flink:Apache Flink是真正的流媒体引擎。它使用流来处理工作负载:流,SQL,微批和批处理。 Batch是一组有限的流数据。
3. Hadoop vs Spark vs Flink - 数据流
Hadoop:MapReduce计算数据流没有任何循环。这是一个阶段链。在每个阶段,使用前一阶段的输出向前进展并为下一阶段生成输入。
Spark:虽然机器学习算法是循环数据流,但Spark将其表示为(DAG)直接非循环图。
Flink:Flink采用与其他方法不同的方法。它支持运行时的受控循环依赖图。这有助于以非常有效的方式表示机器学习算法。
4. Hadoop vs Spark vs Flink - 计算模型
Hadoop:MapReduce采用了面向批处理的模型。批处理正在处理静态数据。它一次需要大量数据,处理它然后写出输出。
Spark:Spark采用微批量生产。微批是一种基本上“收集然后处理”的计算模型。
Flink:Flink采用了连续流,基于算子的流模型。连续流算子在数据到达时处理数据,没有任何延迟收集数据或处理数据。
5. Hadoop vs Spark vs Flink - 性能
Hadoop:Apache Hadoop仅支持批处理。它不处理流数据,因此与Hadoop和Spark vs Flink相比,性能更慢。
Spark:虽然Apache Spark拥有出色的社区背景,但现在它被认为是最成熟的社区。但它的流处理效率不如Apache Flink,因为它使用微批处理。
Flink:与其他任何数据处理系统相比,Apache Flink的性能非常出色。 Apache Flink使用本机闭环迭代运算符,当我们比较Hadoop与Spark vs Flink时,它们使机器学习和图形处理更快。
6. Hadoop vs Spark vs Flink - 内存管理
Hadoop:它提供可配置的内存管理。可以动态或静态地执行此操作。
Spark:它提供可配置的内存管理。 Spark 1.6的最新版本已经转向自动化内存管理。
Flink:它提供自动内存管理。它有自己的内存管理系统,与Java的垃圾收集器分开。
7. Hadoop vs Spark vs Flink - 容错
Hadoop:MapReduce具有高度容错能力。如果Hadoop出现任何故障,则无需从头开始重新启动应用程序。
Spark:Apache Spark Streaming恢复丢失的工作,没有额外的代码或配置,它提供了一次性的语义。阅读有关Spark Fault Tolerance的更多信息。
Flink:Apache Flink遵循的容错机制基于Chandy-Lamport分布式快照。该机制重量轻,可以保持高吞吐率并同时提供强大的一致性保证。
8. Hadoop vs Spark vs Flink - 可伸缩性
Hadoop:MapReduce具有令人难以置信的可扩展性潜力,并已在数万个节点的生产中使用。
Spark:它具有高度可扩展性,我们可以在群集中不断添加n个节点。一个大的已知sSpark集群有8000个节点。
Flink:Apache Flink也具有高度可扩展性,我们可以在群集中不断添加n个节点大型已知的Flink群集拥有数千个节点。
9. Hadoop vs Spark vs Flink - 迭代处理
Hadoop:它不支持迭代处理。
Spark:它分批迭代其数据。在Spark中,每个迭代都必须单独调度和执行。
Flink:它使用流式架构迭代数据。可以指示Flink仅处理实际已更改的数据部分,从而显着提高作业的性能。
10. Hadoop vs Spark vs Flink - 语言支持
Hadoop:它主要支持Java,支持的其他语言有c,c ++,ruby,groovy,Perl,Python。
Spark:它支持Java,Scala,Python和R. Spark在Scala中实现。它提供其他语言的API,如Java,Python和R.
Flink:它支持Java,Scala,Python和R.Flink是用Java、Scala实现的。
11. Hadoop vs Spark vs Flink - 优化
Hadoop:在MapReduce中,必须手动优化作业。有几种方法可以优化MapReduce作业:正确配置集群,使用组合器,使用LZO压缩,适当调整MapReduce任务的数量,并为数据使用最合适和紧凑的可写类型。
Spark:在Apache Spark中,必须手动优化作业。有一个新的可扩展优化器Catalyst,它基于Scala中的函数编程构造。 Catalyst的可扩展设计有两个目的:第一,易于添加新的优化技术。其次,使外部开发人员能够扩展优化器催化剂。
Flink:Apache Flink附带一个独立于实际编程接口的优化器。 Flink优化器与关系数据库优化器的工作方式类似,但将这些优化应用于Flink程序,而不是SQL查询。
12. Hadoop vs Spark vs Flink - Latency
Hadoop:Hadoop的MapReduce框架相对较慢,因为它旨在支持不同的格式,结构和大量数据。这就是为什么Hadoop比Spark和Flink都具有更高的延迟。
Spark:Apache Spark是另一个批处理系统,但它比Hadoop MapReduce快,因为它通过RDD将大部分输入数据缓存在内存中,并将中间数据保存在内存中,最终在完成时或在需要时将数据写入磁盘。
Flink:Apache Flink的数据流运行时只需很少的配置,就可以实现低延迟和高吞吐量。
13. Hadoop vs Spark vs Flink - 处理速度
Hadoop:MapReduce进程比Spark和Flink慢。这种缓慢的发生只是因为基于MapReduce的执行的性质,它产生了大量的中间数据,节点之间交换了大量数据,从而导致巨大的磁盘IO延迟。此外,它必须在磁盘中保留大量数据以便在阶段之间进行同步,以便它可以支持从故障中恢复作业。此外,MapReduce中没有办法将所有数据子集缓存在内存中。
Spark:Apache Spark比MapReduce处理得更快,因为它通过RDD将大部分输入数据缓存在内存中,并将中间数据保存在内存中,最终在完成时或在需要时将数据写入磁盘。 Spark比MapReduce快100倍,这表明Spark比Hadoop MapReduce更好。
Flink:由于其流式架构,它的处理速度比Spark快。 Flink通过指示仅处理实际已更改的部分数据来提高作业的性能。
14. Hadoop vs Spark vs Flink - 可视化
Hadoop:在Hadoop中,数据可视化工具是zoomdata,可以直接连接到HDFS以及Impala,Hive,Spark SQL,Presto等SQL-on-Hadoop技术。
Spark:它提供了一个Web界面,用于提交和执行可以显示生成的执行计划的作业。 Flink和Spark都集成到Apache zeppelin它提供数据分析,摄取,以及发现,可视化和协作。
Flink:它还提供用于提交和执行作业的Web界面。生成的执行计划可以在此界面上显示。
15. Hadoop vs Spark vs Flink - 恢复
Hadoop:MapReduce对系统故障或故障自然具有弹性。它是高度容错的系统。
Spark:Apache Spark RDD允许通过重新计算DAG来恢复故障节点上的分区,同时通过检查点支持与Hadoop更相似的恢复样式,以减少RDD的依赖性。
Flink:它支持将程序存储在数据源和数据接收器中的检查点机制,窗口状态,以及在故障后恢复流式传输作业的用户定义状态。
16. Hadoop vs Spark vs Flink - 安全
Hadoop:它支持Kerberos身份验证,这有点难以管理。但是,第三方供应商已使组织能够利用Active Directory Kerberos和LDAP进行身份验证。
Spark:Apache Spark的安全性有点稀疏,目前只支持通过共享密钥进行身份验证(密码身份验证)。 Spark可以享受的安全奖励是,如果您在HDFS上运行Spark,它可以使用HDFS ACL和文件级权限。此外,Spark可以在YARN上运行以使用Kerberos身份验证。
Flink:Flink通过Hadoop / Kerberos基础架构提供用户身份验证支持。如果您在YARN上运行Flink,Flink将获取提交程序的用户的Kerberos令牌,并使用该证书在YARN,HDFS和HBase上进行身份验证.Flink即将推出的连接器,流程序可以通过SSL将自身身份验证为流代理。
17. Hadoop vs Spark vs Flink - 成本
Hadoop:MapReduce通常可以在比一些替代品更便宜的硬件上运行,因为它不会尝试将所有内容存储在内存中。
Spark:由于spark需要大量RAM才能在内存中运行,因此在群集中增加它会逐渐增加其成本。
Flink:Apache Flink还需要大量的RAM才能在内存中运行,因此会逐渐增加成本。
18. Hadoop vs Spark vs Flink - 兼容性
Hadoop:Apache Hadoop MapReduce和Apache Spark相互兼容,Spark通过JDBC和ODBC共享所有MapReduce对数据源,文件格式和商业智能工具的兼容性。
Spark:Apache Spark和Hadoop彼此兼容。 Spark与Hadoop数据兼容。它可以通过YARN或Spark的独立模式在Hadoop集群中运行,它可以处理HDFS,HBase,Cassandra,Hive和任何Hadoop InputFormat中的数据。
Flink:Apache Flink是一个可扩展的数据分析框架,与Hadoop完全兼容。它提供了一个Hadoop兼容包,用于包装针对Hadoop的MapReduce接口实现的功能,并将它们嵌入到Flink程序中。
19. Hadoop vs Spark vs Flink - 抽象
Hadoop:在MapReduce中,我们没有任何类型的抽象。
Spark:在Spark中,对于批处理,我们有Spark RDD抽象和DStream用于流式传输,这是内部RDD本身。
Flink:在Flink中,我们为流应用程序提供批量和DataStream的数据集抽象。
20. Hadoop vs Spark vs Flink - 易于使用
Hadoop:MapReduce开发人员需要手动编写每个操作的代码,这使得它很难工作。
Spark:它很容易编程,因为它有大量的高级操作员。
Flink:它还拥有高级运营商。
21. Hadoop vs Spark vs Flink - 交互模式
Hadoop:MapReduce没有交互模式。
Spark:Apache Spark有一个交互式shell,可以学习如何充分利用Apache Spark。这是一个用Scala编写的Spark应用程序,它提供了一个具有自动完成功能的命令行环境,您可以在其中运行即席查询并熟悉Spark的功能。
Flink:它带有一个集成的交互式Scala Shell。它可以在本地设置和群集设置中使用。
22. Hadoop vs Spark vs Flink - 实时分析
Hadoop:MapReduce在实时数据处理方面失败,因为它旨在对大量数据执行批处理。
Spark:它可以处理实时数据,即来自实时事件流的数据,速率为每秒数百万个事件。
Flink:它主要用于实时数据分析虽然它还提供快速批量数据处理。
23. Hadoop vs Spark vs Flink - Scheduler
Hadoop:Hadoop中的Scheduler成为可插拔组件。有两个用于多用户工作负载的调度程序:Fair Scheduler和Capacity Scheduler。为了安排复杂的流程,MapReduce需要像Oozie这样的外部作业调度程序。
Spark:由于内存计算,spark会运行自己的流调度程序。
Flink:Flink可以使用YARN Scheduler,但Flink也有自己的Scheduler。
24. Hadoop vs Spark vs Flink - SQL支持
Hadoop:它使用户能够使用Apache Hive运行SQL查询。
Spark:它使用户能够使用Spark-SQL运行SQL查询。 Spark提供了像查询语言这样的Hives和像DSL这样的Dataframe来查询结构化数据。
Flink:在Flink中,Table API是一种类似于SQL的表达式语言,它支持DSL之类的数据帧,并且它仍处于测试阶段。有计划添加SQL接口但不确定何时它将落在框架中。
25. Hadoop vs Spark vs Flink - 缓存
Hadoop:MapReduce无法将数据缓存在内存中以满足未来的需求
Spark:它可以将数据缓存在内存中以进行进一步的迭代,从而提高其性能。
Flink:它可以将数据缓存在内存中以进行进一步的迭代,以提高其性能。
26. Hadoop vs Spark vs Flink - 硬件要求
Hadoop:MapReduce在Commodity Hardware上运行良好。
Spark:Apache Spark需要中高级硬件。由于Spark缓存数据在内存中进行进一步的迭代,从而提高了性能。
Flink:Apache Flink还需要中高级硬件。 Flink还可以将数据缓存在内存中,以进行进一步的迭代,从而提高其性能。
27. Hadoop vs Spark vs Flink - 机器学习
Hadoop:它需要像Apache Mahout这样的机器学习工具。
Spark:它有自己的一套机器学习MLlib。在内存缓存和其他实现细节中,它是实现ML算法的强大平台。
Flink:它有FlinkML,它是Flink的机器学习库。它支持运行时的受控循环依赖图。这使得它们与DAG表示相比以非常有效的方式表示ML算法。
28. Hadoop vs Spark vs Flink - 代码行
Hadoop:Hadoop 2.0有1,20,000行代码。更多的行不会产生更多的错误,执行程序将花费很多时间。
Spark:Apache Spark仅用20000行代码开发。代码行的数量小于Hadoop。因此执行程序所需的时间更少。
Flink:Flink是用scala和java开发的,所以没有。代码行的数量小于Hadoop。因此,执行程序所需的时间也会减少。
29. Hadoop vs Spark vs Flink - 高可用性
高可用性是指长时间运行的系统或组件。
Hadoop:可在高可用性模式下配置。
Spark:可在高可用性模式下配置。
Flink:可在高可用性模式下配置。
30. Hadoop vs Spark vs Flink - Amazon S3连接器
Amazon Simple Storage Service(Amazon S3)是一个对象存储,具有简单的Web服务接口,可以从Web上的任何位置存储和检索任意数量的数据。
Hadoop:为Amazon S3 Connector提供支持。
Spark:为Amazon S3 Connector提供支持。
Flink:为Amazon S3连接器提供支持。
31. Hadoop vs Spark vs Flink - 部署
Hadoop:在独立模式下,Hadoop配置为以单节点非分布式模式运行。在伪分布式模式下,Hadoop以伪分布式模式运行。因此,不同之处在于每个Hadoop守护程序都以伪分布式模式在单独的Java进程中运行。而在本地模式下,每个Hadoop守护程序都作为单个Java进程运行。在完全分布式模式下,所有守护进程在单独的节点中执行,形成多节点集群。
Spark:它还提供了一个简单的独立部署模式,可以在Mesos或YARN集群管理器上运行。它可以手动启动,通过手动启动主人和工作人员或使用我们提供的启动脚本。也可以在一台机器上运行这些守护进程进行测试。
Flink:它还提供独立部署模式,以便在YARN集群管理器上运行。
32. Hadoop vs Spark vs Flink - Back pressure Handing
BackPressure是指缓冲区已满且无法接收更多数据时I / O开关上的数据累积。在数据瓶颈消除或缓冲区为空之前,不再传输数据包。
Hadoop:它通过手动配置处理背压。
Spark:它还通过手动配置处理背压。
Flink:它通过系统架构隐式处理背压。
33. Hadoop vs Spark vs Flink - 删除重复
Hadoop:Hadoop中没有重复消除。
Spark:Spark还可以精确处理每个记录一次,从而消除重复。
Flink:Apache Flink完全处理每个记录一次,因此消除了重复。流应用程序可以在计算期间维护自定义状态。 Flink的检查点机制确保在出现故障时状态的语义完全一次。
34. Hadoop vs Spark vs Flink - 窗口标准
需要将数据流分组为许多逻辑流,每个逻辑流可以应用窗口运算符。
Hadoop:它不支持流式传输,因此不需要窗口标准。
Spark:它具有基于时间的窗口标准。
Flink:它具有基于记录或任何自定义用户定义的Flink窗口标准。
35. Hadoop vs Spark vs Flink - Apache许可证
Apache许可证2.0版(ALv2)是由Apache Software Foundation(ASF)编写的许可免费软件许可证。 Apache许可证要求保护版权声明和免责声明。
Hadoop:Apache许可证2。
Spark:Apache许可证2。
Flink:Apache许可证2。
因此,这就是Hadoop与Spark vs Flink的前3大数据技术之间的比较。