基于Apache的组件部署较繁琐且容易出错,组件耦合性太大,因此考虑到Hadoop集群部署的高效,集群的稳定性,以及后期集中的配置管理,业界多使用Cloudera公司的发行版(CDH),综述两者的区别及第三方发行版本如下。

Apache社区版

优点:完全开源免费,社区活跃,且文档、资料详实;

缺点:1、复杂的版本管理。版本管理比较混乱的,各种版本层出不穷;

2、复杂的集群部署、安装、配置。通常按照集群需要编写大量的配置文件,分发到每一台节点上,容易出错,效率低下。

3、复杂的集群运维。对集群的监控,运维,需要安装第三方的其他软件,运维难度较大。

4、复杂的生态环境。在Hadoop生态圈中,组件的选择、使用,比如Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,需要大量考虑兼容性的问题,版本是否兼容,组件是否有冲突,编译是否能通过等。经常会浪费大量的时间去编译组件,解决版本冲突问题。

第三方发行版

优点:1、基于Apache协议且100%开源,版本管理清晰。

2、比Apache Hadoop在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量运行到各种生产环境。

3、版本更新快:通常情况,CDH每季度有update,每年有个release。

3、提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时内部署好集群。

4、运维简单:提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。

发行版比较

Cloudera:最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目。

Hortonworks: Hortonworks是第一家使用了Apache HCatalog元数据服务特性的提供商。并开创性地极大地优化Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsft Windows平台上本地运行。

MapR:与竞争者相比,它使用了一些不同的概念,特别是为了获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS(使用非开源的组件)。可以使用本地Unix命令来代替Hadoop命令。除此之外,MapR还凭借快照、镜像或有状态的故障恢复之类的高可用性特性来与其他竞争者相区别。

考虑到大数据平台高效的部署和安装,中心化的配置管理,使用过程中的稳定性、兼容性、扩展性,以及未来较为简单、高效的运维,遇到问题低廉的解决成本,个人建议使用第三方发行版本。