Hadoop已经不是一个新技术了,从2003年谷歌的三驾马车(GFS、MapReduce、Bigtable),到2008年成为Apache的顶级项目,一直到现在广泛的使用在大数据领域中,这是在做数据中台建设时必然会接触到的领域。

因此想写一个系列,从产品经理的角度讲一讲Hadoop及其相关的一些生态,帮助非技术背景的同行们能够更快速的理解。

如果从一个产品角度来分析Hadoop,那么可以分成以下几个方面:

背景问题

Hadoop最早起源于Nutch,Nutch的设计目标是构建一个大型的全网搜索引擎,在这过程中遇到了数十亿网页的存储和索引问题,而Hadoop正是为了解决海量数据的存储和计算而诞生。

hadoop的发展现状 简述hadoop的发展历程_Hadoop

Hadoop是什么?

在介绍Hadoop之前,先介绍一个简单的场景,如下图所示,工厂需要从仓库中运输原材料,然后加工成成品输出。

先假设一个最简单的模型:仓库有1280吨原材料,工厂可储备128吨,当前工厂有一台机器,每天能将一吨原材料加工成一个成品,现在需要将1280吨原材料运到工厂并加工成成品。

hadoop的发展现状 简述hadoop的发展历程_hadoop_02


在上述模型中需要解决以下的两个问题:

1、工厂存储空间小的问题:仓库有1280吨,而工厂只能存储128吨,如何解决大量原材料存储的问题?

2、工厂加工效率低的问题:工厂一天只能加工1吨原材料,如何提高加工的效率?因此,将该模型做了升级,如下图所示:

1、扩建工厂,每个工厂可存放128吨原材料,总共可存放1280吨。

2、招聘一个团队,团队中有一个leader负责分配任务并记录各个工厂的库存和施工情况,该团队工作机制包括:

1)物流机制:将原材料分成10份,每份128吨,并分别将每份原材料运输至不同工厂存放

2)加工机制:每个工厂分配一个工人进行对原材料进行加工,在其他条件不变的情况下,一天可加工10吨原材料

hadoop的发展现状 简述hadoop的发展历程_hadoop的发展现状_03


言归正传,Hadoop是一个软件框架,它利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理。Hadoop核心组件包括:

1、HDFS(分布式文件系统):将数据切块、存储,并记录切块的数据分别存放在哪些服务器上。

2、MapReduce(分布式运算编程框架):将待处理的大数据划分为很多个数据块,每个数据块对应于一个计算任务(Task),并自动调度计算节点来处理相应的数据块。

在这个模型中,可将工厂看做服务器,多个工厂相当于一个服务器集群,可通过扩展服务器的台数来扩展来存储容量;同时,可将这整个管理团队看做Hadoop,其中,物流机制可以看做是HDFS,加工机制可以看做是MapReduce。

从广义上来讲,Hadoop通常指一个更广泛的概念——Hadoop生态圈

hadoop的发展现状 简述hadoop的发展历程_hadoop的发展现状_04

Hadoop厂商

在实际项目中,很少会使用原生Hadoop作为集群,往往使用一些商业版本,比如阿里的MaxCompute,阿里其实最早用的也是Hadoop,之后在此基础上做一些bug修复,特定开发等, 但在这个过程中开源版本也在迭代,这时候就可能会提交不上去,新的特性也拉不下来,所以后来阿里就自己研究了一套ODPS,也就是现在的MaxCompute。

另外比较常见还有Cloudera的CDH,华为的FusionInsight,星环的TDH等,这些公司将开源的Hadoop版本升级改造,并提供一些辅助的可视化工具,比如Cloudera Manager 和Ambari等。

PS:加粗内容在后续文章中展开介绍。