规划硬件我们主要介绍两个方面:一个是Master怎么规划,一个是Slave怎么规划,选择是不一样的。其他规划诸如容量以及操作系统的选择也会简单介绍,对于了解Hadoop的操作环境有着重要帮助作用。

首先我们看一下Slave,它是用来存储数据然后进行计算的,在选择配置的时候通常要优先考虑处理器。我们知道Hadoop的核心并不是在单台机器上进行多复杂的运算,它是分布式的,所以对于处理器的要求并不高,那么选择中等的数据器就可以(比如:2*6核2.9主频)。

至于内存方面,要尽可能给高一点,中端给到256GB RAM,高端的给到512GB RAM。网络方面中端给到1GB以太网,高端的给到10GB以太网。这里重点要讲的是磁盘驱动,16*3TB SATA驱动(中端的),24*1TB SAS驱动(高端的),我们发现越高端磁盘越多,访问效率也就越高。在磁盘驱动这里也会涉及到一个概念Non-RAID,大家了解一下,具体可以自己去挖掘。

交换机使用专用的网络设施,Hadoop将会使资源饱和,节点都连接到机架交换机,机架之间通过核心交换机通信。

接下来我们重点强调Master节点,Master没有业务数据,不需要计算,但是Master存储有源数据,所以Master节点很重要,在使用机器的时候如果条件允许,最好选择高端的机器,运营商级别的硬件,双电源、以太网卡,所有的模块都做冗余。它配置有Raid,因为Master上面就是源数据,数据没有拷贝。20个节点以下集群配置64GB RAM,300个节点以下集群配置96GB内存,更大的集群配置128GB内存。

至于容量规划以及操作系统的选择,我们不做过多的说明,了解就可以。容量规划我们重点考虑复本机制和临时空间,以及服务器本身需要的空间。在这里我们必须清楚Hadoop自动使用新节点,很多集群开始很小(少于10个节点),并随着数据和处理的增长而增长,Hadoop集群可以增长到上千个节点。而操作系统一般选择擅长管理的发行版,也可以了解一下几个:CentOS:面向服务器,而不是工作站;RedHat企业版linux;Ubuntu非常流行的发行版;使用LTS(长期支持)的版本;SuSE在欧洲非常流行的发行版。

以上就是根据自己的经验对Hadoop硬件环境做的一个介绍,如果有什么不清楚的,比如Non-raid,可以自己去找资源充电。我平常也喜欢看一些别人分享的学习知识,从而弥补自己知识体系的欠缺,比如“大数据时代学习中心”。另外喜欢看一些实际的大数据案例,试着去分析案例中的问题,不断提升自己调用知识的能力,比如“大数据cn”,大家共勉,一起进步。