企业级大数据平台建设方案

  • 方案简介
  • 硬件
  • 软件
  • 分布式存储:
  • Foreman作为集群管理工具
  • Spark框架
  • cloudera


方案简介

该方案是多年前在Roadstar.ai任职时的建设方案,现将方案部分细节开源,结合本博客的其他文章,能够建立可靠的企业大数据平台。



硬件

自组双路Xeon E5 + 64GB + SSD(250GB)+ 10TB*24 +万兆电口
峰值功率~800W

软件

OS:Centos7,安装到SSD上
存储方案:ZFS + raidz2(双奇偶校验) + 1 hot spare disk(1热备盘)

注意zfs需要0.7x版本以上,0.7x解决了两个主要问题:
1)hot spare(热备)不能在有盘故障的情况下热接入。
2)resilver(重同步重同步)太慢



分布式存储:

HDFS
需要使用3.x的版本(erasure code)

冗余方案使用EC(纠删码Erasure Coding),10+4模式(10 个数据块,4 个冗余块),需要isa-l加速(英特尔存储加速库),–编译了一个启用native的hadoop。

若机器不足,namenode(名字节点)及其backup(备份节点)都和datanode(数据节点)可共用



Foreman作为集群管理工具

Foreman(集群管理工具):用来管理和自动化物理和虚拟服务器的工具。



Spark框架

Apache Spark,用于大数据处理和分析的快速、通用的分布式计算系统。



cloudera

使用Cloudera部署和管理hadoop集群

CDH 是 Cloudera 公司发布的一个综合性大数据平台,它包含了经过 Cloudera 企业级优化和增强的 Apache Hadoop 组件。