企业级大数据平台建设方案
- 方案简介
- 硬件
- 软件
- 分布式存储:
- Foreman作为集群管理工具
- Spark框架
- cloudera
方案简介
该方案是多年前在Roadstar.ai
任职时的建设方案,现将方案部分细节开源,结合本博客的其他文章,能够建立可靠的企业大数据平台。
硬件
自组双路Xeon E5 + 64GB + SSD(250GB)+ 10TB*24 +万兆电口
峰值功率~800W
软件
OS:Centos7,安装到SSD上
存储方案:ZFS
+ raidz2(双奇偶校验)
+ 1 hot spare disk(1热备盘)
注意zfs需要0.7x版本以上,0.7x解决了两个主要问题:
1)hot spare(热备)不能在有盘故障的情况下热接入。
2)resilver(重同步重同步)太慢
分布式存储:
HDFS
需要使用3.x的版本(erasure code)冗余方案
使用EC(纠删码Erasure Coding)
,10+4模式(10 个数据块,4 个冗余块),需要isa-l
加速(英特尔存储加速库),–编译了一个启用native
的hadoop。
若机器不足,namenode(名字节点)
及其backup(备份节点)
都和datanode(数据节点)
可共用
Foreman作为集群管理工具
Foreman(集群管理工具):用来管理和自动化物理和虚拟服务器的工具。
Spark框架
(Apache Spark,用于大数据处理和分析的快速、通用的分布式计算系统。)
cloudera
CDH 是 Cloudera 公司发布的一个综合性大数据平台,它包含了经过 Cloudera 企业级优化和增强的 Apache Hadoop 组件。