1、hadoop
hadoop是一个开源项目,语言java,百度都有独立的hadoop系统
spark也是一个开源项目,语言scala,支持java
2、hadoop的两大核心
(1)hdfs
文件存储的分布式系统,一个文件存储为三份,文件安全
(2)mapreduce
分布式计算系统
例如mysql一个表当中存储1亿条数,相当于几十台电脑同时进行计算
select count(*) from 表名
3、hadoop特点
(1)扩容能力 扩展能力
假如公司大数据集群有100台服务器,随着数据量增大,当前服务器不能满足要求
就需求扩展机器,hadoop支持 即插即用。
(2)成本低
javaWeb
数据库服务器(最少2台,分为主从服务器):mysql服务器 5-10万 32G内存,固态硬盘10T, 32核,主板
tomcat服务器(至少3台,要建tomcat集群):2万 tomcat 16G内存,固态硬盘10T, 8核,主板
apache(NGIX)服务器:2万 16G内存,固态硬盘10T, 16核,主板

hadoop机器
name节点(主节点) 万 16G内存,固态硬盘10T, 8核,主板
node节点(从节点) 1G内存,固态硬盘10g, 1核,主板 3000-10000左右,二手服务器
(3)高效率
hadoop效率,高效率主要针对于数据量大来说的,假如给你1M
分布式存储
分布式计算

(4)可靠性,稳定性
分布式存储:如果一台机器损坏,还有两个备份
分布式计算:如果一台机器损坏,集群分自动分配任务

 

关系型数据库
mysql (中小企业,很多大企业也在用)
oracle(全国的公安系统或政府部门)
sqlserver(少)
DB2(全国的烟草行业)

4、主节点、从节点、主从式结构、块、副本
(1)主节点:namenode
从节点(数据节点):datanode
主从式结构:
主节点负责管理文件系统的文件结构,
从节点负责存储真实的数据,称为主从式结构(master-slaves)
主节点存储:相当于书的目录
那么文件结构:ip地址,盘符 文件夹
从节点:存储最终的数据,内容
(2)块 副本
block
数据存储到hadoop,数据会分为N块,每个块存为三个副本
例如一个文件256M,分按照128M进行切分,即切分为两块
384M 切分3块 每块存储为三个副本

1+2 …… 10 =

每一台机器
map reduce
1+2 = 3
3+4 =7
5+6 =11 = 3+7+11+15+19=55
7+8 =15
9+10 19