一,大数据的概述
1,大容量(Vlome)、多类型(variety)、高时效(velocity)、价值密度低(value)。
2,目前大数据处理采用分布式、并行处理的架构,这种架构相对于传统数据处理技术有如下创新:
a,以多节点协同代替单节点能力的提升;
b,使计算与数据的结合更紧密和科学;
c,以容错机制代替对低故障率的要求;
d,处理架构的平滑扩展。
3,YARN最核心的改进是把MapReduce架构中的资源管理和作业调度两个功能拆分到独立的进程中。
随手笔记:
使用“uname -a”确认操作系统相关参数:
hadoop的组成:
概述:
hadoop HDFS:一个高可靠、高吞吐量的分布式系统
hadoop MapReduce:一个分布式的离线并行计算的框架
hadoop YARN:作业调度与集群资源管理的框架
hadoop Common:支持其他模块的工具模块
HDFS架构概述:
1,NnameNode(nn):是存储文件的元数据,例如:文件名、文件目录结构、文件属性,以及每个文件的快列表和快列所在的DataNode等。
2,DataNode(do):在本地文件系统存储文件块数据,以及块数据的校验和。
3,Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照,相当于帮HDFS干活的。
YARN架构概述:
1,ResourceManager(nm):处理客户端的请求。启动/监控APPlicationMaster、监控NodeManager、资源分配与调度。
2,NodeManager(nm):单个节点上的资源管理,处理来自ResourManager的命令,处理来自APPlicationMaster的命令
3,APPlicationMaster:数据切片,为应用程序申请资源
MapReduce架构概述:
MapReduce将计算过程分为两个阶段:Map and Reduce
1,Map阶段并行处理输入的数据
2,Reduce阶段对Map结果进行汇总
大数据生态体系,当入门了解即可
二、hadoop运行环境搭建:这是基本的一定要熟练
这里用的是centos7
克隆虚拟机,不在详细说,谷歌或百度都可以
克隆完成后要网络设置
1,设置IP 网关 DNS
vi /etc/sysconfig/network-scripts/ifcfg-ens33 (这串数字是不固定的,root权限),:wq! #保存退出
修改后如下:
TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
BOOTPROTO=static
DEEROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
#删除UUID,防止克隆时出现两台机器的唯一标识是一样的
DEVICE=ens33
ONBOOT=yes
#ip
IPADDR=192.168.100.5
#网关
GATEWAY=192.168.100.2
#子网掩码
NETMASK=255.255.255.0
#使用主的DNS
DNS1=192.29.29.29
#备用的DNS
DNS2=8.8.8.8
2,修改主机名
hostnamectl set-hostname 主机名(设置自己想要的)
修改方式很多种我也来介绍一下:
方式一,通过hostnamectl来修改主机名
方式二,通过修改文件/etc/hostname来实现主机名的修改。把该文件内容替换成自己想要的主机名重启即可。
方式三,还可以通过nmtui进入图形界面来修改主机名。将光标通过键盘的上下键移动到“设定系统主机名”菜单处,按下回车键。
3,修改主机名称映射
vi /etc/hosts 尽量多添加几个,避免后期学习再来添加比较麻烦,大数据后期肯能用到6台,前期配置4台就可以了
4,重启
reboot
5,关闭防火墙
centos6关闭防火墙使用以下命令:
//临时关闭
service iptables stop
//禁止开机启动
chkconfig iptables off
centos7关闭防火墙使用以下命令:
systemctl stop firewalld //临时关闭
systemctl stop firewalld.service #停止防火墙
systemctl start firewalld.service #开启防火墙
systemctl status firewalld.service #查看防火墙状态
systemctl enable firewalld.service #开机自启 “启用”
systemctl disable firewalld.service #开机自启 “禁用
6,修改普通用户的权限
vi /etc/sudoers
hadoop ALL(ALL) ALL
7,在/opt目录下创建两个目录
sudo mkdir module
sudo mkdir software
8,权限都是root的,这样太危险了。要修改这两文件夹权限为普通用户
sudo chown hadoop:hahoop module/ software/
9,导包到/software目录下
这里用jdk1.8以上的,如果你是jdk1.8以下的要换成1.8以上的,不然后面学习中会遇到很多的麻烦
hadoop-2.7.2.tar.gz其他的版本也行,现在都是用2.x.x以上的了
10,解压到module目录下
1.1,先解压:tar -zxvf jdk-8u65-linux-x64.tar.gz -C /opt/module/
配置环境变量:sudo vi /etc/profile
然后:
重启:source /etc/profile
测试:java -version
这样Java就配置完成。
1.2, tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/
配置环境变量:sudo vi /etc/profile
重启:source /etc/profile
测试:hadoop -version或者直接hadoop
如果直接hadoop出现以下就可以了
1.3配置hadoop-env.sh 前期可配不配的,如果配置的如下
vi hadoop-env.sh
安装完毕。