目录
1.Hadoop生态圈相关组件
2.MapReduce的特点及运行架构
MapReduce的特点
3.spark的特点和与MapReduce的区别
4.Linux基础操作命令(搭建Hadoop平台需要)
文件与目录操作:
用户操作:
文本操作:
系统操作:
5.冷备 温备 热备
6.数据类型
1.Hadoop生态圈相关组件
Hadoop是较早用于处理大数据集合的分布式存储计算基础架构,目前由Apache软件基金会管理。通过Hadoop,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力执行高速运算和存储。简单地说,Hadoop是一个平台,在它之上可以更容易地开发和运行处理大规模数据的软件。
如图所示:
Hadoop包括以下4个基本模块。
1)Hadoop基础功能库:支持其他Hadoop模块的通用程序包。
2)HDFS:一个分布式文件系统,能够以高吞吐量访问应用中的数据。
3)YARN:一个作业调度和资源管理框架。
4)MapReduce:一个基于YARN的大数据并行处理程序。
除了基本模块,Hadoop还包括以下项目。
1)Ambari:基于Web,用于配置、管理和监控Hadoop集群。支持HDFS、MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari还提供显示集群健康状况的仪表盘,如热点图等。Ambari以图形化的方式查看MapReduce、Pig和Hive应用程序的运行情况,因此可以通过对用户友好的方式诊断应用的性能问题。
2)Avro:数据序列化系统。
3)Cassandra:可扩展的、无单点故障的NoSQL多主数据库。
4)Chukwa:用于大型分布式系统的数据采集系统。
5)HBase:可扩展的分布式数据库,支持大表的结构化数据存储。
6)Hive:数据仓库基础架构,提供数据汇总和命令行即席查询功能。
7)Mahout:可扩展的机器学习和数据挖掘库。
8)Pig:用于并行计算的高级数据流语言和执行框架。
9)Spark:可高速处理Hadoop数据的通用计算引擎。Spark提供了一种简单而富有表达能力的编程模式,支持ETL、机器学习、数据流处理、图像计算等多种应用。
10)Tez:完整的数据流编程框架,基于YARN建立,提供强大而灵活的引擎,可执行任意有向无环图(DAG)数据处理任务,既支持批处理又支持交互式的用户场景。Tez已经被Hive、Pig等Hadoop生态圈的组件所采用,用来替代 MapReduce作为底层执行引擎。
11)ZooKeeper:用于分布式应用的高性能协调服务。
除了以上这些官方认可的Hadoop生态圈组件之外,还有很多十分优秀的组件这里没有介绍,这些组件的应用也非常广泛,例如基于Hive查询优化的Presto、Impala、Kylin等。
此外,在Hadoop生态圈的周边,还聚集了一群“伙伴”,它们虽然未曾深入融合Hadoop生态圈,但是和Hadoop有着千丝万缕的联系,并且在各自擅长的领域起到了不可替代的作用。图2是阿里云E-MapReduce平台整合的Hadoop生态体系中的组件,比Apache提供的组合更为强大。
下面简单介绍其中比较重要的成员。
1)Presto:开源分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB级。Presto可以处理多数据源,是一款基于内存计算的MPP架构查询引擎。
2)Kudu:与HBase类似的列存储分布式数据库,能够提供快速更新和删除数据的功能,是一款既支持随机读写,又支持OLAP分析的大数据存储引擎。
3)Impala:高效的基于MPP架构的快速查询引擎,基于Hive并使用内存进行计算,兼顾ETL功能,具有实时、批处理、多并发等优点。
4)Kylin:开源分布式分析型数据仓库,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力,支持超大规模数据的压秒级查询。
5)Flink:一款高吞吐量、低延迟的针对流数据和批数据的分布式实时处理引擎,是实时处理领域的新星。
6)Hudi:Uber开发并开源的数据湖解决方案,Hudi(Hadoop updates and incrementals)支持HDFS数据的修改和增量更新操作。
2.MapReduce的特点及运行架构
和HDFS一样,MapReduce也是採用Master/Slave的架构,其架构图例如以下所看到的。
MapReduce的特点
1.易于编程。它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。就是因为这个特点,使得 MapReduce 编程变得非常流行。
2.良好的扩展性。当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力。
3.高容错性。 MapReduce 设计的初衷就是使程序能够部署在廉价的PC机器上, 这就要求它具有很高的容错性。比如其中一台机器挂了,它可以把上面的计算任务转移到另外一个节点上运行,不至于使这个任务运行失败,而且这个过程不需要人工干预,完全是由 Hadoop 内部完成的
4.能对PB级以上海量数据进行离线处理。适合离线处理而不适合实时处理, 比如要求毫秒级别的返回一个结果, MapReduce 很难做到。
原文链接:
3.spark的特点和与MapReduce的区别
1.快速:Spark在内存中的运行速度是Hadoop MapReduce运行速度的100多倍,Spark在磁盘中的运行速度是Hadoop MapReduce运行速度的10多倍。Spark的中心数据存放于内存中,有更高的迭代运算效率,而Hadoop MapReduce每次迭代的中间数据存放在HDFS中,涉及硬盘的读写,运算效率相对较低
2.易用:Spark支持使用Scala、Python、Java、R等语言快速编写应用。此外。Spark提供超过80个高阶算子,使得编写并行应用程序变的简单。而Hadoop MapReduce只支持Scala。
3.通用:Spark框架包含多个紧密集成的组件,包括Spark SQL(即席查询)、Spark Streaming(实时流处理)、Spark MLlib(机器学习库)、Spark GraphX(图计算),并且Spark支持在一个应用中同时使用这些组件。
4.随处运行:用户可以使用Spark的独立集群模式运行Spark,随时随地,这里不多加赘述。
5.代码简洁:Spark一般都使用Sacla或Python编写应用程序。MapReduce实现单词计数可能需要60多行代码,而Spark使用Salca语言实现只需要一行
4.Linux基础操作命令(搭建Hadoop平台需要)
文件与目录操作:
pwd 命令
格式:pwd
功能:显示当前所在目录(即工作目录)。
[root@centos ~]# pwd
实例:
ls 命令
格式:ls [选项] [文件|目录]
功能:显示指定目录中的文件或子目录信息。当不指定文件或目录时,显示 当前工作目录中的文件或子目录信息。
命令常用选项如下:
-a :全部的档案,连同隐藏档( 开头为 . 的档案) 一起列出来。
-l :长格式显示,包含文件和目录的详细信息。
-R :连同子目录内容一起列出来。
说明:命令“ls –l”设置了别名:ll,即输入 ll 命令,执行的是 ls –l 4 命令。
[root@centos /]# ls –a
实例:
[root@centos /]# ls –l
实例:
[root@centos opt]# ls –R
实例:
cd 命令
格式:cd
功能:用于切换当前用户所在的工作目录,其中路径可以是绝对路径也可以 是相对路径。
[root@centos ~]# cd /etc/
实例:
Mkdir 命令
格式: mkdir [选项] 目录
功能:用于创建目录。创建目录前需保证当前用户对当前路径有修改的权 限。参数 -p 用于创建多级文件夹。
[root@centos ~]# mkdir linux
[root@centos ~]# ls
anaconda-ks.cfg linux
实例:
rm 命令
格式: rm [选项]
功能:用于删除文件或目录,常用选项-r -f,-r 表示删除目录,也可以用于 删除文件,-f 表示强制删除,不需要确认。删除文件前需保证当前用户对当 前路径有修改的权限。
[root@centos ~]# rm -rf linux
实例:
cp 命令
格式: cp [选项]
功能:复制文件或目录。
[root@centos ~]# cp /linux/text /opt/
实例:
复制一个目录需加选项 –r
mv 命令
格式:mv [选项]
功能:移动文件或对其改名。常用选项-i -f -b,-i 表示若存在同名文件,则向用户 询问是否覆盖;-f 直接覆盖已有文件,不进行任何提示;-b 当文件存在时,覆盖 前为其创建一个备份。
[root@centos ~]# mv /linux/text /
实例:
cat 命令
格式:cat [选项] [文件]
功能:查看文件内容。常用选项:-n 显示行号(空行也编号)。
[root@centos mnt]# cat -n text
实例:
tar 命令
格式:tar [选项] [档案名] [文件或目录]
功能:为文件和目录创建档案。利用 tar 命令,可以把一大堆的文件和目录 全部打包成一个文件,这对于备份文件或将几个文件组合成为一个文件以便 于网络传输是非常有用的。该命令还可以反过来,将档案文件中的文件和目 录释放出来。
常用选项:
-c 建立新的备份文件。
-C 切换工作目录,先进入指定目录再执行压缩/解压缩操作,可用于 仅压缩特定目录里的内容或解压缩到特定目录。
-x 从归档文件中提取文件。
-z 通过 gzip 指令压缩/解压缩文件,文件名为*.tar.gz。
-f 指定备份文件。
-v 显示命令执行过程。
[root@localhost ~]# ls
实例:
[root@localhost ~]# tar Docker.tar.gz
实例:
[root@localhost ~]# tar -zxvf Docker.tar.gz -C /opt/
实例:
[root@localhost ~]# ls /opt/
实例:
用户操作:
useradd 命令和 passwd 命令
格式:useradd 用户名
功能:创建新用户,该命令只能由 root 用户使用。
格式:passwd 用户名
功能:设置或修改指定用户的口令。
[root@centos ~]# useradd xiaoming
[root@centos ~]# passwd 123456 #设置用户密码
[root@centos ~]# passwd xiaoming #更改指定用户密码,暗文显示,两次确认
实例:
chown 命令
格式:chown [选项]
功能:将文件或目录的拥有者改为指定的用户或组,用户可以是用户名或者 用户 ID,组可以是组名或者组 ID,文件是以空格分开的要改变权限的文件 列表支持通配符。选项“-R”表示对目前目录下的所有文件与子目录进行相同 的拥有者变更。
[root@centos ~]# chown xiaoming:xiaoming text
实例:
chmod 命令
格式:chmod [-R] 模式 文件或目录
功能:修改文件或目录的访问权限。选项“-R”表示递归设置指定目录下的所 有文件和目录的权限。 模式为文件或目录的权限表示,有三种表示方法。
- 数字表示 用 3 个数字表示文件或目录的权限,第 1 个数字表示所有者的权限,第 2个 数字表示与所有者同组用户的权限,第 3 个数字表示其他用户的权限。每类 用户都有 3 类权限:读、写、执行,对应的数字分别是 4、2、1。一个用户 的权限数字表示为三类权限的数字之和,如一个用户对 A 文件拥有读写权 限,则这个用户的权限数字为 6(4+2=6)。
[root@centos ~]# chmod 777 text
实例:
- 字符赋值 用字符 u 表示所有者,用字符 g 表示与所有者同组用户,用字符 o 表示其他 用户。用字符 r、w、x 分别表示读、写、执行权限。用等号“=”来给用户赋 权限。
[root@centos ~]# chmod u=rwx,g=rw,o=r text
实例:
su 命令
格式:su [-] 用户名
功能:将当前操作员的身份切换到指定用户。如果使用选项“-”,则用户切换 后使用新用户的环境变量,否则环境变量不变。
[root@centos ~]# su – xiaoming
实例:
exit退出
root用户切换普通用户不需要密码,普通用户切其他普通用户或者root用户需要密码
文本操作:
文本编辑器这里只介绍一个 vi 命令,vim 命令的操作与 vi 一样。
格式:vi [文件名]
功能:vi 是 Linux 的常用文本编辑器,vim 是从 vi 发展出来的一个文本编辑器, 其在代码补全、编译等方便的功能特别丰富,在程序员中被广泛使用。
vi/vim 有三个工作模式:
命令模式 用户刚刚启动 vi/vim,便进入了命令模式。此状态下敲击键盘动作会被 vi 识别为命令,而非输入字符。以下是常用的几个命令:
i 切换到输入模式,以输入字符。
x 删除当前光标所在处的字符。
: 切换到末行模式,用以在最底一行输入命令
[root@centos ~]# vi text
之后输入 i、x 或:会有相应的效果
输入模式
i
实例
左下角显示INSERT表示进入写入模式
在输入模式下可以对文件执行写操作,编写完成后按 Esc 键即可返回命令模式。
末行模式
如果要保存、查找或者替换一些内容等,就需要进入末行模式。以下是常用的几个命 令:
Set nu:每一行显示行号
r 文件名:读取指定的文件。
w 文件名:将编辑内容保存到指定的文件内。
q:退出 vi
wq:保存文件并退出 vi
q!:强制退出 vi,不管是否保存文档内容。(x:强制保存推出)
系统操作:
clear 命令
格式:clear
功能:清除屏幕。实质上只是让终端显示页向后翻了一页,如果向上滚动屏 幕还可以看到之前的操作信息。
[root@centos ~]# clear
实例
hostname 命令
格式:hostname [选项]
功能:用于显示和设置系统的主机名称。在使用 hostname 命令设置主机名 后,系统并不会永久保存新的主机名,重新启动机器之后还是原来的主机 名。如果需要永久修改主机名,需要同时修改/etc/hostname 的相关内容。
常用选项:
-a 显示主机别名,
-i 显示主机的 ip 地址。
[root@centos ~]# hostname
实例:
[root@centos ~]# hostname –i
实例
hostnamectl 命令
格式 1:hostnamectl
功能:显示当前主机的名称和系统版本。
格式 2:hostnamectl set-hostname
功能:永久设置当前主机的名称。
[root@centos ~]# hostnamectl set-hostname xaioming
实例:
ip 命令
CentOS 7 已不使用 ifconfig 命令,其功能可通过 ip 命令代替。
格式 1:ip link dev
功能:对网络设备(网卡)进行操作,选项 add、delete、show、set 分别对 应增加、删除、查看和设置网络设备。
[root@xaioming ~]# ip link show
实例:
格式 2:ip address dev
功能:对网卡的网络协议地址(IPv4/IPv6)进行操作,选项 add、change、 del、show 分别对应增加、修改、删除、查看 IP 地址。
示例: #这里将 address 缩写为 addr
[root@xaioming ~]# ip link show
实例:
[root@xaioming ~]# ip a(一般都习惯这种)
实例
systemctl 命令
格式:systemctl service_name.service
功能:管理系统中的服务,“.service”表示管理的服务均包含了一个 以 .service 结尾的文件,存放于 /lib/systemd/目录中,可以省略。命令选项 有 start、restart、reload、stop、status,分别对应服务的启动、重启、重 新加载、停止和显示状态。另外选项 enable 表示开机时启动,disable 表示 撤销开机启动。
#启动网络服务
[root@xaioming ~]# systemctl start network
#关闭防火墙,注意 CentOS 7 的防火墙服务名称改为 firewalld
[root@localhost ~]# systemctl stop firewalld
#查看 ssh 服务的状态
[root@localhost ~]# systemctl status sshd
#设置 ssh 服务开机启动
[root@localhost ~]# systemctl enable sshd
reboot 命令
格式: reboot
功能:用于重新启动计算机,但是机器重启必须要 root 用户才有权限。
注意:本操作无需在平台系统执行
[root@master ~]# reboot
poweroff 命令
格式:poweroff
功能:用来关闭计算机操作系统并且切断系统电源。如果确认系统中已经没
有用户存在且所有数据都已保存,需要立即关闭系统,可以使用 poweroff
命令。
注意:本操作无需在平台系统执行
[root@master ~]# poweroff
export 命令
格式:export [选项] [变量名]
功能:用于将 Shell 变量输出为环境变量,或者将 Shell 函数输出为环境变
量。一个变量创建时,它不会自动地为在它之后创建的 Shell进程所知,而
命令export 可以向后面的 Shell 传递变量的值。当一个Shell 脚本调用并执行
时,它不会自动得到父脚本(调用者)里定义的变量的访问权,除非这些变
量已经被显式地设置为可用。export 命令可以用于传递一个或多个变量的值
到任何子脚本。
常用选项:
-f 代表[变量名称]中为函数名称。
-n 删除指定的变量。变量实际上并未删除,只是不会输出到后续指令的执行
环境中。
-p 列出所有的 Shell 赋予程序的环境变量。
示例:
[root@localhost ~]# export -p #列出当前所有的环境变量
实例:
[root@localhost ~]# export MYENV=8 #定义环境变量,并赋值 MYENV=8
实例:
echo命令
格式:echo [字符串]
功能:用于在终端设备上输出字符串或变量提取后的值。一般使用在变量前
加上$符号的方式提取出变量的值,例如:$PATH然后再用 echo 命令予以
出。
示例:
#输出一段字符串 LinuxCool.com
[root@localhost ~]# echo "LinuxCool.com"
实例:
#输出变量 PATH 值
[root@localhost ~]# echo #PATH
source 命令
格式:source [文件]
功能:用于重新执行刚修改的初始化文件,使之立即生效,而不必注销用
户,重新登录。
示例: #读取和执行/etc/profile 文件
[root@localhost ~]# source /etc/profile
实例:
5.冷备 温备 热备
热备(在线备份):在数据库运行时直接备份,对数据库操作没有任何影响。
冷备(离线备份):在数据库停止时进行备份。
温备:在数据库运行时加全局读锁备份,保证了备份数据的一致性,但对性能有影响。
6.数据类型
Scala语言和Java类似,数据类型也是大同小异
Java八大数据类型:
(1)整数类型:byte、short、int、long
(2)小数类型:float、double
(3)字符类型:char
(4)布尔类型:boolean