一、大数据的4V特征:
1.大数据量:数据的存储量大,增量大
2.速度快:数据的增长速度快,对处理数据的响应速度有更严格的要求,数据的处理几乎无延迟,时效性高
3.多样性:1)数据的来源多样性,除了传统的交易数据外,还有社交网站等多种来源的数据
2)数据的种类多样性,具体可分为结构化数据,如财务系统数据等,半结构化数据,如网页等和非结构化数据,如视频,图片等
4.价值密度低:大数据真正的价值体现在从大量不相关的各种类型的数据中,挖掘出对未来发展有价值的数据,进行深度分析并运用于各个行
二、Hadoop(apache开发开源分布式系统基础架构)三大核心:
1.分布式文件系统HDFS,有高容错性,可以部署在价格低廉的服务器上,主要包含namenode和datanode
2.分布式计算框架MapReduce,是一种离线计算框架,适合离线批处理,缺点启动开销大,任务多使用磁盘效率低
3.分布式资源管理系统YARN,主要包含ResourceManagerh和NodeManager
三、hodoop安装 (CDH版)伪分布式
1、下载源文件(hadoop-2.6.0-cdh5.14.2)
2、解压文件
tar -zxf hadoop-2.6.0-cdh5.14.2.tar.gz
3.移动文件夹到soft目录下
mv hadoop-2.6.0-cdh5.14.2 soft/hadoop260
4、进入文件夹目录下
cd soft/hadoop260/etc/hadoop
5、 打印文件路径
echo $JAVA_HOME
6、进入文件
vi hadoop-env.sh
7、修改配置
export JAVA_HOME=/opt/soft/jdk180
8、进入文件
vi core-site.xml
9、在configuration下加
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.56.138:9000</value> //默认地址
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/soft/hadoop260/tmp</value> //临时存储路径
</property>
<property>
<name>hadoop.proxyuser.root.hosts</name> //任意用户
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value> //任意组
</property>
10、进入文件
vi hdfs-site.xml
11.配置文件
<property>
<name>dfs.replication</name>
<value>1</value> //1副本
</property>
12、复制文件
cp mapred-site.xml.template mapred-site.xml
13、进入文件
vi mapred-site.xml
14、加配置
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
15、进入文件
vi yarn-site.xml
16、配置
<property>
<name>yarn.resourcemanager.localhost</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
17、进入文件
vi /etc/profile
18、配置文件
加
export HADOOP_HOME=/opt/soft/hadoop260 //文件路径
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME
20、source /etc/profile
21、hadoop namenode -format //全选yes
22、start-all.sh
23、jps
24、stop-all.sh
25、网页输入地址 192.168.56.138.50070 (你的ip)到Summary页面
四、HDFS特点
优点:支持处理超大文件、可运行在廉价机器上、高容错性、流式文件写入
缺点:不适合低延时数据访问场景、不适合小文件存取场景、不适合并发写入,文件随机修改场景
开启hadoop
命令在cd /opt/soft/hadoop260/sbin下
logs下查找文件有哪个没安装好
share/hadoop/mapreduce下查找工具包和文件
cd tmp/dfs/data/current下查看版本号