========================Apr.13th, 2012======================== 1. Why do we use Hadoop? 1)Stripped to its core, the tools of that Hadoop provides for building distributed systems - for data stora
原创
2012-04-14 00:01:24
757阅读
Hadoop hadoop-1.2.1.tar.gz jdk-6u32-linux-x64.binUseradd -u 900 hadoopMv jdk1.6.0_32 /home/hadoopMv hadoop-1.2.1.tar.gz/home/hadoopChown hadoop.hadoop /home/hadoop -RSu -hadoopLn -s j
原创
2016-09-18 19:12:33
551阅读
来自:http://www.cnblogs.com/wayne1017/archive/2007/03/18/668768.html
这里先大致介绍一下Hadoop.
本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的,同时又参
转载
2011-09-08 14:46:47
456阅读
参考资料:《Hadoop 权威指南》 1 map处理完后,hadoop框架会
原创
2022-06-01 05:11:00
161阅读
hadoop管理员常用命令hadoop job -list #列出正在运行的jobhadoop job -kill <job_id> #kill jobhadoop fsck / #检查HDFS块状态,是否损坏ha
原创
2023-05-16 00:22:24
28阅读
上一份工作主要负责大数据平台的建设,在这个过程中积累了一些Hadoop生态组件的搭建和使用笔记,由于时间关系,不打算去修改其中的错别字和排版问题,直接释出原始笔记。搭建安装三个核心组件一个hadoop基本集群,牵涉三个组件:hdfs 负责分布式的文件存储yarn 负责分布式的资源管理mr 负责分布式计算安装配置环境变量配置etc/hadoop/hadoop-env.sh、etc/hadoop/ha
转载
2021-04-04 22:58:27
327阅读
2评论
hadoop是什么?What Is Apache Hadoop?The Apache Hadoop project develops open-source softwarefor reliable, scalable, distributed computing.解决问题:海量数据的存储(HDFS)海量数据的分析(MapReduce)作者:Doug Cutting受Google三篇论文的启发(G
原创
2014-03-21 23:13:23
1053阅读
序列化1:所谓序列化,是指将结构化对象转化为字节流,以便在网络上传输或写到磁盘进行永久存储,反序列化是指字节流转回结构化对象的逆过程。2:序列化在分布式数据处理的两大领域经常出现:进程间通信
原创
2015-11-04 16:17:58
170阅读
概论Hadoop是Apache下的开源项目 数据存储:HDFS 分布式文件系统,负责存储数据,数据分散存储NameNode管理节点,存储元数据(文件对应的数据块位置、文件大小、文件权限等信息)同时负责读写调度和存储分配DataNode数据存储节点,每个数据块会根据设置的副本数进行分级复制,保证同一个文件的每个数据块副本都在不同机器上 数据分析:MapReduce计算引擎离线计算(非实时计算)
转载
2021-01-20 09:21:07
242阅读
2评论
YARN产生背景为什么会产生YRAN?这个与MapReduce1.x的架构有关,正是因为MapReduce1.x存在许多的问题,才会产生 YARN。MapReduce1.x的架构如下:Hadoop1.x时,MapReduce的架构仍然是主从架构。一个JobTracker带多个TaskTracker,主节点为JobTracker,只有一个,从节点为TaskTracker,可以有多个,从节点通...
转载
2021-06-10 21:07:21
166阅读
Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Pig 任务工作流.同时Oozie还是一个Java Web程序,运行在Java Servlet容器中,如Tomcat. Oozie工作流中拥有多个Action,如Hadoop Map/Reuce job,Hadoop Pig job等,所有的Action以有向无环图(DAG Direct Acyclic Graph)的模式部署运行.所以在Action的运行步骤上是有方向的,只能上一个Action运行完成后才能运行下一个Action. Oozie工作流通过HPDL(一种通过XML自定义处理的语言,类似JBOSS...
转载
2013-08-02 22:14:00
172阅读
2评论
fsimage和edit log,参考:查看hdfs的fsimage和editlog 浅谈HDFS的fsimage、edit log与SecondaryNameNode HDFS- High Availability
转载
2015-06-17 17:22:00
156阅读
2评论
ubuntu虚拟机,带有gitlab和jenkins等测试环境:链接: http://pan.baidu.com/s/1jIhljyI
原创
2022-06-20 09:57:30
88阅读
元数据持久化原理如下:本地多目录多个目录之间使用逗号分隔dfs.namenode.name.dirNameNode配置多个本地目录主要是为了可靠性;每个目录存放的内容相同;dfs.datanonde.data.dir可以给不同的节点配置不同的数据存放目录;同一节点的不同的数据存放目录存放的数据内容不同——各目录之间不是备份的关系;数据节点配置多个目录不是为了可靠性;每...
原创
2022-09-30 10:15:49
80阅读
1. 独立启动/停止Hadoop进程在一台主机上执行hadoop-daemon.sh start datanodehadoop-daemon.sh stop datanode或者hdfs datanodeCtrl + zbg 或者 bg %1 # 转后台运行2. HA的解决方案两个名称节点(active-standby)QJM(Quorum Journal Manager)...
原创
2022-09-30 10:16:05
50阅读
一. 基本操作1. Ubuntu从桌面模式切换到文本模式快捷键:Ctrl+Alt+F62. Ubuntu从文本模式切换到桌面模式快捷键:Ctrl+Alt+F7二. 基本概念1. 大数据的容量单位换算(单位byte)1024B=1K1024K=1M1024M=1G1024G=1T1024T=1P1024P=1E1024E=1Z1024Z=1Y1024Y=1N1024N...
原创
2022-09-30 10:18:24
48阅读
从jar包中提取默认配置core-default.xmlhadoop-common-< ver >.jarhdfs-default.xmlhadoop-hdfs-< ver >.jarmapred-default.xmlhadoop-mapreduce-client-core-< ver >.jaryarn-default.xmlhadoo...
原创
2022-09-30 10:18:45
103阅读