一.安装JA VA
1.创建JAVA目录:mkdir /usr/lib/java
2.将下载好的jdk移到(mv 源文件 /usr/lib/java)
3.cd /usr/lib/java
4.解压tar -xvf jdk名称
5.修改环境变量:进入3的目录下vim ~/.bashrc 
export JAVA_HOME=/usr/lib/java/jdk1.7.0_60
export JRE_HOME=${JAVA_HOME}/jre
export CLASS_PATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

6.测试Java的版本:java -version


二、配置Hadoop
1.安装ssh
apt-get install ssh
2.启动ssh
/etc/init.d/ssh start
3.验证服务是否正常启动
ps -e |gerp ssh
4.  cat ~/.ssh/id_rsa.pud >> ~/.ssh/authorized_keys
5.安装rsync
apt-get install rsync

6.安装Hadoop
mdkir /usr/local/hadoop
解压 tar -xvf hadoop的文件
移动 mv
7.在Hadoop-env.sh 配置Java安装信息
进入/usr/local/Hadoop/hadoop-1.2.1/conf
打开 Hadoop-env.sh
加入 export JAVA_HOME=/usr/lib/java/jdk1.7.0_60
保存生效 source hadoop-env.sh


8.为了方便我们在开机启动后立即使用Hadoop的bin目录的相关命令,把bin目录配置到“~/.bashrc”文件
中,在“~/.bashrc”的PATH中加入:/usr/local/hadoop/hadoop-1.2.1/bin
保存生效 source ~/.bashrc

9.运行Hadoop自带的WordCount例子
cd /usr/local/hadoop/hadoop-1.2.1
mkdir input
cp conf/* input
进入 cd /usr/local/hadoop/hadoop-1.2.1
hadoop jar hadoop-example-1.2.1.jar wordcount input output
查看运行结果 cat output/*

10.配置Hadoop伪分布式模式

·修改Hadoop的核心配置文件 core-site.xml,主要配置HDFS的地址和端口号

?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->

<configuration>
        <property>
                <name>fs.default.name</name>
                <value>hdfs://master:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/usr/hadoop/hadoop-1.2.1/tmp</value>
        </property>
</configuration>



. 修改Hadoop中的HDFS的配置文件hdfs-site.xml,主要配置replication

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->

<configuration>
        <property>
                <name>dfs.replication</name>
                <value> 你想使用的节点数量  </value>
        </property>
        <property>
                    <name>dfs.name.dir</name>
                   <value>/usr/hadoop/hadoop-1.2.1/hdfs/name</value>
         </property>
         <property>
                      <name>dfs.data.dir</name>
                     <value>/usr/hadoop/hadoop-1.2.1/hdfs/data</value>
          </property>
</configuration>

.修改Hadoop的MapReduce的配置文件mapred-site.xml,主要配置JobTracker的地址和端口号

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->

<configuration>
        <property>
                <name>mapred.job.tracker</name>
                <value>master:9001</value>
        </property>
</configuration>




11.启动Hadoop start-all.sh


12.使用新建的伪分布式平台运行Wordcount程序


hadoop dfs -mkdir input


hadoop dfs -copyFromLocal /uar/local/hadoop/hadoop-1.2.1/conf/* input


hadoop jar hadoop-examples-1.2.1.jar wordcount input output




三、配置Hadoop分布式集群环境


1.在/etc/hostname 中修改主机名并在/etc/hosts 中配置主机名和IP地址的对应关系


2.vim /etc/hosts


3.ping 命令看一下主机名和IP地址之间的转换关系是否正确


4.使集群通过ssh免密码登陆


在slave1中

cd /root/.ssh


scp id_rsa.pub root@master:/root/.ssh/id_rsa.pub.slave1(slave2也要传)


5.master节点上综合所有公钥


在master cd /root/.ssh 


cat id_rsa.pub >> authorized_keys


cat id_rsa.pub.slave1 >> authorized_keys


cat id_rsa.pub.slave2 >> authorized_keys


6.masterd 的公钥authorized_keys复制到slave1和slave2的.ssh目录下:


在master cd /root/.ssh


scp authorized_keys root@slave1:/root/.ssh/authorized_keys


scp authorized_keys root@slave2:/root/.ssh/authorized_keys




7.修改master的core-site.xml文件


把localhost域名改为master,同样的操作分别打开slave1和slave2节点core-site.xml


把localhost域名改为master


其次修改master、slave1和slave2的mapred-site.xml文件,mapred-site.xml中吧localhost域名改为


master


最后修改master、slave1和slave2的hdfs-site.xml文件,把dfs.replication的值


由1改为3


8.修改Hadoop配置文件的master和slave文件


master中 cd /usr/local/hadoop/hadoop-1.2.1/conf


vim master 


将localhost改为master




vim slaves


添加master


slave1


slave2


把master配置的masters和slaves文件分别拷贝到slave1和slave2的Hadoop安装目录下的conf


文件下


cd /usr/local/hadoop/hadoop-1.2.1/conf


scp masters root@slave1:/usr/local/hadoop/hadoop-1.2.1/conf


scp slaves root@slave1:/usr/local/hadoop/hadoop-1.2.1/conf




scp masters root@slave2:/usr/local/hadoop/hadoop-1.2.1/conf


scp slaves root@slave2:/usr/local/hadoop/hadoop-1.2.1/conf




9.通过master节点格式化集群的文件系统


hadoop namenode -format



10.启动hadoop集群:start-all.sh



四、安装Scala


1.mkdir /usr/lib/scala


2.修改环境变量 vim~/.bashrc


把Scala的环境变量信息加入其中 export SCALA_HOME=......


PATH=${SCALA_HOME}/bin


保存生效source ~/.bashrc


3.测试安装Scala版本:scala -version




五、安装Spark


1.mkdir /usr/local/spark


2.解压于此 tar xzf spark文件


3.cd /usr/local/spark/


vim ~/.bashrc


将SPARK_HOEM加入进去,并把spark的bin目录加到PATH中


保存生效 source ~/.bashrc




4.配置spark


进入conf目录


把spark-env.sh.template拷到spark-env.sh


cp spark-env.sh.template spark-env.sh


vim spark-env.sh


在配置文件中添加如下配置信息:


export JAVA_HOME=


export SCALA_HOME=


export SPARK_MASTER_IP=


export SPARK_WORKER_MEMORY=2g


export HADOOP_CNOF_DOR=...../conf




5.接下来配置spark的conf的slaves文件,把worker节点都添加进去


worker


slave1


slave2


6.slave1和slave2采用和master完全移动的spark安装配置