Spark安装方法(standalone模式)

一、简单认知,什么是Spark?


     Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,(注:如果不保存将会消失)因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

官网对spark速度介绍:

Speed Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.也就是说Spark比hadoop快100倍,当然官方拿来测试的例子IO读写操作比较多,这正是Hadoop的不足和Spark基于内存计算的长处。 二、Spark的下载 官网下载地址( http://spark.apache.org/downloads.html)点击箭头指示方向下载

哪里有可以下载spark的镜像 怎么下载spark_哪里有可以下载spark的镜像

(注:可以在选项一选择Spark的发行版本,选项二中选择下载的包类型,选项三选择下载类型。) 三、Spark的安装 安装前确定你的jdk已经安装过了 把文件上传到你的linux机器上找到该文件 1、解压文件:

tar -zxvf spark-1.6.1-bin-hadoop2.6.tar.gz 后面的参数根据你下载的文件版本名而定 2、找到conf目录打开 cd spark-1.6.1-bin-hadoop2.6/conf/ 3、修改spark的环境变量文件spark-env.sh vim spark-env.sh 添加以下配置 export JAVA_HOME=/opt/jdk1.8.0_121 export SPARK_MASTER_IP=master export SPARK_MASTER_PORT=7077 export HADOOP_CONF_DIR=/home/hadoop/software/hadoop-2.7.3 注意:这里的JAVA_HOME为你的java安装目录 SPARK_MASTER_IP为你的master节点的ip地址,可以写hostname前提是你配置了hosts文件中的ip映射 SPARK_MASTER_PORT为端口号 最后一个为你的Hadoop配置目录,可以不写 4、修改slaves文件 在slaves文件中添加作为worker结点的ip地址(可以写hostname前提是你的hosts文件中配置了ip映射),类似于Hadoop配置中的slaves文件 5、分发文件到其他结点 如果你配置了ssh免密码登录的话可以使用命令: scp -r spark-1.6.1-bin-hadoop2.6/ slave01:~/software/ 注意这里slave01为我的worker结点hostname 顺便介绍一下快速配置ssh的命令(ssh-copy-id hostname) 6、测试是否安装成功 使用命令 ./sbin/start-all.sh 或者进入spark-1.6.1-bin-hadoop2.6目录下的sbin目录中使用./start-all.sh 完成启动之后jps命令查看master和worker的运行状态

哪里有可以下载spark的镜像 怎么下载spark_Hadoop_02

Spark为主从结构,看见worker和master都启动成功,表示安装成功