安装:


1.下载http://d3kbcqa49mib13.cloudfront.net/spark-2.0.1-bin-hadoop2.6.tgz


2.安装master到 192.168.8.94机器


解压文件,并运行 sbin中的 start-master.sh


bash start-master.sh


正常安装后,可以通过如下页面打开:



3.安装worker


./bin/spark-class org.apache.spark.deploy.worker.Worker spark://192.168.8.94:7077 -c 4 -m 2G


-c参数代表核心数。


-m参数代表内存大小。



安装完成



使用:


1.运行pyspark shell


如:运行pyspark shell 分配6个CPU , 每个执行器2个CPU , 可以通过如下命令:


pyspark --master spark://192.168.8.94:7077 --total-executor-cores 6 --executor-cores 2


运行结果:


Welcome to 

 

  ____ __ 

 

  / __/__ ___ _____/ /__ 

 

  _\ \/ _ \/ _ `/ __/ '_/ 

 

  /__ / .__/\_,_/_/ /_/\_\ version 2.0.2 

 

  /_/ 

 
 
 
 

  Using Python version 2.6.6 (r266:84292, Jul 23 2015 15:22:56) 

 

  SparkSession available as 'spark'. 

 

  >>>


2.spark-submit提交任务


如提交一个任务,分配6个CPU, 每个执行器2个CPU,可以通过如下命令


[gcadmin006@cnhbase111 ~]$ spark-submit --master spark://172.17.13.111:7077 --total-executor-cores 6 --executor-cores 2 hbase_to_cloudhbase_prodesc.py