安装:
1.下载http://d3kbcqa49mib13.cloudfront.net/spark-2.0.1-bin-hadoop2.6.tgz
2.安装master到 192.168.8.94机器
解压文件,并运行 sbin中的 start-master.sh
bash start-master.sh
正常安装后,可以通过如下页面打开:
3.安装worker
./bin/spark-class org.apache.spark.deploy.worker.Worker spark://192.168.8.94:7077 -c 4 -m 2G
-c参数代表核心数。
-m参数代表内存大小。
安装完成
使用:
1.运行pyspark shell
如:运行pyspark shell 分配6个CPU , 每个执行器2个CPU , 可以通过如下命令:
pyspark --master spark://192.168.8.94:7077 --total-executor-cores 6 --executor-cores 2
运行结果:
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 2.0.2
/_/
Using Python version 2.6.6 (r266:84292, Jul 23 2015 15:22:56)
SparkSession available as 'spark'.
>>>
2.spark-submit提交任务
如提交一个任务,分配6个CPU, 每个执行器2个CPU,可以通过如下命令
[gcadmin006@cnhbase111 ~]$ spark-submit --master spark://172.17.13.111:7077 --total-executor-cores 6 --executor-cores 2 hbase_to_cloudhbase_prodesc.py