spark-shell使用

原创

江上晚风吟n 2022-05-09 20:36:59 博主文章分类：spark数据分析 ©著作权

文章标签 spark big data hadoop jar 文章分类 Spark 大数据

©著作权归作者所有：来自51CTO博客作者江上晚风吟n的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录

使用SparkPi提交任务

bug（待解决)：

spark-shell进行词频统计

使用SparkPi提交任务

先开启spark集群

[root@hadoop01 bin]# ./spark-submit --class org.apache.spark.examples.SparkPi /
--master spark://hadoop01:7077 /
--executor-memory 1G /
--total-executor-cores 1 examples/jars/spark-examples_2.12-3.2.0.jar 10

进入hadoop01：8080网址可以显示出

spark-shell使用_big data

spark-shell使用_jar_02

高可用时需要指向一个Master列表：

[root@hadoop01 bin]# ./spark-submit --class org.apache.spark.examples.SparkPi /
--master spark://hadoop01:7077,hadoop02:7077,hadoop03:7077 /
--executor-memory 1G /
--total-executor-cores 1 examples/jars/spark-examples_2.12-3.2.0.jar 10

bug（待解决)：

spark-shell使用_spark_03

spark-shell进行词频统计

在spark-env.sh配置文件中添加：

#指定HDFS配置文件目录
export HADOOP_CONF_DIR=/export/servers/hadoop-2.7.4/etc/hadoop

然后先启动zookeeper，再启动hadoop，最后启动spark。

创建需要统计的文件，并传入hdfs中。

spark-shell使用_hadoop_04

启动spark-shell

[root@hadoop01 bin]# ./spark-shell --master local[2]

spark-shell使用_hadoop_05

词频统计结果： spark-shell使用_jar_06

sc.textFile("/spark/test/words.txt").flatMap(_.split("")).map((_,1)).reduceByKey(_+_).collect

上一篇：spark DataFrame操作

下一篇：本地模式和集群模式运行spark程序

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯