Spark 3.3.x 集群安装

Apache Spark 是一个快速、通用的分布式计算系统,可用于大规模数据处理。它提供了丰富的API,支持多种编程语言,如Scala、Java、Python和R。本文将介绍如何在集群上安装和配置 Spark 3.3.x。

步骤1:下载 Spark

首先,我们需要下载 Spark 的二进制分发包。访问官方网站 Spark,选择一个预构建的版本进行下载。例如,选择 "Pre-built for Apache Hadoop 3.2 and later" 链接下载。

$ wget 
$ tar -xvzf spark-3.3.0-bin-hadoop3.2.tgz
$ cd spark-3.3.0-bin-hadoop3.2

步骤2:配置 Spark

接下来,我们需要配置 Spark 的环境变量。打开 conf/spark-env.sh.template 文件,并将其重命名为 conf/spark-env.sh

$ cp conf/spark-env.sh.template conf/spark-env.sh
$ nano conf/spark-env.sh

spark-env.sh 文件中,添加以下内容以设置 Spark 的环境变量。

# 设置 Spark 主节点的 IP 地址
export SPARK_MASTER_HOST=<master-ip-address>

# 设置 Spark 工作节点的内存限制
export SPARK_WORKER_MEMORY=2g

# 设置 Spark Executor 内存限制
export SPARK_EXECUTOR_MEMORY=2g

保存并关闭文件。

步骤3:启动 Spark 集群

现在,我们可以启动 Spark 集群了。首先,启动 Spark 主节点。

$ ./sbin/start-master.sh

然后,启动 Spark 工作节点。

$ ./sbin/start-worker.sh <master-url>

其中,<master-url> 是 Spark 主节点的 URL 地址。例如,spark://<master-ip-address>:7077

步骤4:验证集群安装

最后,我们可以验证 Spark 集群是否成功安装。打开浏览器,并访问 Spark 主节点的 Web 界面(默认端口为 8080)。在界面上,您应该能够看到运行中的 Spark 应用程序和工作节点。

另外,您还可以使用以下示例代码来测试 Spark 集群的功能。创建一个名为 test.py 的文件,并将以下代码复制到文件中。

from pyspark.sql import SparkSession

# 创建 SparkSession 对象
spark = SparkSession.builder.appName("TestApp").getOrCreate()

# 创建一个包含数据的 DataFrame
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])

# 打印 DataFrame 的内容
df.show()

# 关闭 SparkSession 对象
spark.stop()

保存并关闭文件。然后,使用以下命令在 Spark 集群上运行脚本。

$ ./bin/spark-submit test.py

如果一切正常,您应该能够在终端上看到 DataFrame 的内容输出。

结论

通过按照上述步骤,您已成功地在集群上安装和配置了 Spark 3.3.x,并验证了集群的正常运行。您现在可以开始使用 Spark 进行大规模数据处理和分析。祝您在 Spark 的旅程中取得成功!