导言:笔者用极烂的英语,翻译了 Spark 官网上关于编译的介绍——Building Spark,链接:http://spark.apache.org/docs/latest/building-spark.html ,以帮助那些英语比本人更烂及懒得阅读英文献的 person。


  • 一 使用 buildmvn 编译 Building with buildmvn
  • 二 编译运行版 Building a Runnable Distribution
  • 三 设置 Maven 内存用法 Setting up Mavens Memory Usage
  • 四 指定 Hadoop 版本Specifying the Hadoop Version
  • 五 带 Hive 和 JDBC 支持的编译 Building With Hive and JDBC Support
  • 六 支持Scala 211编译 Building for Scala 211
  • 七 使用Maven 测试 Spark Spark Tests in Maven
  • 八 持续编译 Continuous Compilation
  • 九 使用 IntelliJ IDEA 或 Eclipse 编译 Spark Building Spark with IntelliJ IDEA or Eclipse
  • 十 运行 Java 8 测试组件 Running Java 8 Test Suites
  • 十一 基于 Yarn 编译 PySpark Building for PySpark on YARN
  • 十二 不使用 Hadoop 依赖库打包 YarnPackaging without Hadoop Dependencies for YARN
  • 十三 使用 SBT 编译 Building with SBT
  • 十四 使用 SBT 测试 Testing with SBT
  • 十五 使用 Zinc 加速编译 Speeding up Compilation with Zinc


编译 Spark 的环境要求:

  • Maven 3.3.3 或更新 (撰写该博客时,笔者看着只有 3.2.1 版本的 Maven 正编译ing @_@)
  • Java 7+

Spark 可以应用适合的 Maven 二进制包进行编译


一. 使用 build/mvn 编译 (Building with build/mvn)

目前 Spark 编译目录已经将 Maven 自带进去了,以方便编译以及部署。这个脚本将会在它本地 build/ 编译目录自动下载和安装所有编译过程中所必需的( Maven,Scala 和 Zinc )。如果这些已经存在,它将允许 mvn 二进制包下载它自己 Scala 和 Zinc 的拷贝副本,不管是否满足正确版本的要求。build/mvn 的执行允许从以前的版本的方法轻松过渡建。举个例子,可以如以下编译一个 Spark 版本:

build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package

可以在下面找到其他的编译例子

Note: 当在一个加密的文件系统上进行编译(比如,当你的 home 目录被加密了),那么 Spark 在编译时可能会出错,报错信息为 “Filename too long”。作为一个变通方案,将下面添加到 项目 project pom.xml 中的 scala-maven-plugin 的配置参数:

<arg>-Xmax-classfile-name</arg>
<arg>128</arg>

添加位置如下:

sparkbuild spark<build>的作用是_Hadoop

并在项目 project/SparkBuild.scala 中将以下:

scalacOptions in Compile ++= Seq("-Xmax-classfile-name", "128"),

添加到 sharedSettings 变量。

添加位置如下:

sparkbuild spark<build>的作用是_Hadoop_02

如果你不确定到哪里增加这些语句,可以查看这个 PR



二. 编译运行版 (Building a Runnable Distribution)

为了像在 Spark Downloads 页面下载的那些版本一样创建 Spark 发布版。通过在项目根目录下使用 make-distribution.sh。像在直接 Maven 编译那样在 Maven profile 文件中进行配置。例如:

./make-distribution.sh --name custom-spark --tgz -Phadoop-2.4 -Pyarn

更多关于 使用(usage) ,请运行

./make-distribution.sh --help

然后会显示:

./make-distribution.sh [–name] [–tgz] [–mvn ] [–with-tachyon]



三. 设置 Maven 内存用法 (Setting up Maven’s Memory Usage)

你需要通过设置 MAVEN_OPTS 来配置 Maven,需啊哟分配比通常更多的内存来设置 Maven。我们推荐以下的设置:

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

如果不运行上述命令,你可能会遇到如下的错误:

[INFO] Compiling 203 Scala sources and 9 Java sources to /Users/me/Development/spark/core/target/scala-2.10/classes...
[ERROR] PermGen space -> [Help 1]

[INFO] Compiling 203 Scala sources and 9 Java sources to /Users/me/Development/spark/core/target/scala-2.10/classes...
[ERROR] Java heap space -> [Help 1]

可以通过之前提到的设置 MAVEN_OPTS 变量解决这个问题。

Note:

  • 对于 Java 8 来说,以上步骤不是必需的
  • 如果使用不带 MAVEN_OPTS设置的 build/mvn ,那么脚本会自动帮你完成这些



四. 指定 Hadoop 版本(Specifying the Hadoop Version)

因为 HDFS 各版本协议是不兼容的,如果你想从 HDFS 中读取数据,你需要在你的环境中编译 Spark 来适应具体的 HDFS 版本。可以通过 “hadoop.version” 属性进行设置。如果没有设置,Spark 将会默认编译 Hadoop2.2.0 版本的。注意到特定的 Hadoop 版本需要对应特定配置文件。

Hadoop 版本

所需配置文件

2.2.x

hadoop-2.2

2.3.x

hadoop-2.3

2.4.x

hadoop-2.4

2.6.x and later 2.x

hadoop-2.6

对于 Apache Hadoop 版本 1.x ,Cloudrea CDH “mr1”发行版本,和其他不基于YARN 的 Hadoop 版本,请使用:

# Apache Hadoop 1.2.1
mvn -Dhadoop.version=1.2.1 -Phadoop-1 -DskipTests clean package

# Cloudera CDH 4.2.0 with MapReduce v1
mvn -Dhadoop.version=2.0.0-mr1-cdh4.2.0 -Phadoop-1 -DskipTests clean package

你可以使 “yarn” 配置文件成功启动,如果与 “hadoop.version” 参数值不一致的话,则可选配置 “yarn.version” 属性。Spark 只支持 YARN 版本 2.2.0 及以上。 例如:

# Apache Hadoop 2.2.X
mvn -Pyarn -Phadoop-2.2 -DskipTests clean package

# Apache Hadoop 2.3.X
mvn -Pyarn -Phadoop-2.3 -Dhadoop.version=2.3.0 -DskipTests clean package

# Apache Hadoop 2.4.X or 2.5.X
mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=VERSION -DskipTests clean package

Versions of Hadoop after 2.5.X may or may not work with the -Phadoop-2.4 profile (they were
released after this version of Spark).

# Different versions of HDFS and YARN.
mvn -Pyarn -Phadoop-2.3 -Dhadoop.version=2.3.0 -Dyarn.version=2.2.0 -DskipTests clean package



五. 带 Hive 和 JDBC 支持的编译 (Building With Hive and JDBC Support)

如果开启带 Hive 整合以及 JDBC 服务器和命令行界面 (CLI) 支持的 Spark SQL,添加 -Phive 和 Phive-thriftserver配置参数到现有的编译选项中。

# Apache Hadoop 2.4.X with Hive 13 support
mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -Phive -Phive-thriftserver -DskipTests clean package



六. 支持Scala 2.11编译 (Building for Scala 2.11)

为了处理 由 Scala 2.11 编译的 Spark 包,请使用 -Dscala-2.11:

./dev/change-scala-version.sh 2.11
mvn -Pyarn -Phadoop-2.4 -Dscala-2.11 -DskipTests clean package

对于 Scala 2.11 来说,Spark 目前为止并不支持它的 JDBC


七. 使用Maven 测试 Spark (Spark Tests in Maven)

默认使用 ScalaTest Maven plugin 运行测试

某些测试需要先打包 Spark ,所以第一次测试时运行 :

mvn package with -DskipTests

以下是正确的(编译、测试)执行顺序:

mvn -Pyarn -Phadoop-2.3 -DskipTests -Phive -Phive-thriftserver clean package
mvn -Pyarn -Phadoop-2.3 -Phive -Phive-thriftserver test

这个 ScalaTest 插件同样也支持只运行指定的测试组件,如下所示:

mvn -Dhadoop.version=... -DwildcardSuites=org.apache.spark.repl.ReplSuite test



八. 持续编译 (Continuous Compilation)

我们使用 scala-maven-plugin 插件支持渐进和持续编译,例如:

mvn scala:cc

将进行持续编译(例如随时监测代码变化,一有改变就编译(wait for changes))。然而,这个并没有广泛测过。一系列陷阱记录下来:

  • 它只扫描 src/main 和 src/test 路径(可查看 docs),所以它只会在具体某些具有那个结构的子模块下工作
  • 你将需要运行 mvn install 从项目根目录下编译到在具体子模块中来工作。这是因为子模块通过 spark-parent 模块依赖其他子模块

所以,完整的运行 core 子模块连续-编译的代码段 可能更像下面这段:

mvn install
cd core
mvn scala:cc



九. 使用 IntelliJ IDEA 或 Eclipse 编译 Spark (Building Spark with IntelliJ IDEA or Eclipse)

Spark 开发环境中,关于搭建 IntelliJ IDEA 或 Eclipse 的有关帮助,和故障排除,请参考 wiki page for IDE setup



十. 运行 Java 8 测试组件 (Running Java 8 Test Suites)

除了只运行 Java8 测试工具集外,并没有运行其他工具集:

mvn install -DskipTests -Pjava8-tests

仅当 -Pjava8-tests 配置参数开启生效时,Java 8 测试就可以运行,尽管 -DskipTests 配置项开启时也会运行。为了在你系统中进行这些测试,就必须安装 JDK8。如果你已经安装了 JDK8 但是它并不是系统默认的 JDK,那么你在运行这些测试之前,可以先设置 JAVA_HOME 来指向 JDK 8。



十一. 基于 Yarn 编译 PySpark (Building for PySpark on YARN)

如果使用 Mavern 编译 jar,则只支持 PySpark on YARN。另外,基于 Red Hat 内核的操作系统上,使用这个集成包编译会有一个问题(参见 SPARK-1753)。如果你需要在 Red Hat 机子上的 YARN 集群上运行 PySpark,我们建议你在别处编译 jar 包,然后封装到集群。我们正在调查具体的原因。



十二. 不使用 Hadoop 依赖库打包 Yarn(Packaging without Hadoop Dependencies for YARN)

通过 mvn package 命令编译生成的 jar 包,默认会包含所有 Spark 的依赖库,包括 Hadoop 和一些它的生态体系的工程。在 YARN 部署上,这会在 executor classpath 出现多个不同版本的 jar 包:即每个节点包括 yarn.application.classpath 参数。使用 hadoop-provided 配置参数编译可以不集成 Hadoop 生态体系的工程,比如 ZooKeeper 和 Hadoop 它自身。



十三. 使用 SBT 编译 (Building with SBT)

Maven 是 Spark 编译官方推荐的编译工具,并且也是编译参考。但是 SBT 都在不断更新发展,这是因为它能提供更快的迭代编译。更多高级的开发者可能希望使用 SBT。

SBT 编译是源自 Maven POM 文件,使用相同的 Maven 配置和变量同样可以控制 SBT 编译,例如:

build/sbt -Pyarn -Phadoop-2.3 assembly



十四. 使用 SBT 测试 (Testing with SBT)

某些测试需要先安装 Spark,所以都先运行 build/sbt 编译。以下是一个正确(编译,测试)序列的例子:

build/sbt -Pyarn -Phadoop-2.3 -Phive -Phive-thriftserver assembly
build/sbt -Pyarn -Phadoop-2.3 -Phive -Phive-thriftserver test

如下,仅运行一个特定的测试工具集:

build/sbt -Pyarn -Phadoop-2.3 -Phive -Phive-thriftserver "test-only org.apache.spark.repl.ReplSuite"

如下,运行一个指定的子项目测试套件:

build/sbt -Pyarn -Phadoop-2.3 -Phive -Phive-thriftserver core/test



十五. 使用 Zinc 加速编译 (Speeding up Compilation with Zinc)

Zinc 是 SBT 的增量编译的长期运行服务器版本。当作为后台本地运行,它可以使得基于 Scala 项目,比如 Spark的编译速度加速。通常使用 Maven 编译 Spark 的开发者。这个工程网页给出了编译和运行zinc 的介绍,OS 操作系统使用者可以使用 brew 来安装 zinc。

如果使用 build/mvn 打包 zinc 将会自动下载所有版本。这个过程将会自动在第一次调用 build/mvn 和绑定到 3030 端口时自动开启,除非 ZINC_PORT 环境变量已经设置。Zinc 过程可以通过运行 build/zinc -<version>/bin/zinc 在后来随时关闭,也可以无论何时调用 build/mvn 时,zinc进程将自动重启。