由于飞腾CPU是aarch64指令集,当前并不存在可以通过pip直接安装的tensorflow包。因此我们只能通过编译安装。但是,要编译安装Tensorflow,必须要首先安装Bazel,而要安装Bazel必须要解决相关的各种包依赖问题。

飞腾CPU+银河麒麟基础依赖安装

首先要安装pip:

sudo apt update
sudo apt install python-pip
pip install --upgrade pip
sudo apt-get install pkg-config zip g++ zlib1g-dev unzip

安装上述包一般都没有问题,但是下面这些包就不一定了:

sudo apt-get install python-dev
sudo apt-get install python-numpy python-wheel python-virtualenv

银河麒麟的服务器源我没找到,手头只有桌面版本的源,可以发现这些包不够新。对于python-dev这个包,可以通过ubuntu的相应包进行安装。在一台Ubuntu上执行:

apt-get download python-dev

会得到一个以python-dev-…….deb命名的一个包,然后在银河麒麟机器上你可以这样安装这个包:

sudo dpkg -i python-dev-…….deb

对于python-numpy python-wheel python-virtualenv这几个包,可以通过pip来安装:

sudo pip install numpy wheel virtualenv

基于飞腾CPU+银河麒麟操作系统的Bazel编译与安装

首先我们要获得一份Bazel-0.5.4版本源码:

wget https://github.com/bazelbuild/bazel/releases/download/0.5.4/bazel-0.5.4-dist.zip
mkdir bazel-0.5.4
unzip bazel-0.5.4-dist.zip -d bazel-0.5.4

为什么要用这个版本呢?因为最新的不同版本Bazel对于飞腾CPU的aarch64指令集的处理方法是不确定的,我经过搜索,只能找到一篇国外博客是在这个指令集上对Bazel进行了编译(https://collaborate.linaro.org/display/BDTS/Building+and+Installing+Tensorflow+on+AArch64#BuildingandInstallingTensorflowonAArch64-Installotherdependencies )。 参考相关博客,需要修改相应的编译脚本:

diff --git a/scripts/bootstrap/buildenv.sh b/scripts/bootstrap/buildenv.sh
index 502f2c1..a2ab4dc 100755
--- a/scripts/bootstrap/buildenv.sh
+++ b/scripts/bootstrap/buildenv.sh
@@ -40,7 +40,7 @@ PLATFORM="$(uname -s | tr 'A-Z' 'a-z')"
 
 MACHINE_TYPE="$(uname -m)"
 MACHINE_IS_64BIT='no'
-if [ "${MACHINE_TYPE}" = 'amd64' -o "${MACHINE_TYPE}" = 'x86_64' -o "${MACHINE_TYPE}" = 's390x' ]; then
+if [ "${MACHINE_TYPE}" = 'amd64' -o "${MACHINE_TYPE}" = 'x86_64' -o "${MACHINE_TYPE}" = 's390x'  -o "${MACHINE_TYPE}" = 'aarch64' ]; then
   MACHINE_IS_64BIT='yes'
 fi
 
diff --git a/src/main/java/com/google/devtools/build/lib/util/CPU.java b/src/main/java/com/google/devtools/build/lib/util/CPU.java
index 7a85c29..e5f3eae 100755
--- a/src/main/java/com/google/devtools/build/lib/util/CPU.java
+++ b/src/main/java/com/google/devtools/build/lib/util/CPU.java
@@ -26,6 +26,7 @@ public enum CPU {
   X86_64("x86_64", ImmutableSet.of("amd64", "x86_64", "x64")),
   PPC("ppc", ImmutableSet.of("ppc", "ppc64", "ppc64le")),
   ARM("arm", ImmutableSet.of("arm", "armv7l")),
+  AARCH64("aarch64", ImmutableSet.of("aarch64")),
   S390X("s390x", ImmutableSet.of("s390x", "s390")),
   UNKNOWN("unknown", ImmutableSet.<String>of());
  
diff --git a/third_party/BUILD b/third_party/BUILD
index 9cd2fac..f1cd14c 100755
--- a/third_party/BUILD
+++ b/third_party/BUILD
@@ -583,6 +583,11 @@ config_setting(
 )
 
 config_setting(
+    name = "aarch64",
+    values = {"host_cpu": "aarch64"},
+)
+
+config_setting(
     name = "freebsd",
     values = {"host_cpu": "freebsd"},
 )

上面是常规操作,但是并不能保证Bazel在银河麒麟系统上正确编译:银河麒麟系统自己源里面的jdk似乎做了一些设置,导致找不到rt.jar里面的一些类和一些包。这是因为javac在运行的时候会默认在符号表ct.sym (同样在jre/lib/下)中查找该类是否存在。解决的方法是在javac中加上编译选项-XDignore.symbol.file,这就需要修改两处代码。 一处是bazel-0.5.4/script/bootstrap/compile.sh的122行,本来是

run "${JAVAC}" -classpath "${classpath}" -sourcepath "${sourcepath}" \

现在改成

run "${JAVAC}" -XDignore.symbol.file -classpath "${classpath}" -sourcepath "${sourcepath}" \

另外一处是bazel-0.5.4/compile.sh的123行:

bazel_build "src:bazel${EXE_EXT}" \

现在改成

bazel_build --javacopt="-XDignore.symbol.file" "src:bazel${EXE_EXT}" \

然后运行bazel-0.5.4/compile.sh即可获得bazel-0.5.4/output/bazel,将这个文件复制到/usr/bin/bazel即可成功安装bazel。

使用Bazel编译Tensorflow

首先要从github下载tensorflow的1.5.0版本,一定要是这个版本,因为只有这个版本我能告诉你在编译的时候可以选什么选项。获得了这个版本的代码解压到tf文件夹以后,运行如下命令

./configure

这个过程中会让你选择众多编译选项,记住俩事儿:只打开jemalloc的相关选项,别的都不要打开。然后运行:

bazel build -c opt --copt="-funsafe-math-optimizations" --copt="-ftree-vectorize" --copt="-fomit-frame-pointer" --verbose_failures tensorflow/tools/pip_package:build_pip_package
bazel-bin/tensorflow/tools/pip_package/build_pip_package /tmp/tensorflow_pkg

接下来编译会进行相当长的时间。编译完成后就可以通过pip安装了:

sudo pip install /tmp/tensorflow_pkg/tensorflow-1.5.0rc0-cp27-cp27mu-linux_aarch64.whl