z270 1080ti ubuntu1610 cuda8 cudnn6下深度学习实验环境搭建
astron最近一直很忙,搭建实验环境的事情从11月一拖再拖,每次只能搞几个小时就得等几周才能回归,终于有两天时间来搞自己的深度学习环境了。之前安装各个版本的软件,都遇到了兼容性问题。特此记录下。
z270
这个主板上面可以安装单gpu。1080ti只能安装一台,两台据说有带宽问题,没有验证。
操作系统方面,至少需要ubuntu1610。因为1604的驱动里面不太兼容z270。
今天就是先用1604刻录了镜像,安装过程就报了pci的错误。索性直接放弃了。
操作系统
因此1610是最低的版本。1704和1710都是可以的。我之前一直是用1710做的,最后一步安装tensorflow-gpu的时候出了问题,是cuda的问题,但是重装cuda8或者cuda9后,都找不到/usr/local/cuda和/usr/local/cuda8.0的安装目录,最后就重装了系统,同时操作系统改成1610,现在想起来1710和1704也是可以的。
cuda9和cudnn7安装上后,可以编译sample通过,这个让astron很高兴。但是安装tensorflow就出现麻烦了。因为tensorflow1.4都不支持cuda9。
看了网上的说明,说是要自己下载tf源码编译。没有继续考虑这步。今天是1月6日,google搜了下2018年1月4日,tf1.5出来了,tf支持cuda9了,于是astron去清华镜像上下载了whl文件。但是安装后tf还是报错啊,说什么6.0.so找不到。想着赶紧做实验,怕后面还出些幺蛾子,就用的cuda8+cudnn6的组合了。
这个上面是遇到的坑,后面还会列举些遇到的问题。至此安装的软件选型就定了。完全按照知乎上的这篇文章还做就可以了 https://zhuanlan.zhihu.com/p/32118549 作者是这个https://zhuanlan.zhihu.com/p/32118549
3. 安装1080TI显卡驱动:
sudo apt-get purge nvidia*
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update && sudo apt-get install nvidia-384 nvidia-settings
注意:sudo apt-get purge nvidia* 是清理以前安装过的nvidia驱动,没有装过可以忽略这条命令。
安装完毕后重启机器,运行 nvidia-smi,看看生效的显卡驱动:
4.安装CUDA8.0
因为Tensorflow和Pytorch目前官方提供的PIP版本只支持CUDA8,cuda-repo-buntu1604-8-0-local-ga2_8.0.61-1_amd64.deb"
和 "cuBLAS Patch Update to CUDA 8":
进入目录后,执行命令:
sudo dpkg -i cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb
sudo apt-get update
sudo apt-get install cuda
sudo dpkg -i cuda-repo-ubuntu1604-8-0-local-cublas-performance-update_8.0.61-1_amd64.deb
sudo apt-get update
sudo apt-get upgrade cuda
在 ~/.bashrc 中设置环境变量:
sudo vi ~/.bashrc
在最后添加:
export PATH=/usr/local/cuda/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
export CUDA_HOME=/usr/local/cuda
运行 source ~/.bashrc 使其生效
5.安装CUDNN
CUDA8 的最佳拍档依然是cuDNN6.0(7.0目前运行tensorflow会报错),在NIVIDA开发者官网上,找到cudnn的下载页面: https://developer.nvidia.com/rdp/cudnn-download ,选择"Download
cuDNN v6.0 (April 27, 2017), for CUDA 8.0" 中的
"cuDNN v6.0 Library for Linux":
下载后安装非常简单,就是解压然后拷贝到相应的系统CUDA路径下,注意最后一行拷贝时 "-d"不能少,
tar -zxvf cudnn-8.0-linux-x64-v6.0.tgz
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/ -d
没有报错就是全部安装完成了。
6.安装Tensorflow GPU 1.4
由于Anaconda 可以提供完整的科学计算库,所以直接使用Anaconda
来进行相关的额安装。
6.1安装Anaconda
下载地址:https://www.anaconda.com/download/
这里我们下载Python 3.6 64bit 的Anaconda
4.4.0,直接安装即可。
完成后请加上source ~/.bashrc。
6.2在Anaconda中安装TensorFlow GPU 1.4
conda create --name tf python=3.6 #创建tf环境
source activate tf #激活tf环境
pip install --ignore-installed --upgrade tensorflow-gpu