在服务器上安装深度学习环境

服务器系统介绍系统:Linux Ubuntu16.04

显卡:nvidia GeForce GTX 2080 Ti
内存:16G
磁盘空间:512G
CPU: Intel®Xeon® W-2135 CPU @ 3.70GHz
编译器:gcc/g+±5.4 gcc/g+±5.4 python2.7

一、更换系统源

1.备份原来的更新源

sudo cp /etc/apt/sources.list /etc/apt/sources.list.backup

打开sources.list (这就是存放更新源的文件)
sudo vim /etc/apt/sources.list
将下面所有内容复制,粘贴并覆盖sources.list文件中的所有内容

deb http://mirrors.ustc.edu.cn/ubuntu/ xenial main restricted universe multiverse
deb http://mirrors.ustc.edu.cn/ubuntu/ xenial-security main restricted universe multiverse
deb http://mirrors.ustc.edu.cn/ubuntu/ xenial-updates main restricted universe multiverse
deb http://mirrors.ustc.edu.cn/ubuntu/ xenial-proposed main restricted universe multiverse
deb http://mirrors.ustc.edu.cn/ubuntu/ xenial-backports main restricted universe multiverse
deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial main restricted universe multiverse
deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial-security main restricted universe multiverse
deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial-updates main restricted universe multiverse
deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial-proposed main restricted universe multiverse
deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial-backports main restricted universe multiverse

2.让更新源生效

sudo apt-get update
sudo apt-get upgrade

在执行sudo apt-get upgrade时出现以下错误
The following packages have been kept back: linux-generic linux-headers-generic linux-image-generic 0 upgraded, 0 newly installed, 0 to remove and 3 not upgraded.

执行以下命令:

apt-get -u dist-upgrade

二、安装nvidia显卡驱动

PS:整个阶段gcc和g++请保持5.x版本,当前成功版本是5.4;
安装方法见步骤一

1.查看是否已经安装nvidia驱动

nvidia-smi

如果出现如下图的一坨,那恭喜你不用做这一大步啦~

什么 服务器可以跑深度学习 深度服务器系统_什么 服务器可以跑深度学习

2.卸载你电脑中此刻有的nvidia的驱动

sudo apt-get remove –purge nvidia*

3.关闭系统自带驱动nouveau[1]

注意!在安装NVIDIA驱动以前需要禁止系统自带显卡驱动nouveau:可以先通过指令

lsmod | grep nouveau

查看nouveau驱动的启用情况,如果有输出表示nouveau驱动正在工作,如果没有内容输出则表示已经禁用了nouveau。

什么 服务器可以跑深度学习 深度服务器系统_深度学习_02

我的电脑有输出,表示nouveau启动了,下面进行nouveau的禁用:
在终端输入sudo nano /etc/modprobe.d/blacklist.conf弹出blacklist.conf文件:

什么 服务器可以跑深度学习 深度服务器系统_什么 服务器可以跑深度学习_03

在blacklist.conf文件末尾加上这两行,并保存:

blacklist nouveau
options nouveau modeset=0

然后在终端中输入:

sudo update-initramfs -u  #应用更改

电脑重启,就禁止了ubuntu16.04自带的nouveau显卡驱动了,接下来我们就可以安心的安装NVIDIA510.68.02版本的驱动程序了。

4.NVIDIA驱动安装[3]

1.在“驱动”文件夹中找到NVIDIA-Linux-x86_64-510.68.02.run,拷贝到服务器上,cd进入该安装文件目录下

cd Downloads

2.给驱动run文件赋予执行权限:

sudo chmod  a+x NVIDIA-Linux-x86_64-418.43.run
sudo ./NVIDIA-Linux-x86_64-418.43.run -no-x-check -no-nouveau-check -no-opengl-files 
//只有禁用opengl这样安装才不会出现循环登陆的问题

PS:之后进入安装,需要你选几个选项,若我没有记错应该是yes-continue;之后就它自己就会安了

3.检查驱动是否安装成功:

nvidia-smi

如果出现如下提示,则说明安装成功:

什么 服务器可以跑深度学习 深度服务器系统_深度学习_04

三、安装CUDA-10.1[2]

1.下载并安装

https://developer.nvidia.com/cuda-downloads (1)大概是下面这个样子,按照自己的平台来选,然后下载那个.run文件就行
什么 服务器可以跑深度学习 深度服务器系统_CUDA_05
下面为安装CUDA11.0.2的Ubuntu安装指令:

wget https://developer.download.nvidia.com/compute/cuda/11.0.2/local_installers/cuda_10.1.2_450.51.05_linux.run
sudo sh cuda_10.1.2_450.51.05_linux.run

运行上面指令后,会弹出如下界面,点击Continue,然后再输入accept。

什么 服务器可以跑深度学习 深度服务器系统_深度学习_06


什么 服务器可以跑深度学习 深度服务器系统_linux_07


接着,如下图所示,由于我之前已经安装了Nvidia的显卡驱动,这里不安装driver,那么只需要移动到Driver,按enter键,将"[]"中的X去掉即是不选择.然后在Install

什么 服务器可以跑深度学习 深度服务器系统_深度学习_08

2.配置环境变量

CUDA安装完成后,需要配置变量环境才能正常使用。首先在终端输入sudo nano ~/.bashrc打开如下图所示的bashrc文件。
然后,如下图所示在.bashrc文件的最后添加以下CUDA环境变量配置信息

export PATH=/usr/local/cuda-10.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda10.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
export CUDA_HOME=/usr/local/cuda
export PATH=/usr/local/cuda/bin:$PATH

然后使用如下命令打开cuda.conf文件

sudo nano /etc/ld.so.conf.d/cuda.conf

在打开的文件中添加如下语句

/usr/local/cuda/lib64

使用如下命令使链接生效

sudo ldconfig

3.测试CUDA是否安装成功

对CUDA安装是否成功,需要进入NVIDIA CUDA示例包,其位于/home/wyt/NVIDIA_CUDA-11.0_Samples

cd /home/wyt/NVIDIA_CUDA-10.1_Samples 
sudo make -j16  #多线程运行会跑的别提多快了~

然后进入1_Utilities/deviceQuery文件夹

cd 1_Utilities/deviceQuery

并在终端执行

./deviceQuery

命令,如下result=PASS则表示安装成功。

什么 服务器可以跑深度学习 深度服务器系统_linux_09

四、安装cuDNN-v7.6.31.解压CUDA[2]

1.解压cuDNN-v7.6.3

在“驱动”文件夹中找到cudnn-10.0-linux-x64-v7.6.3.30.tgz,将它解压(PS:在哪里解压都行),解压出来是一个cuda文件夹,进去有两个文件夹,如下图。将其拷贝到服务器上,建议放在账户的根目录。

什么 服务器可以跑深度学习 深度服务器系统_CUDA_10

2.添加头文件和生成软连接

提示:接下来的步骤命令直接复制就行,后面有讲解,复制方便一些)
下载完cudnn10.1之后进行解压,cd进入cudnn5.1解压之后的include目录cd cuda/include/,在命令行进行如下操作:

sudo cp cuda/include/cudnn.h /usr/local/cuda/include/ #复制头文件

再将cd进入lib64目录下的动态文件进行复制和链

sudo cp cuda/lib64/lib* /usr/local/cuda/lib64/ #复制动态链接库

cd /usr/local/cuda/lib64/

sudo rm -rf libcudnn.so libcudnn.so.5 #删除原有动态文件

sudo ln -s libcudnn.so.5.1.5 libcudnn.so.5 #生成软衔接

sudo ln -s libcudnn.so.5 libcudnn.so #生成软链接

执行完之后,cuDNN算是安装完成了。

3.测试cudnn-v7.6是否安装成功

1.在网址https://developer.nvidia.com/rdp/cudnn-archive中下载如下三个文件。

什么 服务器可以跑深度学习 深度服务器系统_ubuntu_11


2.安装剩下的三个.deb文件:

#Install the runtime library, for example:
sudo dpkg -i libcudnn7_7.6.3.30-1+cuda10.1_amd64.deb
#Install the developer library, for example:
sudo dpkg -i libcudnn7-dev_7.6.3.30-1+cuda10.1_amd64.deb
#Install the code samples and the cuDNN Library User Guide, for example:
sudo dpkg -i libcudnn7-doc_7.6.3.30-1+cuda10.1_amd64.deb

3、查看版本.

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

4、实例测试

#Copy the cuDNN sample to a writable path.
cp -r /usr/src/cudnn_samples_v7/ $HOME

#Go to the writable path.
cd  $HOME/cudnn_samples_v7/mnistCUDNN

#Compile the mnistCUDNN sample.
make clean && make

#Run the mnistCUDNN sample.
./mnistCUDNN

显示如下信息说明cudnn安装成功。

什么 服务器可以跑深度学习 深度服务器系统_深度学习_12