在服务器上安装深度学习环境
服务器系统介绍系统:Linux Ubuntu16.04
显卡:nvidia GeForce GTX 2080 Ti
内存:16G
磁盘空间:512G
CPU: Intel®Xeon® W-2135 CPU @ 3.70GHz
编译器:gcc/g+±5.4 gcc/g+±5.4 python2.7
一、更换系统源
1.备份原来的更新源
sudo cp /etc/apt/sources.list /etc/apt/sources.list.backup
打开sources.list (这就是存放更新源的文件)
sudo vim /etc/apt/sources.list
将下面所有内容复制,粘贴并覆盖sources.list文件中的所有内容
deb http://mirrors.ustc.edu.cn/ubuntu/ xenial main restricted universe multiverse
deb http://mirrors.ustc.edu.cn/ubuntu/ xenial-security main restricted universe multiverse
deb http://mirrors.ustc.edu.cn/ubuntu/ xenial-updates main restricted universe multiverse
deb http://mirrors.ustc.edu.cn/ubuntu/ xenial-proposed main restricted universe multiverse
deb http://mirrors.ustc.edu.cn/ubuntu/ xenial-backports main restricted universe multiverse
deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial main restricted universe multiverse
deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial-security main restricted universe multiverse
deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial-updates main restricted universe multiverse
deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial-proposed main restricted universe multiverse
deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial-backports main restricted universe multiverse
2.让更新源生效
sudo apt-get update
sudo apt-get upgrade
在执行sudo apt-get upgrade时出现以下错误
The following packages have been kept back: linux-generic linux-headers-generic linux-image-generic 0 upgraded, 0 newly installed, 0 to remove and 3 not upgraded.
执行以下命令:
apt-get -u dist-upgrade
二、安装nvidia显卡驱动
PS:整个阶段gcc和g++请保持5.x版本,当前成功版本是5.4;
安装方法见步骤一
1.查看是否已经安装nvidia驱动
nvidia-smi
如果出现如下图的一坨,那恭喜你不用做这一大步啦~
2.卸载你电脑中此刻有的nvidia的驱动
sudo apt-get remove –purge nvidia*
3.关闭系统自带驱动nouveau[1]
注意!在安装NVIDIA驱动以前需要禁止系统自带显卡驱动nouveau:可以先通过指令
lsmod | grep nouveau
查看nouveau驱动的启用情况,如果有输出表示nouveau驱动正在工作,如果没有内容输出则表示已经禁用了nouveau。
我的电脑有输出,表示nouveau启动了,下面进行nouveau的禁用:
在终端输入sudo nano /etc/modprobe.d/blacklist.conf
弹出blacklist.conf文件:
在blacklist.conf文件末尾加上这两行,并保存:
blacklist nouveau
options nouveau modeset=0
然后在终端中输入:
sudo update-initramfs -u #应用更改
电脑重启,就禁止了ubuntu16.04自带的nouveau显卡驱动了,接下来我们就可以安心的安装NVIDIA510.68.02版本的驱动程序了。
4.NVIDIA驱动安装[3]
1.在“驱动”文件夹中找到NVIDIA-Linux-x86_64-510.68.02.run,拷贝到服务器上,cd进入该安装文件目录下
cd Downloads
2.给驱动run文件赋予执行权限:
sudo chmod a+x NVIDIA-Linux-x86_64-418.43.run
sudo ./NVIDIA-Linux-x86_64-418.43.run -no-x-check -no-nouveau-check -no-opengl-files
//只有禁用opengl这样安装才不会出现循环登陆的问题
PS:之后进入安装,需要你选几个选项,若我没有记错应该是yes-continue;之后就它自己就会安了
3.检查驱动是否安装成功:
nvidia-smi
如果出现如下提示,则说明安装成功:
三、安装CUDA-10.1[2]
1.下载并安装
https://developer.nvidia.com/cuda-downloads (1)大概是下面这个样子,按照自己的平台来选,然后下载那个.run文件就行
下面为安装CUDA11.0.2的Ubuntu安装指令:
wget https://developer.download.nvidia.com/compute/cuda/11.0.2/local_installers/cuda_10.1.2_450.51.05_linux.run
sudo sh cuda_10.1.2_450.51.05_linux.run
运行上面指令后,会弹出如下界面,点击Continue,然后再输入accept。
接着,如下图所示,由于我之前已经安装了Nvidia的显卡驱动,这里不安装driver,那么只需要移动到Driver,按enter键,将"[]"中的X去掉即是不选择.然后在Install
2.配置环境变量
CUDA安装完成后,需要配置变量环境才能正常使用。首先在终端输入sudo nano ~/.bashrc
打开如下图所示的bashrc
文件。
然后,如下图所示在.bashrc文件的最后添加以下CUDA环境变量配置信息
export PATH=/usr/local/cuda-10.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda10.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
export CUDA_HOME=/usr/local/cuda
export PATH=/usr/local/cuda/bin:$PATH
然后使用如下命令打开cuda.conf
文件
sudo nano /etc/ld.so.conf.d/cuda.conf
在打开的文件中添加如下语句
/usr/local/cuda/lib64
使用如下命令使链接生效
sudo ldconfig
3.测试CUDA是否安装成功
对CUDA安装是否成功,需要进入NVIDIA CUDA示例包,其位于/home/wyt/NVIDIA_CUDA-11.0_Samples
内
cd /home/wyt/NVIDIA_CUDA-10.1_Samples
sudo make -j16 #多线程运行会跑的别提多快了~
然后进入1_Utilities/deviceQuery
文件夹
cd 1_Utilities/deviceQuery
并在终端执行
./deviceQuery
命令,如下result=PASS
则表示安装成功。
四、安装cuDNN-v7.6.31.解压CUDA[2]
1.解压cuDNN-v7.6.3
在“驱动”文件夹中找到cudnn-10.0-linux-x64-v7.6.3.30.tgz,将它解压(PS:在哪里解压都行),解压出来是一个cuda文件夹,进去有两个文件夹,如下图。将其拷贝到服务器上,建议放在账户的根目录。
2.添加头文件和生成软连接
提示:接下来的步骤命令直接复制就行,后面有讲解,复制方便一些)
下载完cudnn10.1之后进行解压,cd进入cudnn5.1解压之后的include目录cd cuda/include/
,在命令行进行如下操作:
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/ #复制头文件
再将cd进入lib64目录下的动态文件进行复制和链
sudo cp cuda/lib64/lib* /usr/local/cuda/lib64/ #复制动态链接库
cd /usr/local/cuda/lib64/
sudo rm -rf libcudnn.so libcudnn.so.5 #删除原有动态文件
sudo ln -s libcudnn.so.5.1.5 libcudnn.so.5 #生成软衔接
sudo ln -s libcudnn.so.5 libcudnn.so #生成软链接
执行完之后,cuDNN算是安装完成了。
3.测试cudnn-v7.6是否安装成功
1.在网址https://developer.nvidia.com/rdp/cudnn-archive中下载如下三个文件。
2.安装剩下的三个.deb文件:
#Install the runtime library, for example:
sudo dpkg -i libcudnn7_7.6.3.30-1+cuda10.1_amd64.deb
#Install the developer library, for example:
sudo dpkg -i libcudnn7-dev_7.6.3.30-1+cuda10.1_amd64.deb
#Install the code samples and the cuDNN Library User Guide, for example:
sudo dpkg -i libcudnn7-doc_7.6.3.30-1+cuda10.1_amd64.deb
3、查看版本.
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
4、实例测试
#Copy the cuDNN sample to a writable path.
cp -r /usr/src/cudnn_samples_v7/ $HOME
#Go to the writable path.
cd $HOME/cudnn_samples_v7/mnistCUDNN
#Compile the mnistCUDNN sample.
make clean && make
#Run the mnistCUDNN sample.
./mnistCUDNN
显示如下信息说明cudnn安装成功。