Deepin 15.11 配置深度学习环境
一、安装deepin15.11 系统
1、在DeepIn官网下载iso文件
http://cdimage.deepin.com/releases/15.11/deepin-15.11-amd64.iso
2、下载制作upan启动工具
Deepin官方给的深度U盘启动工具,我这里在win7上启动不了,放弃了。还是使用rufus来制作。
3、安装系统
在BIOS中设置U盘启动,安装过程和安装Ubuntu一样,没有任何问题
二、配置deepin相关环境
刚安装完系统进入之后,显示器的分辨率会有问题,这是因为显卡驱动没装导致的
1、安装显卡驱动
由于后期是需要安装深度学习的cuda和cudnn,所以在安装显卡驱动的时候要和cuda版本一致,在官网上下载cuda的包,里面会包含有显卡的驱动。
选择ubuntu16.04下载,下载之后就开始安装驱动程序
1、更新PCI ID
sudo update-pciids
2、验证是否能找到显卡
sudo lspci | grep -i nvidia
3、禁用nouveau驱动
sudo vim /etc/modprobe.d/blacklist.conf
在文件末尾加入一下内容
blacklist nouveau
options nouveau modeset=0
4、更新一下
sudo update-initramfs -u
5、重启电脑
sudo reboot
6、进入系统之后,Ctrl+Alt+F2进入终端
sudo service lightdm stop
sudo telinit 3
7、开始安装
sudo ./cuda_10.1.168******_linux.run
只选择安装驱动,其他都不要,显示驱动安装成功之后可以重启电脑
8、安装成功
安装成功之后,进入系统的显示界面分辨率就会变成正常的
nvidia-smi
可以验证是否驱动安装成功
2、安装cuda和cudnn
进入系统之后运行安装cuda的sh文件,然后一步一步地确认,不要选择驱动安装就好。
解压cudnn的压缩包,将include中的头文件拷贝到/usr/local/cuda/include,将lib中的所有文件拷贝到/usr/local/cuda/lib64,然后进入到/usr/local/cuda/lib64路径下,先删除原来的cudnn的软连接,然后重新建立新的软连接。
安装多个版本的cudnn,只需要将/usr/local/cuda 软链接指向想用的cuda版本就行了
3、编译opencv
直接下载opencv源码编译,没有遇到编译问题
4、编译caffe
完全按照ubuntu16.04上的安装方法,进行编译遇到一个问题
/usr/local/include/boost/config/compiler/nvcc.hpp:22:34: error: token ""__CUDACC_VER__ is no longer supported. Use __CUDACC_VER_MAJOR__, __CUDACC_VER_MINOR__, and __CUDACC_VER_BUILD__ instead."" is not valid in preprocessor expressions
#if !defined(__CUDACC_VER__) || (__CUDACC_VER__ < 70500)
这个问题是boost版本过高导致的,手动下载低版本的boost,然后源码编译
1、下载boost 1.58
wget -O boost_1_58_0.tar.bz2 http://sourceforge.net/projects/boost/files/boost/1.58.0/boost_1_58_0.tar.bz2/download
2、解压文件
tar --bzip2 -xvf boost_1_58_0.tar.bz2
3、安装
cd boost_1_58_0
./bootstrap.sh --with-libraries=all --with-toolset=gcc
./b2 toolset=gcc
sudo ./b2 install --prefix=/usr
sudo ldconfig
重新编译caffe源码,完成。
5、使用caffe训练自己的数据
caffe环境是cuda10+cudnn7
使用caffe训练pelee-ssd
出现两个问题,第一个如下
match_functions.cpp:250] Check failed:a <= b(0 vs. -1.19209e-07) Check failure stack trace: ***
第二个
blocking_queue.cpp:50] Data layer prefetch queue empty
第一个问题,很有可能是运算的精度导致的bug,查了很多资料,让我去屏蔽src/caffe/util/math_functions.cpp 中的报错的这一行,这么做明显是掩耳盗铃,虽然暂时没有出现问题了,但是很有可能就会后面不知名的错误。现在依然不知道具体是什么原因导致,暂时猜想是libc这类的底层库运算精度导致。
第二个问题,表面现象看来是GPU的速度快于CPU的速度,GPU处于等待状态,等待CPU送数据进来。通常是PC上有运行其他的大型的程序拖慢了CPU运算速度,其实不是的。这就是整个训练程序中的某个小bug。
训练,我还是放弃了,最终换到ubuntu服务器上训练了。相同的代码,相同的网络,非常正常!
6、搭建pytorch环境
直接使anaconda创建了虚拟环境之后安装
conda install pytorch torchvision cudatoolkit=10.1 -c pytorch