一、显卡驱动以及Anaconda安装
修改yum下载源,方法参照 1.安装相关编译的环境
yum -y install gcc kernel-devel kernel-headers
到此为止 如果发现还是没安装成功gcc
使用指令sudo yum install gcc gcc-c++
安装7个包
安装成功,查看版本 gcc -v
查看已安装kernel-devel
2.在开机启动项中禁用nouveau显卡驱动
#vim /boot/grub/grub.conf
在kernel选项的quiet 选项后面 添加:
nouveau.modeset=0
3.重新建立initramfs image文件
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
报错
发现/boot目录下本来就有备份好的系统镜像initramfs-2.6.32-754.el6.x86_64.img.bak
dracut /boot/initramfs-$(uname -r).img $(uname -r) 创建新的系统镜像
4.把启动模式修改为文本模式
#vim /etc/inittab
id:3:initdefault: 5改成3
5.重启
重启失败,在启动界面点击ESC进入这个界面
点击a 就进入了文本模式(我也不知道为什么)然后就可以在指令行模式登录 进入安装路径下,执行bash NVIDIA-Linux-x86_64-450.57.run
,接下来就是正常安装步骤,问你接不接受,都是yes,安装完后输入startx重新开启桌面服务。
6. 接下来安装anaconda,官网https://www.anaconda.com/products/individual页面最下面下载Linux版安装包,上传到/home/fang(自己的安装路径)
执行指令 bash Anaconda3-2020.07-Linux-x86_64.sh
,点击回车,读完要求可能需要输入几个yes,就安装完成了。
7. 安装完成
如果xshell里面没有直接进入base环境中,可以输入conda init
,然后重启xshell的终端,之后可以使用conda deactivate
退出环境;
使用conda create -n env_name python=3.6
创建自己的虚拟环境(env_name换成你自己的环境名称)
8. 安装完后有可能出现conda: command not found的情况,需要配置一下环境变量vi ~/.bashrc
在最后一行加上
export PATH=$PATH:/home/fang/anaconda3/bin,
执行source ~/.bashrc
9. 这时候再执行conda指令就可以成功了
二、CUDA、cudnn安装
1. NVIDIA官网https://developer.nvidia.com/cuda-10.2-download-archive?target_os=Linux&target_arch=x86_64&target_distro=CentOS&target_version=6&target_type=runfilelocal搜索下载指令
2. 执行指令并一直回车(内容挺多)后需要还要输入几个accept,yes,还有一个选no,如下图:
3. 安装完成
4. 使用nvcc -V进行检查,没有正常输出说明没有配置环境变量
5. vim ~/.bashrc
进入配置文件
从文件最后一行开始补充下面三句
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-10.2/lib64
export PATH=$PATH:/usr/local/cuda-10.2/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-10.2
6. 修改完后要更新一下 source ~/.bashrc
7. 现在执行nvcc -V
就有正常输出了(CUDA就安装成功了):
8. 接下来安装cudnn,官网https://developer.nvidia.com/rdp/cudnn-archive下载cudnn安装包需要先注册并登录,下载好cudnn-10.2-linux-x64-v7.6.5.32.tgz放在/home/fang,并解压
指令:tar -xzf cudnn-10.2-linux-x64-v7.6.5.32.tgz
9. 解压后产生一个cuda目录
执行下面三句指令
10. 至此cudnn也安装完了
11. 安装pytorch 检查一下前面安装的是否成功官网找对应的下载指令
下载太慢换了清华镜像
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda install pytorch torchvision
12. python里面导入torch并检查cuda是否可用。
如果torch.cuda.is_available()
如果输出是false,那就表示前面的驱动或者cuda的安装有问题,最可能的就是驱动。直接卸载重新安装显卡驱动即可解决问题。
13. 安装完torch在导入时报错
是由于Linux系统的glibc版本太低,而软件编译时使用了较高版本的glibc引起的!
14. 查看系统glibc支持的版本
可以看到最高只支持2.12版本。现在需要将glibc支持的版本升级到GLIBC_2.14
15. 官网http://www.gnu.org/software/libc/下载安装包glibc-2.14.tar.xz放在/usr/local/src目录下并解压tar -vxf glibc-2.14.tar.xz
创建/var/VMdisks,将解压后的glibc-2.14移到/var/VMdisks目录下
在glibc源码目录建立构建目录,并cd进入构建目录
cd /var/VMdisks/glibc-2.14/
mkdir build && cd build/
../configure --prefix=/usr/local/glibc-2.14
make -j4
make install
临时修改环境变量
export LD_LIBRARY_PATH=/usr/local/glibc-2.14/lib:$LD_LIBRARY_PATH[root@uatblockchain01 build]# echo $LD_LIBRARY_PATH
修改/lib64/libc.so.6的软链接来源,由之前的libc-2.12.so修改为libc-2.14.so
cd /lib64
ll libc.so.6
显示下图:
删除libc-2.12.so之前的软链接
然后做/lib64/libc.so.6新的软链接,软链接到libc-2.14.so
然后做/lib64/libc.so.6新的软链接,软链接到libc-2.14.so
16. 最后再查看系统glibc支持的版本:
有GLIBC_2.14了。
17. 重新import torch又报错
干的漂亮! 刚有了GLIBC_2.14又嫌我没有GLIBC_2.17,上述15-16操作可能得重新来.
18. 突然想到报错原因就是引入最新版本torch(默认安装的是最新版本)的时候需要比较新的GLIBC,那我改安装旧版本的torch不就好了,
安装完成 在python里面分别检验torch、torchvision的版本以及前面的cuda是否安装成功,最后一行输出True说明cuda是可用的。
19. 大功告成!