安装前准备工作
确认GPU型号和操作系统版本
准备gpu驱动和CUDA软件包
在nvidia官网进行驱动包下载
GPU驱动下载链接 Linux系统均选择 Linux 64-bit、CUDA Toolkit选择最新版本
注意该版本一定要大于等于cuda软件的版本。
选择CUDA及GPU驱动版本,需同时考虑与客户程序的兼容性问题。
CUDA 11.0 建议搭配CUDA CUDA toolkit 11.0版本的GPU驱动
选择合适的操作系统版本进行下载。
检查服务器GPU识别情况
安装GPU驱动之前需要在操作系统下查看GPU卡是否能够完全识别,如不能识别需要进行重新插拔、对调测试 步骤进行硬件排查,确保可以查看到所有的GPU
lspci | grep -i nvidia
GPU驱动卸载方法:
/usr/bin/nvidia-uninstall
CUDA卸载方法:
/usr/local/cuda-X.Y/bin/cuda-uninstaller
老版本卸载方法
/usr/local/cuda-X.Y/bin/uninstall_cuda_X.Y.pl
安装gcc、g++编译器
GPU驱动安装时需要gcc编译器。
cuda安装samples测试程序进行make时需要g++,但安装cuda软件包时不需要。
CentOS 7
检查版本
gcc -v
g++ -v
软件包安装
yum install gcc
yum install gcc-c++
SUSE
检查版本
gcc -v
g++ -v
软件包安装
zypper in gcc
zypper in gcc-c++
Ubuntu
检查版本
gcc -v
g++ -v
软件包安装
apt-get install gcc
apt-get install g++
apt-get install make
软件包检查
dpkg -l gcc
dpkg -l g++
dpkg -l make
安装kernel-devel和kernel-headers软件包
CentOS 7
yum install kernel-devel-$(uname -r) kernel-headers-$(uname -r)
Ubuntu
Ubuntu可以不安装,也可以从阿里镜像站或网易镜像站下载,需注意内核版本。
SUSE
zypper install kernel-source-$(uname -r)
只安装这一个即可
zypper install kernel-default-devel-$(uname -r)
禁用系统自带的nouveau模块
检查nouveau模块是否加载,已加载则先禁用
lsmod | grep nouveau
CentOS 7
没有blacklist-nouveau.conf文件则创建
vim /usr/lib/modprobe.d/blacklist-nouveau.conf
添加内容如下
blacklist nouveau
options nouveau modeset=0
执行如下命令使内核生效
dracut -force
需要重启服务器后才可真正禁用nouveau
Ubuntu
vi /etc/modprobe.d/blacklist.conf
在文本最后添加以下内容:
blacklist nouveau
options nouveau modeset=0
保存退出,执行以下命令生效:
update-initramfs -u
重启操作系统
修改系统运行级别为文本模式GPU驱动安装必须在文本模式下进行
CentOS 7
systemctl set-default multi-user.target
Ubuntu
systemctl stop lightdm
systemctl set-default multi-user.target(也可以不执行此命令)
然后ctrl+alt+F1 切换到其他字符终端窗口(F7为图形中断窗口),或者init 3
SUSE
vim /etc/inittab
修改id:5:initdefault:为id:3:initdefault:
重启系统后,使禁用nouveau模块配置生效并进入文本模式
GPU驱动安装
CentOS
1、root用户下进行GPU驱动
chmod +x NVIDIA-xxx.run
./NVIDIA-Linux-x86_64-390.46.run –no-opengl-files
可选:–ui=none –no-questions –accept-license
2、配置GPU驱动内存常驻模式
GPU驱动模式设置为常驻内存:
nvidia-smi -pm 1
3、设置开机自启动
vim /etc/rc.d/rc.local
在文件中添加一行
nvidia-smi -pm 1
4、赋予/etc/rc.d/rc.local文件可执行权限
chmod +x /etc/rc.d/rc.local
若无/etc/rc.d/rc.local,也可修改
vim /etc/rc.local
chmod +x /etc/rc.local
ubuntu 18.04
1、创建文件:
vi /etc/systemd/system/rc-local.service
2、将下面的文字复制里面
[Unit]
Description=/etc/rc.local Compatibility
ConditionPathExists=/etc/rc.local
[Service]
Type=forking
ExecStart=/etc/rc.local start
TimeoutSec=0
StandardOutput=tty
RemainAfterExit=yes
SysVStartPriority=99
[Install]
WantedBy=multi-user.target
3、创建文件:
vi /etc/rc.local
#!/bin/sh -e
nvidia-smi -pm 1
exit 0
4、赋予可执行权限
chmod +x /etc/rc.local
5、启动服务并设置服务开机自启动
systemctl enable rc-local.service
systemctl start rc-local.service
systemctl status rc-local.service
6、重启系统后验证
SUSE
vim /etc/init.d/after.local
没有就新建
nvidia-smi -pm 1
chmod +x /etc/init.d/after.local
安装完GPU驱动后,可以使用nvidia-smi命令进行GPU状态查看及相关配置。
nvidia-smi