2020.12.16快速记录下

换3090之后环境配置,以下配置均在物理机,cuda 11.1,cudnn 8.0.4

tf 1.15.4,谷歌版已不在维护,需要安装nvidia版本

这个需要GLIBC_2.27,ubuntu 16.04不支持,需要18.04以上版本

具体参考


RTX3080+Ubuntu18.04+cuda11.1+cudnn8.0.4+TensorFlow1.15.4+PyTorch1.7.0环境配置_wu496963386的博客-CSDN博客blog.csdn.net


显卡驱动可以在容器里面单独更新吗_ubuntu


tf 2.5

简单粗暴,直接pip install tf-nightly-gpu

这个注意镜像源,清华镜像源可能只有2.3版本,更换阿里镜像解决

torch 1.8

git库直接克隆源码,编译,torchvision同理

具体参考


3080/3090 pytorch gpu计算环境安装指南 ubuntu20.04blog.csdn.net

显卡驱动可以在容器里面单独更新吗_rtl驱动 ubuntu 禁用_02


  1. 重启后掉显卡驱动(必备技能)

具体表现为,重启后屏幕分辨率异常(因为我是desktop版)重启后无法登陆(输入密码后一个黑色报错一闪而过,然后重新回到登陆页面),一闪而过的报错内容如下


/dev/nvme1n1p2:clean,xxx files, xxx blocks


这个报错其实就是桌面服务被关闭了

尝试使用nvidia-smi查看显卡状态,报错


NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver


到这,基本可以确定,驱动掉了

重装驱动,听着 挺麻烦,其实就3个命令

(1) 禁用X-Window服务,不然没法装显卡驱动


sudo service lightdm stop


(2) 重装cuda或者重装nvidia driver


重装driver
sudo sh NVIDIA-Linux-x86_64-455.23.04.run
重装cuda
sudo sh cuda_10.1.243_418.87.00_linux.run


为啥driver掉了,可以重装cuda,因为cuda自带了driver,比如cuda 10.1的安装包就自带了418.87.00的driver,如果之前使用的就是cuda自带drive,直接覆盖安装cuda就行了

如果和我一样,使用3090等新一代显卡,cuda 10.1自带的418驱动,并不能兼容,也可以通过直接重新安装驱动的方式,来安装driver

(3) 重启X-Window服务


sudo service lightdm start


至此,驱动以及已经安装完成,掉驱动问题已经解决,又可以愉快的炼丹了

---我是分割线---

后面容我有空慢慢更新

2. nvidia container的坑

换3090之后,这个坑还没踩

3. exfat格式硬盘挂载

因为平常硬盘用的环境比较多,mac,windows,ubuntu都会用到,所以选择exfat这个格式,在mac,windows都可以直接读写,但在ubuntu下,并不支持,需要安装exfat插件

2020.12.13更新,前几天把ubuntu玩崩了,重装系统忘了exfat需要插件,直接mount可以挂载,可以读取,但是,就是没写入权限,折腾了好久,才发现是忘了装插件。。。


sudo apt install exfat-utils


4. rm -rf 误删除文件恢复