2020.12.16快速记录下
换3090之后环境配置,以下配置均在物理机,cuda 11.1,cudnn 8.0.4
tf 1.15.4,谷歌版已不在维护,需要安装nvidia版本
这个需要GLIBC_2.27,ubuntu 16.04不支持,需要18.04以上版本
具体参考
RTX3080+Ubuntu18.04+cuda11.1+cudnn8.0.4+TensorFlow1.15.4+PyTorch1.7.0环境配置_wu496963386的博客-CSDN博客blog.csdn.net
tf 2.5
简单粗暴,直接pip install tf-nightly-gpu
这个注意镜像源,清华镜像源可能只有2.3版本,更换阿里镜像解决
torch 1.8
git库直接克隆源码,编译,torchvision同理
具体参考
3080/3090 pytorch gpu计算环境安装指南 ubuntu20.04blog.csdn.net
- 重启后掉显卡驱动(必备技能)
具体表现为,重启后屏幕分辨率异常(因为我是desktop版)重启后无法登陆(输入密码后一个黑色报错一闪而过,然后重新回到登陆页面),一闪而过的报错内容如下
/dev/nvme1n1p2:clean,xxx files, xxx blocks
这个报错其实就是桌面服务被关闭了
尝试使用nvidia-smi查看显卡状态,报错
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver
到这,基本可以确定,驱动掉了
重装驱动,听着 挺麻烦,其实就3个命令
(1) 禁用X-Window服务,不然没法装显卡驱动
sudo service lightdm stop
(2) 重装cuda或者重装nvidia driver
重装driver
sudo sh NVIDIA-Linux-x86_64-455.23.04.run
重装cuda
sudo sh cuda_10.1.243_418.87.00_linux.run
为啥driver掉了,可以重装cuda,因为cuda自带了driver,比如cuda 10.1的安装包就自带了418.87.00的driver,如果之前使用的就是cuda自带drive,直接覆盖安装cuda就行了
如果和我一样,使用3090等新一代显卡,cuda 10.1自带的418驱动,并不能兼容,也可以通过直接重新安装驱动的方式,来安装driver
(3) 重启X-Window服务
sudo service lightdm start
至此,驱动以及已经安装完成,掉驱动问题已经解决,又可以愉快的炼丹了
---我是分割线---
后面容我有空慢慢更新
2. nvidia container的坑
换3090之后,这个坑还没踩
3. exfat格式硬盘挂载
因为平常硬盘用的环境比较多,mac,windows,ubuntu都会用到,所以选择exfat这个格式,在mac,windows都可以直接读写,但在ubuntu下,并不支持,需要安装exfat插件
2020.12.13更新,前几天把ubuntu玩崩了,重装系统忘了exfat需要插件,直接mount可以挂载,可以读取,但是,就是没写入权限,折腾了好久,才发现是忘了装插件。。。
sudo apt install exfat-utils
4. rm -rf 误删除文件恢复