深度学习开发环境搭建

&esmp;写在前面: 这是一个失败的教学, 不过里面的坑倒是实实在在的, 一步一步踩了这些坑, 才有最后的的成功啊!!!  上一篇我们搭建了win10+ubuntu18.04双系统, 硬件环境已经准备就绪, 接下来就是搭建软件环境了, 下面先说下需要安装的基本东西, 然后详细介绍搭建过程;

硬件环境:

  • 显卡:GeForce GTX 750M
  • CPU:corei5
  • 系统:Ubuntu 18.04
  • 基本步骤:
  • anaconda :3.5版本
  • cuda:9.0版本
  • cuDNN: cuDnn v7
  • TensorFlow:1.8版本
  • Keras:默认安装最新版 (写于2019/1/23, 后来发现使用anaconda安装tensorflow-gpu的时候, 已经自动把对应版本的cuda和cudnn下载并安装好了\哭, 也就是说只要保证自己的显卡能够支持对应的cuda版本即可, 重点是安装好显卡驱动)

1. anaconda3安装

 anaconda能够非常方便的管理Python的各种包, 能够省去很多麻烦, 强烈推荐. 建议用清华大学开源软件镜像网站来下载和安装, 网址:https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/; 具体安装过程参考博客"Ubuntu18.04 安装 Anaconda3", 链接:

2. 安装NVIDIA驱动

基本步骤:

  1. 删除旧驱动sudo apt-get purge nvidia*
  2. 禁止自带的nouveau nvidia驱动
# 打开配置文件
sudo vim /etc/modprobe.d/blacklist-nouveau.conf
#填写禁止的内容
blacklist nouveau
options nouveau modeset=0
#跟新配置文件
sudo update-initramfs -u`

然后重启, 重启后发现分辨率降低, 这是配置成功的表现.

#重启后检查nouveau是否被禁用
lsmod | grep nouveau
  1. 添加Graphic Drivers PPA #进入文本模式init 3 #结束x-window的服务,否则驱动将无法正常安装(按照网上教程做的, 但luffy执行后提示我的笔记本并没有这个服务, 也许道友们也会碰到, 不过无关紧要…)sudo service lightdm stop #添加PPA源sudo add-apt-repository ppa:graphics-drivers/ppasudo apt-get update #寻找合适的驱动版本ubuntu-drivers devices
  2. windows server Docker ce 安装 CUDA_重启

  3. #安装驱动(luffy这里的网太慢了, 用的是学院的无线网, 估计有一个小时吧>–<sudo apt-get install nvidia-415 #重启sudo reboot #查看驱动安装情况sudo nvidia-smisudo nvidia-settings
  4. windows server Docker ce 安装 CUDA_重启_02

参考文章: ubuntu16.04下NVIDIA GTX965M显卡驱动PPA安装, 深度学习准备之Ubuntu下装显卡驱动,

问题

  其实这里已经出问题了, 这个表中pwr是N/A, GPU-Util是N/A, 如果显卡驱动生效的话, 这些都应该是有数值的. 安装cuda之前, 还是得先看看自己的GPU是否支持啊)

windows server Docker ce 安装 CUDA_环境搭建_03

3. cuda9.0安装

3.1 先官网上下载run 文件(luffy这里无线网太慢了, 所以现在台式机上下载下来, 然后用U盘拷贝到笔记本上)

windows server Docker ce 安装 CUDA_环境搭建_04

windows server Docker ce 安装 CUDA_Ubuntu_05

测试:

安装到这里发现了问题, (上面是参照大佬教程这么做的, 但是可能因为我的显卡太low-GT750M, 大佬的是GTX1070ti, 我按照ppa方式安装, 安装了nvidia415版本的驱动, 测试结果发现gpu根本没有启动, 显示not supported); 所以我只好重新安装驱动, 在网上找资料, 采用官网下载, 手动安装, 具体参考博客:Ubuntu 18.04 NVIDIA驱动安装总结;Ubuntu 安装nvidia驱动一直遇到 pre-install scipt failed 错误;Ubuntu 16.04 Nvidia驱动安装

测试 问题: 执行make clean && make 时出错, “permission denied”, 加上"sudo"就好了sudo make clean && make

总结

 这是一次失败的尝试, 失败的点还是在于NVIDIA显卡驱动和CUDA安装这一过程(好多深度学习者都被挡在这里了呀). 我想搭建最新版tensorflow_gpu开发环境, 那么就需要安装CUDA9.0, 但是我的显卡GT750M只能用CUDA3.0. 想找CUDA3.0对应的tensorflow_gpu版本也找不到>_<(Tensorflow不同版本要求与CUDA及CUDNN版本对应关系). 不过正所谓100次失败证明了100条路是走不通的, 不是没有意义, 而且也加深了对NVIDIA驱动和CUDA的理解.  车到山前必有路, luffy决定换一条路, 听说用docker搭建tensorflow GPU环境不需要安装CUDA. 且让老夫试上一试.

参考博客"Ubuntu18.04深度学习GPU环境配置": “ubuntu18.04环境下搭建深度学习的环境”,