更新2020.1.8-------------------------------------------------------------------------------------------------------------------------------------------------------
平台jetson nano
经过我几次测试,这里总结一下。这里jetson nano的jetpack是4.2,系统是ubuntu18.04,cuda10,cudnn7.5.1,opencv3.4.3(自己构建的)。按照这个配置来的话,而且用weiliu89的caffe-ssd源代码来编译的话,经过下面我说的步骤,解决掉最后那2个错误后。是训练不了的,不过可以跑推理模型,根据我另一篇博客修改编译caffe,可以训练mobilnet-ssd。但是训练不了vgg模型的,会迭代一次后loss值就会变成nan 或者 inf。
平台jetson Tx2
刷最新的jetpack4.3,系统是ubuntu18.04,cuda10,cudnn7.6.3,opencv3.4.3(自己构建的),结果和上面的nano是一样的,训练不了vgg网络。
平台X86_64
先在pc端配置试试,在pc端装了,ubuntu18.04,cuda10,cudnn7.5.1,opencv3.4.3。然后编译caffe-ssd后,会出现最后那个2个错误,修复后能够训练,这就奇怪了。
回到jetson平台,初步判定cuda的问题,由于jetson nano只有预装了cuda10,我们测测cuda9是否有同样问题,那就用jetson Tx2来测试,通过刷了jetpack3.3。编译caffe-ssd顺利通过,可以直接训练,而且没有最后的两个错误。
判断只有在jetson上和caffe-ssd和cuda、cudnn的兼容问题,pc端不受影响。
那么可以用cuda9去匹配,也可以caffe-ssd修改去匹配。
解决方法
1.那么可以这样,nano安装cuda9来解决这个问题。如何安装可以见另一篇博客。
2.还有一个方法比较简单,就是caffe-ssd的问题,它不支持最新的cuda和cudnn,修改成最新的文件即可解决。
具体步骤:
下载官方最新BVLC caffe的源码,将下面路径中的文件替换成最新的caffe文件
你的caffe-ssd根目录的 /include/caffe/util/cudnn.hpp
你的caffe-ssd根目录的 /include/caffe/layers/下面的cudnn_开头的所有文件
你的caffe-ssd根目录的 /src/caffe/util/cudnn.cpp
你的caffe-ssd根目录的 /src/caffe//layers/下面的cudnn_开头的所有文件
然后重新构建编译即可,当然还是会遇到最后两个问题,修复后就可以训练了。
构建方式可以按下面的步骤。
下载
这里提供经过修改后的caffe-sdd的源码,方便下载(里面是tx2平台测试的,nano平台根据以下步骤适当修改算力)
关于如何在nano上配置新的带cuda的opencv可以看看我的这篇博客
更新2020.1.8-------------------------------------------------------------------------------------------------------------------------------------------------------
做个配置记录
1.系统环境检测,默认nano都装好了的
# 检查CUDA
nvcc -V
# 检查opencv
pkg-config opencv --modversion
# 检查cuDNN
cd /usr/src/cudnn_samples_v7/mnistCUDNN #进入例子目录
sudo make #编译一下例子
sudo chmod a+x mnistCUDNN # 为可执行文件添加执行权限
./mnistCUDNN # 执行
2.安装依赖
sudo apt-get install -y libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler
sudo apt-get install --no-install-recommends -y libboost-all-dev
sudo apt-get install -y libopenblas-dev liblapack-dev libatlas-base-dev
sudo apt-get install -y libgflags-dev libgoogle-glog-dev liblmdb-dev
sudo apt-get install -y git build-essential
这里没有安装cmake,因为版本比较老,不支持cuda10,所以要去官网下载最新版编译
3.cmake编译安装
(1)如果有安装了cmake的,卸载
sudo apt-get remove cmake -y
(2)下载cmake3.15,找最新版源码下载就行了
(3)编译安装
tar -xzvf cmake3.15***
cd cmake3.15***
sudo ./bootstrap
sudo make -j4
sudo make install
(4)查看cmake安装成功与否
cmake --version
就会出来版本号,若提示找不到cmake则做如下处理:
whereis cmake
result :
cmake: /usr/lib/aarch64-linux-gnu/cmake /usr/lib/cmake /usr/local/bin/cmake /usr/share/cmake
vim ~/.bashrc
添加:
export PATH=:/usr/local/bin/cmake:$PATH
source ~/.bashrc
4.caffe 或 caffe-ssd安装准备
(1)创建Swap交换空间,这里新建4G
# 先禁用以前的
sudo swapoff /swapfile
# 修改swap 空间的大小为4G
sudo dd if=/dev/zero of=/swapfile bs=1M count=4096
# 设置文件为“swap file”类型
sudo mkswap /swapfile
# 启用swapfile
sudo swapon /swapfile
# 在/etc/fstab中添加下面代码,将swap空间永久保留,不执行这句重新启动后swap空间被释放
/swapfile swap swap defaults 0 0
(2)下载caffe或caffe-ssd
如果安装caffe的话
git clone https://github.com/BVLC/caffe.git
cd caffe
如果安装caffe-ssd的话,这里改下名好区分
git clone https://github.com/weiliu89/caffe.git
mv caffe caffe_ssd
cd caffe_ssd
git checkout ssd
这里开始caffe和caffe-ssd都一样
sudo cp Makefile.config.example Makefile.config
sudo vim Makefile.config
编辑Makefile.config文件
# 将下面三句前面的注释符号去掉
USE_CUDNN := 1
OPENCV_VERSION := 3
WITH_PYTHON_LAYER := 1
# 将下面这段全部注释掉
#CUDA_ARCH := -gencode arch=compute_30,code=sm_30 \
# -gencode arch=compute_35,code=sm_35 \
# -gencode arch=compute_50,code=sm_50 \
# -gencode arch=compute_52,code=sm_52 \
# -gencode arch=compute_60,code=sm_60 \
# -gencode arch=compute_61,code=sm_61 \
# -gencode arch=compute_61,code=compute_61
#因为nano的算力是53,所以改成这样
CUDA_ARCH := -gencode arch=compute_53,code=sm_53 \
-gencode arch=compute_53,code=compute_53
# 修改路径,注释掉原来的,换成新的
#INCLUDE_DIRS := $(PYTHON_INCLUDE) /usr/local/include
#LIBRARY_DIRS := $(PYTHON_LIB) /usr/local/lib /usr/lib
INCLUDE_DIRS := $(PYTHON_INCLUDE) /usr/local/include /usr/include/hdf5/serial
LIBRARY_DIRS := $(PYTHON_LIB) /usr/local/lib /usr/lib /usr/lib/aarch64-linux-gnu /usr/lib/aarch64-linux-gnu/hdf5/serial
编辑Makefile文件
sudo vim Makefile
# 这一句在425行
NVCCFLAGS += -D_FORCE_INLINES -ccbin=$(CXX) -Xcompiler -fPIC $(COMMON_FLAGS)
#如果是caffe的话
# 这一句在181行
LIBRARIES += glog gflags protobuf boost_system boost_filesystem m hdf5_serial_hl hdf5_serial
#如果是caffe-ssd的话
# 这一句在181行
LIBRARIES += glog gflags protobuf boost_system boost_filesystem boost_regex m hdf5_serial_hl hdf5_serial
5.编译安装caffe或caffe-ssd
mkdir build && cd build
cmake ..
make -j4
make install
make pycaffe #建立python接口
make runtest #测试,此步不是必要的,可以选做
6.环境变量配置,和测试
sudo vim ~/.bashrc
#在最后添加
#我的是
export PYTHONPATH=/home/admin/ssd_caffe/python:$PYTHONPATH
#相应改成
export PYTHONPATH=/home/用户名/caffe的根目录,就是下载时那个目录/python:$PYTHONPATH
#改好后 :wq 保存退出
#命令行输入
source ~/.bashrc
#环境变量立马生效
#测试 命令行
python
import caffe
如没有任何输出 ,成功
但一般会却少库,安装就好了
#命令行 安装库
sudo apt-get install python-skimage
sudo apt-get install python-protobuf
再试
经过后期测试,此ssd编译后训练是有问题的会出现如下错误
math_functions.cpp:250 Check failed: a <= b (0 vs. -1.19209e-07)
然后定位到caffe ssd的根目录,找到 src/caffe/util/math_functions.cpp 打开,找到第250行
CHECK_LE(a,b);
注释掉这行代码,重新编译caffe就可以了,可是会出现下面这个错误,其实导致的根本原因就是下面的sampler.cpp,改了下面的上面的就会修复,所以不用注释也行。
此问题解决方法参考自:https://github.com/weiliu89/caffe/issues/863
data layer prefetch queue is empty
这个问题要改源文件重新编译解决
进入caffe ssd的根目录,找到 src/caffe/util/sampler.cpp 打开编辑,找到
// Figure out top left coordinates.
float w_off, h_off;
caffe_rng_uniform(1, 0.f, 1 - bbox_width, &w_off);
caffe_rng_uniform(1, 0.f, 1 - bbox_height, &h_off);
将它选中,替换为
if(bbox_width>=1.0){
bbox_width=1.0;
}
if(bbox_height>=1.0){
bbox_height=1.0;
}
// Figure out top left coordinates.
float w_off, h_off;
caffe_rng_uniform(1, 0.f, 1.0f - bbox_width, &w_off);
caffe_rng_uniform(1, 0.f, 1.0f - bbox_height, &h_off);
保存,回到根目录,进入build,重新编译,解决
make -j4
make pycaffe
make install