最近在用yolo来做视频中的人员检测,选择YOLO是从速度考虑,当然也可以用ssd。YOLO相关可看主页Darknet,有相关代码和使用方法。由于之前做自己的数据训练过程中出现各种问题,参照了各种博客才跑通,现在记录下以防后面忘记,也方便自己总结一下。
YOLO本身使用的是VOC的数据集,所以可以按照VOC数据集的架构来构建自己的数据集。
1.构建VOC数据集
1.准备数据
首先准备好自己的数据集,最好固定格式,此处以VOC为例,采用jpg格式的图像,在名字上最好使用像VOC一样类似000001.jpg、000002.jpg这样。可参照下面示例代码
1. // Getfile.cpp : 重命名文件夹内的所有图像并写入txt,同时也可通过重写图像修改格式
2. //配用Opencv2.4.10
3.
4. #include "stdafx.h"
5. #include <stdio.h>
6. #include <string.h>
7. #include<io.h>
8. #include <opencv2\opencv.hpp>
9. #define IMGNUM 20000 //图片所在文件夹中图片的最大数量
10. char img_files[IMGNUM][1000];
11.
12. using namespace cv;
13. int getFiles(char *path)
14. {
15. int num_of_img = 0;
16. long hFile = 0;
17. struct _finddata_t fileinfo;
18. char p[700] = { 0 };
19. strcpy(p, path);
20. "\\*");
21. if ((hFile = _findfirst(p, &fileinfo)) != -1)
22. {
23. do
24. {
25. if ((fileinfo.attrib & _A_SUBDIR))
26. {
27. if (strcmp(fileinfo.name, ".") != 0 && strcmp(fileinfo.name, "..") != 0)
28. continue;
29. }
30. else
31. {
32. strcpy(img_files[num_of_img], path);
33. "\\");
34. strcat(img_files[num_of_img++], fileinfo.name);
35. }
36. while (_findnext(hFile, &fileinfo) == 0);
37. _findclose(hFile);
38. }
39. return num_of_img;
40. }
41. int main()
42. {
43. char path[] = "SrcImage"; //source image
44. char dstpath[] = "DstImage"; //destination image
45. int num = getFiles(path);
46. int i;
47. char order[1000];
48. FILE *fp = fopen("train.txt", "w");
49. for (i = 0; i<num; ++i)
50. {
51. "%s\n", img_files[i]);
52. IplImage *pSrc = cvLoadImage(img_files[i]);
53. "DstImage\\%05d.jpg", i);
54. "%05d\n", i);
55. cvSaveImage(order, pSrc);
56. "Saving %s!\n", order);
57. cvReleaseImage(&pSrc);
58. }
59. fclose(fp);
60. return 0;
61. }
准备好了自己的图像后,需要按VOC数据集的结构放置图像文件。VOC的结构如下
1. --VOC
2. --Annotations
3. --ImageSets
4. --Main
5. --Layout
6. --Segmentation
7. --JPEGImages
8. --SegmentationClass
9. --SegmentationObject
这里面用到的文件夹是 Annotation、ImageSets和JPEGImages。其中文件夹 Annotation中主要存放xml文件,每一个xml对应一张图像,并且每个xml中存放的是标记的各个目标的位置和类别信息,命名通常与对应的原始图像一样;而ImageSets我们只需要用到Main文件夹,这里面存放的是一些文本文件,通常为train.txt、test.txt等,该文本文件里面的内容是需要用来训练或测试的图像的名字(无后缀无路径);JPEGImages文件夹中放我们已按统一规则命名好的原始图像。
1.新建文件夹VOC2007(通常命名为这个,也可以用其他命名,但一定是名字+年份,例如MYDATA2016,无论叫什么后面都需要改相关代码匹配这里,本例中以 VOC2007为例)
2.在VOC2007文件夹下新建三个文件夹 Annotation、ImageSets和JPEGImages,并把准备好的自己的原始图像放在JPEGImages文件夹下
3.在ImageSets文件夹中,新建三个空文件夹Layout、Main、Segmentation,然后把写了训练或测试的图像的名字的文本拷到Main文件夹下,按目的命名,我这里所
有图像用来训练,故而Main文件夹下只有train.txt文件。上面说的小代码运行后会生成该文件,把它拷进去即可。
2.标记图像目标区域
因为做的是目标检测,所以接下来需要标记原始图像中的目标区域。相关方法和工具有很多,这里需用
labelImg,相关用法也有说明,基本就是框住目标区域然后双击类别,标记完整张图像后点击保存即可。操作界面如下:
通常save之后会将标记的信息保存在xml文件,其名字通常与对应的原始图像一样。最后生成的画风是这样的
其中每个xml文件是这样的画风
1. <?xml version="1.0" ?>
2. <annotation>
3. <folder>JPEGImages</folder>
4. <filename>00000</filename>
5. <path>/home/kinglch/VOC2007/JPEGImages/00000.jpg</path>
6. <source>
7. <database>Unknown</database>
8. </source>
9. <size>
10. <width>704</width>
11. <height>576</height>
12. <depth>3</depth>
13. </size>
14. <segmented>0</segmented>
15. <object>
16. <name>person</name>
17. <pose>Unspecified</pose>
18. <truncated>0</truncated>
19. <difficult>0</difficult>
20. <bndbox>
21. <xmin>73</xmin>
22. <ymin>139</ymin>
23. <xmax>142</xmax>
24. <ymax>247</ymax>
25. </bndbox>
26. </object>
27. <object>
28. <name>person</name>
29. <pose>Unspecified</pose>
30. <truncated>0</truncated>
31. <difficult>0</difficult>
32. <bndbox>
33. <xmin>180</xmin>
34. <ymin>65</ymin>
35. <xmax>209</xmax>
36. <ymax>151</ymax>
37. </bndbox>
38. </object>
39. <object>
40. <name>person</name>
41. <pose>Unspecified</pose>
42. <truncated>0</truncated>
43. <difficult>0</difficult>
44. <bndbox>
45. <xmin>152</xmin>
46. <ymin>70</ymin>
47. <xmax>181</xmax>
48. <ymax>144</ymax>
49. </bndbox>
50. </object>
51. </annotation>
注意filename中文件的文件名名没有后缀,因此需要统一加上后缀。只需一段命令即可
1. find -name '*.xml' |xargs perl -pi -e 's|</filename>|.jpg</filename>|g'
2.用YOLOv2训练
1.生成相关文件
首先需要修改voc_label.py中的代码,这里主要修改数据集名,以及类别信息,我的是VOC2007,并且所有样本用来训练,没有val或test,并且只检测人,故只有一类 目标,因此按如下设置
1. import xml.etree.ElementTree as ET
2. import pickle
3. import os
4. from os import listdir, getcwd
5. from os.path import join
6.
7. #sets=[('2012', 'train'), ('2012', 'val'), ('2007', 'train'), ('2007', 'val'), ('2007', 'test')]
8.
9. #classes = ["aeroplane", "bicycle", "bird", "boat", "bottle", "bus", "car", "cat", "chair", "cow", "diningtable", "dog", "horse", "motorbike", "person", "pottedplant", "sheep", "sofa", "train", "tvmonitor"]
10.
11. sets=[('2007', 'train')]
12. classes = [ "person"]
13.
14.
15. def convert(size, box):
16. 1./size[0]
17. 1./size[1]
18. 0] + box[1])/2.0
19. 2] + box[3])/2.0
20. 1] - box[0]
21. 3] - box[2]
22. x = x*dw
23. w = w*dw
24. y = y*dh
25. h = h*dh
26. return (x,y,w,h)
27.
28. def convert_annotation(year, image_id):
29. 'VOCdevkit/VOC%s/Annotations/%s.xml'%(year, image_id)) #(如果使用的不是VOC而是自设置数据集名字,则这里需要修改)
30. 'VOCdevkit/VOC%s/labels/%s.txt'%(year, image_id), 'w') #(同上)
31. tree=ET.parse(in_file)
32. root = tree.getroot()
33. 'size')
34. 'width').text)
35. 'height').text)
36.
37. for obj in root.iter('object'):
38. 'difficult').text
39. cls = obj.find('name').text
40. if cls not in classes or int(difficult) == 1:
41. continue
42. cls)
43. 'bndbox')
44. 'xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text), float(xmlbox.find('ymax').text))
45. bb = convert((w,h), b)
46. " " + " ".join([str(a) for a in bb]) + '\n')
47.
48. wd = getcwd()
49.
50. for year, image_set in sets:
51. if not os.path.exists('VOCdevkit/VOC%s/labels/'%(year)):
52. 'VOCdevkit/VOC%s/labels/'%(year))
53. 'VOCdevkit/VOC%s/ImageSets/Main/%s.txt'%(year, image_set)).read().strip().split()
54. '%s_%s.txt'%(year, image_set), 'w')
55. for image_id in image_ids:
56. '%s/VOCdevkit/VOC%s/JPEGImages/%s.jpg\n'%(wd, year, image_id))
57. convert_annotation(year, image_id)
58. list_file.close()
修改好后在该目录下运行命令:python voc_label.py,之后则在文件夹scripts\VOCdevkit\VOC2007下生成了文件夹lable,该文件夹下的画风是这样的
这里包含了类别和对应归一化后的位置(i guess,如有错请指正)。同时在scripts\下应该也生成了train_2007.txt这个文件,里面包含了所有训练样本的绝对路径。
2.配置文件修改
做好了上述准备,就可以根据不同的网络设置(cfg文件)来训练了。在文件夹cfg中有很多cfg文件,应该跟caffe中的prototxt文件是一个意思。这里以tiny-yolo-voc.cfg为例,该网络是yolo-voc的简版,相对速度会快些。主要修改参数如下
1. .
2. .
3. .
4. [convolutional]
5. size=1
6. stride=1
7. pad=1
8. filters=30 //修改最后一层卷积层核参数个数,计算公式是依旧自己数据的类别数filter=num×(classes + coords + 1)=5×(1+4+1)=30
9. activation=linear
10.
11. [region]
12. anchors = 1.08,1.19, 3.42,4.41, 6.63,11.38, 9.42,5.11, 16.62,10.52
13. bias_match=1
14. classes=1 //类别数,本例为1类
15. coords=4
16. num=5
17. softmax=1
18. jitter=.2
19. rescore=1
20.
21. object_scale=5
22. noobject_scale=1
23. class_scale=1
24. coord_scale=1
25.
26. absolute=1
27. thresh = .6
28. random=1
另外也可根据需要修改learning_rate、max_batches等参数。这里歪个楼吐槽一下其他网络配置,一开始是想用tiny.cfg来训练的官网作者说它够小也够快,但是它的网络配置最后几层是这样的画风:
1. [convolutional]
2. filters=1000
3. size=1
4. stride=1
5. pad=1
6. activation=linear
7.
8. [avgpool]
9.
10. [softmax]
11. groups=1
12.
13. [cost]
14. type=sse
这里没有类别数,完全不知道怎么修改,强行把最后一层卷积层卷积核个数修改又跑不通会出错,如有大神知道还望赐教。
Back to the point。修改好了cfg文件之后,就需要修改两个文件,首先是data文件下的voc.names。打开voc.names文件可以看到有20类的名称,本例中只有一类,检测人,因此将原来所有内容清空,仅写上person并保存。名字仍然用这个名字,如果喜欢用其他名字则请按一开始制作自己数据集的时候的名字来修改。
接着需要修改cfg文件夹中的voc.data文件。也是按自己需求修改,我的修改之后是这样的画风:
1. classes= 1 //类别数
2. train = /home/kinglch/darknet-master/scripts/2007_train.txt //训练样本的绝对路径文件,也就是上文2.1中最后生成的
3. //valid = /home/pjreddie/data/voc/2007_test.txt //本例未用到
4. names = data/voc.names //上一步修改的voc.names文件
5. backup = /home/kinglch/darknet-master/results/ //指示训练后生成的权重放在哪
修改后按原名保存最好,接下来就可以训练了。
ps:yolo v1中这些细节是直接在源代码的yolo.c中修改的,源代码如下
比如这里的类别,训练样本的路径文件和模型保存路径均在此指定,修改后从新编译。而yolov2似乎摈弃了这种做法,所以训练的命令也与v1版本的不一样。
3.运行训练
上面完成了就可以命令训练了,可以在官网上找到一些预训练的模型作为参数初始值,也可以直接训练,训练命令为
1. $./darknet detector train ./cfg/voc.data cfg/tiny-yolo-voc.cfg
如果用官网的预训练模型darknet.conv.weights做初始化,则训练命令为
1. $./darknet detector train ./cfg/voc.data .cfg/tiny-yolo-voc.cfg darknet.conv.weights
不过我没试成功,加上这个模型直接就除了final,不知道啥情况。当然也可以用自己训练的模型做参数初始化,万一训练的时候被人终端了,可以再用训练好的模型接上去接着训练。
训练过程中会根据迭代次数保存训练的权重模型,然后就可以拿来测试了,测试的命令同理:
./darknet detector test cfg/voc.data cfg/tiny-yolo-voc.cfg results/tiny-yolo-voc_6000.weights data/images.jpg
这样就完成了整个流程,目前测试感觉同种网络v2版本似乎比v1版本慢很多,莫非是为了精度的提高牺牲了部分速度。然而我需要的是速度,这个就尴尬了。