ImageNet Classification whih Deep Convolutional Neural Networks
目标:分类120万个图片的1000个不同的类别
网络的结构:
60,000,000 个参数
65,00000 个神经元
5个卷积层
3个全连接层
特点:使用非饱和神经元(non-satueating nurons) + GPU 提过运行的速率
使用Dorpout技术避免过拟合
一、Introduction:
1、过去的经验:通常使用机器学习的方法进行物体的识别
使用大的数据集,学的有效的model
利用最好的算法,避免过拟合
原始机器学习算法的缺点,需要大量的标记数据,需要手动提取特征进行分类
CNNs:
相对原始的神经网络,有较少的参数,而且图像识别方面性能更优
可以不提取特征值,直接处理原始图片的像素
二、ImageNet Architecture(网络结构)
5个卷积层和3个全连接层
1.激活函数:Relu Nonlinearly
更快递的收敛,一般使用这个激活函数,慎用sigmiod函数
2、GPU训练
使用交叉GPU训练,可以减少计算时间,相对一个更高效的GPU更快。
3、局部对应标准化(local Response Normalization)
4、重叠池化层(overlapping Pooling)
整体的结构:
第一层:224×224*3作为输入层,使用 11*11×3,stride=4的96个kernal进行计算。
第二层:用5*5*48的256个kernals进行过滤
第三层:用3*3*256的384个kernals进行过滤
第四层:用3*3*192的384个kernals进行过滤
第五层:用3*3*192的256个kernals进行过滤
全连接层一共4096个神经元。
减少过拟合(reducing overfitting)
1、数据增加,通过简单的变化原始数据到新的数据,对图形平移,翻转等。
2、使用PCA修改RGB数据
I[x,y] = [I[x,y]R,I[x,y]G, I[x,y]$B]
变换:[P1, P2, P3][[a1*b1], [a2*b2], [a3*b3]]
P[i]、b[i]分别是特征向量和特征值,a[i]是通过高斯分布u(0,0.1^2)产生的随机变量
3、使用dropout方法,去除一些神经元。
每一次dropout得到不同的神经元,但是公用权重,最后测试时候使用全部神经元。
神经网络学习的细节:
初始化权重:使用正太分布u(0,0.1^2)初始化权重
初始化2、4、 5的卷积层的偏量bias=1,其他成的bias=0
激活函数:Relus
所有层使用相同的学习率v
优化计算:SGD,
每次的计算:bath=128
冲量momentum = 0.9
权重衰减 weight decay = 0.05
论文地址:ImageNet Classification whih Deep Convolutional Neural Networks