文章目录
- 卷积神经网络CNN
- 卷积
- CNN基本原理
- 经典CNN
- LeNet-5
- AlexNet
- VGGNet
- CNN主要应用
卷积神经网络CNN
之前我们介绍了全连接神经网络,它的权重矩阵的参数非常多。
而且往往自然图像中的物体都具有局部不变性特征,即尺度缩放、平移、旋转等操作不影响其语义信息,但是全连接前馈网络很难提取这些局部不变特征,这就引出了我们将要介绍的卷积神经网络(Convolutional Neural Networks,CNN)。
卷积神经网络也是一种前馈神经网络,是受到生物学上感受野(感受野主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质)的机制而提出的(在视觉神经系统中,一个神经元的感受野是指视网膜上的特定区域,只有这个区域内的刺激才能够激活该神经元)。
卷积
(f*g)(n)成为 ff 和 gg 的卷积,连续卷积和离散卷积可以表达为如下形式:
卷积有很多应用,经常用于处理一个输入,通过系统产生一个适应需求的输出。
在图像处理中,图像是以二维矩阵的形式输入到神经网络中,因此我们需要二维卷积。
CNN基本原理
卷积神经网络的基本结构大致包括:卷积层、激活函数、池化层、全连接层、输出层等。
经典CNN
LeNet-5
LeNet-5由LeCun等人提出于1998年提出,主要进行手写数字识别和英文字母识别。经典的卷积神经网络,LeNet虽小,各模块齐全,是学习 CNN的基础。
网络结构
AlexNet
AlexNet由Hinton的学生Alex Krizhevsky于2012年提出,获得ImageNet LSVRC-2012(物体识别挑战赛)的冠军,1000个类别120万幅高清图像(Error: 26.2%(2011) →15.3%(2012)),通过AlexNet确定了CNN在计算机视觉领域的王者地位。
VGGNet
VGGNet由牛津大学和DeepMind公司提出
Visual Geometry Group:https://www.robots.ox.ac.uk/~vgg/
DeepMind:https://deepmind.com/
参考:K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.
比较常用的是VGG-16,结构规整,具有很强的拓展性
相较于AlexNet,VGG-16网络模型中的卷积层均使用 333∗3 的 卷积核,且均为步长为1的same卷积,池化层均使用 222∗2 的 池化核,步长为2
CNN主要应用
图像处理领域主要应用
- 图像分类(物体识别):整幅图像的分类或识别
- 物体检测:检测图像中物体的位置进而识别物体
- 图像分割:对图像中的特定物体按边缘进行分割
- 图像回归:预测图像中物体组成部分的坐标