计算机视觉(斯坦福2017课程)
循环神经网络(RNN:recurrent neural networks)
- 语言建模问题经常被运用到RNN领域
- 完全监督来训练这个模型;
- 多层循环神经网络:
LSTM(长短期记忆网络:Long Short Term Memory)
LSTM被设计用来解决RNN中可能会出现的梯度消失和梯度爆炸问题,以更好的结构来获取更好的梯度流动。
i代表input gate(输入门);
f代表forget gate(遗忘门);
g代表gate gate;
o代表output gate(输出门);
分割、定位和检测(计算机视觉中的其他任务)
- 语义分割:
用类别来做切分,整体的网络结构图如下:
- upsampling的过程:
采用下图两种方式:
或者采用转置卷积的方式:
- 图像分类和定位:
和目标检测的区别在于,对于图像分类和定位,你会率先知道这张图片中有一个或不止一个物体(具体数目了解)是你需要寻找的。 - 目标检测(object detection):
候选区域法:
R-CNN系列:
yolo和SSD: - 物体分割问题(instance segmentation):
Mask R-CNN:
生成式模型(无监督学习的一种)
无监督学习:
k-means clustering是一个比较出名的例子;- 生成式模型:
- 生成式模型可以解决密度型问题;
- 针对于显式密度模型和隐式密度模型可以区分为一些分支:
Pixel RNN/CNN:
对一个密度分布进行显式建模(显式的计算p(x));个人理解就是对训练数据进行最大似然计算(总结出来各个像素点的概率),由此为结果来训练RNN/CNN,从而得到一个模型可以用来从图片顶点链式生成整个图片各个点的像素的模型;
CNN相对于RNN在训练时比较快,但是对于生成图片时较慢,因为从顶点像素链式生成出所有像素的图片;- Variational Autoencoder(VAE)变分自动编码器:
- 自动编码器的无监督学习:
- z在维度上比x小,因为z应该用来表示x当中最重要的特征;
- 最终的整体结构如下,训练好后会删去decoder部分:
GANs:
- 在GANs中我们不再在显式的密度函数上下功夫,而是采用一个博弈论的方法,并且模型将会学会从训练分布中生成数据;
目的是从一个复杂的高维训练分布中采样,如果想从这样的分布中生成样本,是没有什么直接的生成方法可以采用的,换句话说,该分布十分复杂,我们无法从中直接采样,因此将要采用的方案是,从一个简单点的分布中采样,这样一来我们要做的就是习得一个从这些简单分布直接到我们想要的训练分布的一个变换。 - 包含判别器网络和生成器网络两部分,二者像在做博弈一样,生成器网络生成的一些图像,交给判别器网络来判别哪些是生成器网络生成的真的好的图像,哪些是生成的不好的赝品图像。
- 如果生成器网络能够生成一些图像,能够欺骗的过判别器网络,那么就代表我们获得了一个很好地生成器模型;
- 如何训练一个GANs网络:
强化学习