计算机视觉(斯坦福2017课程)

循环神经网络(RNN:recurrent neural networks)

图像分类的CNN模型流程图_无监督学习


图像分类的CNN模型流程图_显式_02

图像分类的CNN模型流程图_无监督学习_03


图像分类的CNN模型流程图_图像分类的CNN模型流程图_04


图像分类的CNN模型流程图_图像分类的CNN模型流程图_05

图像分类的CNN模型流程图_显式_06

  • 语言建模问题经常被运用到RNN领域
  • 图像分类的CNN模型流程图_显式_07

  • 完全监督来训练这个模型;
  • 多层循环神经网络:
  • 图像分类的CNN模型流程图_图像分类的CNN模型流程图_08

LSTM(长短期记忆网络:Long Short Term Memory)

图像分类的CNN模型流程图_生成器_09


LSTM被设计用来解决RNN中可能会出现的梯度消失和梯度爆炸问题,以更好的结构来获取更好的梯度流动。

图像分类的CNN模型流程图_显式_10

i代表input gate(输入门);

f代表forget gate(遗忘门);

g代表gate gate;

o代表output gate(输出门);

分割、定位和检测(计算机视觉中的其他任务)
  1. 语义分割:

    用类别来做切分,整体的网络结构图如下:
  • upsampling的过程:
    采用下图两种方式:
    或者采用转置卷积的方式:
  1. 图像分类和定位:
    和目标检测的区别在于,对于图像分类和定位,你会率先知道这张图片中有一个或不止一个物体(具体数目了解)是你需要寻找的。
  2. 目标检测(object detection):
    候选区域法:

    R-CNN系列:

    yolo和SSD:
  3. 物体分割问题(instance segmentation):
    Mask R-CNN:
生成式模型(无监督学习的一种)
  • 无监督学习:
    k-means clustering是一个比较出名的例子;

  • 生成式模型:
  • 图像分类的CNN模型流程图_无监督学习_11

  • 生成式模型可以解决密度型问题;
  • 针对于显式密度模型和隐式密度模型可以区分为一些分支:
  • 图像分类的CNN模型流程图_图像分类的CNN模型流程图_12

  • Pixel RNN/CNN:
    对一个密度分布进行显式建模(显式的计算p(x));个人理解就是对训练数据进行最大似然计算(总结出来各个像素点的概率),由此为结果来训练RNN/CNN,从而得到一个模型可以用来从图片顶点链式生成整个图片各个点的像素的模型;
    CNN相对于RNN在训练时比较快,但是对于生成图片时较慢,因为从顶点像素链式生成出所有像素的图片;

  • Variational Autoencoder(VAE)变分自动编码器:
  • 图像分类的CNN模型流程图_图像分类的CNN模型流程图_13

  • 自动编码器的无监督学习:
  • 图像分类的CNN模型流程图_显式_14

  • z在维度上比x小,因为z应该用来表示x当中最重要的特征;
  • 图像分类的CNN模型流程图_显式_15

  • 最终的整体结构如下,训练好后会删去decoder部分:
  • 图像分类的CNN模型流程图_生成器_16

  • GANs:

  1. 在GANs中我们不再在显式的密度函数上下功夫,而是采用一个博弈论的方法,并且模型将会学会从训练分布中生成数据;
    目的是从一个复杂的高维训练分布中采样,如果想从这样的分布中生成样本,是没有什么直接的生成方法可以采用的,换句话说,该分布十分复杂,我们无法从中直接采样,因此将要采用的方案是,从一个简单点的分布中采样,这样一来我们要做的就是习得一个从这些简单分布直接到我们想要的训练分布的一个变换
  2. 包含判别器网络和生成器网络两部分,二者像在做博弈一样,生成器网络生成的一些图像,交给判别器网络来判别哪些是生成器网络生成的真的好的图像,哪些是生成的不好的赝品图像。
  3. 图像分类的CNN模型流程图_显式_17

  4. 如果生成器网络能够生成一些图像,能够欺骗的过判别器网络,那么就代表我们获得了一个很好地生成器模型;
  5. 图像分类的CNN模型流程图_图像分类的CNN模型流程图_18


图像分类的CNN模型流程图_图像分类的CNN模型流程图_19

  1. 如何训练一个GANs网络:
  2. 图像分类的CNN模型流程图_生成器_20


  3. 图像分类的CNN模型流程图_图像分类的CNN模型流程图_21


强化学习

图像分类的CNN模型流程图_生成器_22