1.这篇论文的主要假设是什么?(在什么情况下是有效的),这假设在现实中有多容易成立

  LR图像是HR图像经过模糊(低通滤波器),下采样,加噪处理后的图像。

2.在这些假设下,这篇论文有什么好处
3.这些好处主要表现在哪些公式的哪些项目的简化上。
4.这一派的主要缺点有哪些

  

1.神经网络的计算速度却决于输入图像的尺寸。由于卷积层是在HR空间中,计算复杂度大
2.插值法仅仅是将尺寸放大,并没有带来解决不适定的重建问题的额外信息。(ESPCN,3)

3.非线性映射层计算复杂度高

4.依赖于小图像区域的上下文(VDSR,1)

5.一个网络只能对应一个scale(VDSR,1)

1.intro

  图像超分辨率问题是在CV领域一个经典的问题。目前(2014)最先进的方法大多是基于实例的,主要包括利用图片的内部相似性,或者学习低分辨率高分辨率样本对的映射函数。后者往往需要大量的数据,但是目前有效性不足以令人满意并且无法精简模型。其中典型的是基于稀疏编码的方法,包括以下几步:先从图像中密集地抽取patch并进行预处理,然后使用low-resolution dict对patch进行编码,得到稀疏的coefficients,被换成high-resolution dict用于重建高分辨率patch,对这些patch进行合成或平均以得到高分辨率图像。这些方法将注意力都集中在对dict的学习和优化或者其他建模方法,其余步骤很少得到优化和考虑。

  本篇文章我们提出,上述步骤作用相当于一个卷积神经网络。我们考虑直接在高低分辨率图像中建立一个端到端映射的CNN,用隐藏层取代对dict的学习。在这个过程中,patch的抽取和聚合也能够得到应有的优化。这就是SRCNN,其有以下优点:1.模型简单,精度高。2.速度快。3.随着数据集的增大,重建质量还可以增强。但是在以往方法中,数据集增大会带来很多挑战。

  本文主要工作:

  1.针对超分辨问题提出一个基于端到端映射的卷积神经网络,图像预处理后处理更少。

  2.基于深度学习的SR方法和传统的基于稀疏编码方法的比较。

  3.论证了深度学习在SR问题中可以被应用,且可以获得较好的质量和速度。

2.related work

2.1 图像超分辨

  一类图像超分辨方法时学习高低分辨率patch间的映射,这些工作的主要区别在于学习一些将高低分辨率patch关联起来的dict和manifold space方面,和如何在此空间内进行方案表示方面。

  Freeman的工作:dict里的元素直接代表高低分辨率的patch对,在低分辨率空间中找到input patch的最近邻居(NN),对应到相应的高分辨率patch。

  Chang的工作:使用manifold embedding technique代替NN策略

  Yang的工作:NN对应进展到更为先进的稀疏编码方式。这种稀疏编码方式及其改进是目前最先进的SR方法。

2.2 CNN

  CNN最近因其在图像分类领域的成功而变得火热。

2.3 图像复原领域的深度学习

  已经有一些使用深度学习技术在图像复原领域应用的例子:多层感知机用于自然图像去噪和post-deblurring去噪,CNN用于自然图像去噪和消除噪声图案。图像超分领域还并未得到应用。

3.SRCNN

3.1 构思

  将原始图像通过插值,扩展到插值图像Y,我们的目标就是将Y经过F(Y)变换,尽可能地接近高分辨图像X。方便起见,我们将Y成为低分图像,尽管其尺寸与X相等。

  1.patch(图像块)抽取与表示。将Y中的每一图像块抽取出来并表示为高维向量,这些高维向量包括一系列特征图,特征图的个数等于高维向量的维度。

  2.非线性映射。将上一步得到的每一高维向量进行非线性映射,得到另一个高维向量。得到的高维向量代表高分辨图像的patch,这些高维向量也包括一系列特征图。

  3.重建。聚合上步得到的高分辨图像patch,得到最终的高分图像

SRCNN代码详解 srcnn论文_稀疏编码

 

 

patch(图像块)抽取与表示

  深度学习之前的常用策略是密集抽取patch并用一组基来表示(如PCA,DCT,Haer)。这个过程等价于使用一组filter(每一个filter相当于一个基)对图像进行卷积。这在此网络中表示为进行卷积操作$$F_{1}\left ( Y \right )=max\left ( 0,W_{1}*Y+B_{1} \right )$$

  其中$W_{1}$的尺寸是$c \times f_{1} \times f_{1} \times n_{1}$,$B_{1}$是$n_{1}$维向量。在这之后应用一个RELU单元(RELU相当于非线性映射,而patch的提取和表示是纯线性操作)

非线性映射

  上一步得到的得到的每一个$n_{1}$维向量对应于原始图像中的一个patch,将得到的$n_{1}$维向量映射到$n_{2}$维向量,这在此网络中表示为进行卷积操作$$F_{2}\left ( Y \right )=max\left ( 0,W_{2}*F_{1}\left ( Y \right )+B_{2} \right )$$

  其中$W_{2}$的尺寸是$n_{1} \times 1 \times1 \times n_{2}$,$B_{2}$是$n_{2}$维向量

  注:可以增加额外的卷积层来增加网络的非线性,但也需要考虑因此带来的问题。

重建

  在传统方法中,往往将高分patch进行average以产生最终图像。这一平均操作可以替换为:使一系列特征图通过我们预定义好的滤波器。

  

  这在此网络中表示为进行卷积操作$$F\left ( Y \right )=W_{3}*F_{2}\left ( Y \right )+B_{3} $$

  其中$W_{3}$的尺寸是$n_{2} \times f_{3} \timesf_{3} \times c$,$B_{3}$是$c$维向量

 

  如果代表HR patch的$n_{2}$维向量是在图像域,则直接把第三次的filter看成一个averaging filter;如果是在其他域,则可以理解为第三层先将系数转换到了图像域继而进行average。

 

3.2 和稀疏编码方法的关系

SRCNN代码详解 srcnn论文_深度学习_02

 

 

 

  在稀疏编码中,考虑从原始图像中抽取$f_{1} \times f_{1}$的LR图像块,这一图像块减掉其均值后被投影到LR字典中。若LR字典大小为$n_{1}$,则这正相当于$n_{1}$个$f_{1} \times f_{1}$线性filter。(减均值操作包括在线性操作中)

  the sparse coding solver对$n_{1}$个系数进行非线性映射操作,输出是$n_{2}$个系数,这$n_{2}$个系数代表HR patch。但是这一步骤并不是feed-forward,而是iterative。然而在CNN中的操作却是feed-forward,而且便于计算,此操作可以看做是像素层面的全连接网络。

(针对这里的pixel-wise fully-connected layer, 个人理解:应该说的是前后两组feature maps中对应patch的特征进行全连接,而不是对patch进行全连接。在这里的“像素”应该指的是代表patch的高维向量的每一个维度)

  之后,$n_{2}$个系数通过HR字典投影到HR图像块,之后进行average操作。这等效于在$n_{2}$特征图上进行线性卷积。如果用来重建的patch尺寸为$f_{3} \times f_{3}$, 则卷积操作的filter也是$f_{3} \times f_{3}$

 

  以上这些说明了,我们可以用CNN代替传统的稀疏编码,而且CNN能够对所有步骤进行优化。

  我们设置的超参数是f1 = 9, f3 = 5, n1 = 64, and n2 = 32

  若设置最后一层filter<第一层,则我们更多地依赖于HR patch的中心部分; 为了达到稀疏的目的,也可以设置n2 < n1。

  相比于传统方法更精确的原因之一是,此模型中HR像素的感受野大。(每一像素利用了$\left ( 9+5-1 \right )^{2}=169$个原始像素的信息)

3.3 训练

3.3.1 LOSS函数

  MSE损失$$L\left ( \Theta  \right )=\frac{1}{n}\sum_{i=1}^{n}\left \| F\left ( Y_{i};\Theta  \right )-X_{i} \right \|^{2}$$

  使用MSE偏好于PSNR,(PSNR是定量评估重建质量的重要指标,与感知质量也相关)。

  也可在训练过程中使用更合适的LOSS函数,这点在传统SC方法是不可想象的。

3.3.2 momentun梯度下降

  

SRCNN代码详解 srcnn论文_稀疏编码_03

 

  训练的输入是原始图像经过加噪、下采样,上采样。

4. 实验

  数据集:训练集:91images

      Set5用于2,3,4倍上采样, Set14用于4倍上采样

  超参数:f1 = 9, f3 = 5, n1 = 64, and n2 = 32

  ground truth尺寸:32*32pixel

  将HR图片根据14stride切割成32×32子图,这样一来,91张图片共产生约24800张训练图片。

  我们的图片是在YCrCb空间下,且只考虑亮度通道。因此c=1,两个色度空间不会被训练。当然,也可以设置c=3,我们设置c=1只是为了和其他方法竞争公平。

  训练阶段,为了避免边缘效应,我们的卷积操作无Padding,这会导致输出尺寸是20*20,我们取ground truth中心的20*20进行LOSS函数的计算。而测试阶段有Padding,可以输入任意尺寸图片,输入尺寸不变,为了解决边界效应,在每个卷积层中,每个像素的输出(在ReLU之前)都通过有效输入像素的数量进行标准化。

  filter参数被随机初始化,标准差0.001。前两层LR=10−4,最后一次LR=10-5。根据经验,最后一层LR小对于收敛很重要。

5. 分析

  5.1 分析filter

  训练出的不同filter对应不同功能

  5.2 使用不同数据集会产生不同效果

  5.3 filter数量

  可以改变层数和filter的数量,来产生不同效果,然而效果的提升意味着牺牲速度的代价

  5.4 filter尺寸。同5.3

5.总结

  添加更多的layer或者filter可以得到不同效果

  也可以探索一种网络来应对不同的上采样倍数。