自监督学习介绍
- Overview
- What is Self-Supervised Learning?
- Why is Self-Supervised Learning?
- Some Examples
- Unsupervised Visual Representation Learning by Context Prediction
- Unsupervised Representation Learning by Predicting Image Rotations
- Exemplar Networks
- Summary
Overview
这篇博客主要介绍自监督学习的基本概念、意义以及几个比较经典的例子。
What is Self-Supervised Learning?
自监督学习本质上是一种无监督学习的方法,通常会设置一个“Pretext tasks”,根据数据的一些特点,构造Pesdeo Labels来训练网络模型。通过自监督得到的模型,可以作为其他学习任务的预训练模型,为其提供更好的训练初始区域。因此,自监督学习也可以看作是为了学习图像的通用视觉表示。
Why is Self-Supervised Learning?
之所以自监督学习在近几年成为研究的热点,主要是数据标注的成本太高,而且深度学习的迁移性能很差。虽然现在也有很多的域适应方法,但是在实际的应用中,最好的方法还是不停的增加标注数据。因此,自监督学习的兴起可以说是必然的。
Some Examples
以下介绍几篇经典的自监督论文作为例子:
Unsupervised Visual Representation Learning by Context Prediction
该文章发表在ICCV 2015,思路比较简单。将图像分为3x3的patch并为每一个patch编号,网络接收任意两个位置的patch,预测两个patch的相对位置。通过构建这样一个Pretext task,可以对网络进行训练,训练得到的网络可以作为预训练模型应用到其他的任务中。
Unsupervised Representation Learning by Predicting Image Rotations
该方法发表在ICLR 2018上。通过预测输入图像的旋转角度训练网络,将输入图像随机旋转 0,90,180,270度,输入分类网络中,网络预测输入图像的旋转角度是0, 1,2,3。
Exemplar Networks
这类方法的共同做法是对输入数据进行增广变换,然后强制让网络学习到特性尽可能接近,从而学习到图像的高层语义特征。
Summary
目前来看,自监督学习的理论性不强,很多方法都是纯粹的实验结果,而且性能的提升有限,作为预训练模型,目前还无法超越ImageNet预训练。但是自监督方法的潜力还是很大的,针对深度学习的下一阶段的研究,如何减少对于大量标注数据的依赖,是一个很重要的方向。这就需要网络能学习到通用的高层语义特征,但是目前来看,自监督学习方法还达不到这个目标,下一篇文章将对这一点进行介绍。