文章目录
- 1 前言
- 2 自监督
- 2.1 什么是自监督学习
- 2.2 为什么使用自监督学习?
- 2.3 自监督的目的
- 2.4 例子
- 2.5 自监督学习分类
1 前言
我们的数据任务一般分为a)有监督、b)半监督、c)无监督、d)自监督
2 自监督
2.1 什么是自监督学习
自监督学习的思想很简单,设计一个辅助训练目标,然后利用大量无标注的数据本身的结构或者特性**【标签不需要人工标注】,训练网络使得网络具备特征提取**的能力。
在网络具备特征提取能力后,通过少量的有标注的数据对网络进行微调,使得网络具有分类的能力。
总之,自监督的监督信号来源于数据本身的内容,也就是自己给自己监督信号(self的含义)。也可以认为是实例级别的标注,每个样本是一个类。所以,如果按照有人为标注的监督信号是有监督,那么自监督划分到无监督范围。如果按照有监督信号是有监督,那么自监督划分到有监督范围。
2.2 为什么使用自监督学习?
在各种主流有监督学习任务都做到很成熟之后,数据成了最重要的瓶颈。
从无标注的数据中学习有效信息一直是一个很重要的研究课题,其中自监督学习提供了一个可靠的途径,使得网络可以从大量无标注的数据中心学习到特征提取的能力。
·当网络通过辅助任务学习到特征提取能力后,同一类别的特征会在一定程度上分立,为后面的任务提供了良好的基础。
·我们的世界严格的遵循着自然的规律,视觉信号是这些内在规律的外在反映,而深度学习可以很好的提取这些内置的规则。所以无监督、自监督具有完美的理论基础。
·自然界就是有序的、低熵的,这使得数据本身就已经包含了丰富的信息,如何更好地提取利用这些信息,这是无监督或者自监督学习的关键。
自监督学习能让网络获得特征提取的能力我们的世界是在严格的自然规则下运行的,那么对这个世界的观测结果(图像)也必然存在一些先验规律。
比如:图像修复任务利用了物体类别和形状纹理之间的关联;旋转预测任务利用了物体类别和其朝向之间的关联;训练网络预测图片的旋转角度,此时网络为了预测一个图片的旋转,会提取图片的特征。利用这些先验的规律,我们也能设计自己的自监督学习任务。
2.3 自监督的目的
自监督不是让你真正地去做任务,是得到一个好的预训练模型,用这个模型在少量样本的任务上去微调,自适应,这很好的解决了标签少的问题。
2.4 例子
①Word2vec 词向量,使用中心词预测周围词,不需要人工打标签
②GAN 使用real images 和 fake images 作为标签
③通过给图片上色学会如何做目标检测,最终的目的不是前置任务,自监督只是帮助提取特征免费的标签
2.5 自监督学习分类
主要分为四类
- 前置任务基于生成的:通过一些生成的样本预测真实样本来学习 构造伪标签
- 基于内容的:加一些扰动 用原始图片预测扰动后的标签 比如旋转 上色 拼图
- 在浩瀚的原宇宙找样本
- 跨模态:一个东西从不同的信息源描述