基于深度校准网络的广义零样本学习 Generalized Zero-Shot Learning with Deep Calibration Network

zeroBrane Studio配置openresty库_数据

本文亮点:在训练时使用目标域的标签


文章目录

  • [基于深度校准网络的广义零样本学习 Generalized Zero-Shot Learning with Deep Calibration Network](http://ise.thss.tsinghua.edu.cn/~mlong/doc/deep-calibration-network-nips18.pdf)
  • 1 Introduction 引言
  • 3 广义零样本学习
  • 3.1 预测函数
  • 3.2 风险最小化
  • 3.3 不确定性校准
  • 3.4 深度校准网络
  • 4 实验
  • 4.2 Standard ZSL
  • 4.3 GZSL结果


1 Introduction 引言

zeroBrane Studio配置openresty库_数据_02

动机/问题:广义零样本学习的技术难点。对已见类数据的过拟合导致对目标类别(已见类和未见类)的不确定预测,是GZSL性能低的原因。

如图,经过校正的网络预测更加准确。 问题:预测更加准确,是否能够提升分类精度?能够在实验中给出前后对比吗?


3 广义零样本学习

符号: 已见数据 zeroBrane Studio配置openresty库_数据_03 源类别 zeroBrane Studio配置openresty库_相似度_04 目标类 zeroBrane Studio配置openresty库_数据_05, 训练时样本不可见 一个类别zeroBrane Studio配置openresty库_相似度_06的语义表示为zeroBrane Studio配置openresty库_相似度_07 所有类别的语义表示 zeroBrane Studio配置openresty库_Network_08 未见类数据 zeroBrane Studio配置openresty库_相似度_09, 源类或者目标类数据

定义1:零样本,ZSL Given zeroBrane Studio配置openresty库_数据_10 and zeroBrane Studio配置openresty库_Network_11, classify zeroBrane Studio配置openresty库_数据_10 over target classes zeroBrane Studio配置openresty库_Network_13.定义2:广义零样本,GZSL Given zeroBrane Studio配置openresty库_数据_10 and zeroBrane Studio配置openresty库_Network_15 of both source and target classes, learn a model zeroBrane Studio配置openresty库_Network_16 to classify zeroBrane Studio配置openresty库_Network_17 over both source and target classes zeroBrane Studio配置openresty库_相似度_18.

在这个定义里,ZSL没有利用目标域的标签。

3.1 预测函数

图像 zeroBrane Studio配置openresty库_Network_19 特征嵌入 zeroBrane Studio配置openresty库_Network_20 类别语义 zeroBrane Studio配置openresty库_数据_21,属性或者词向量 语义嵌入 zeroBrane Studio配置openresty库_Network_22

这里的嵌入空间就是特征空间,论文给出的是2048维的ResNet特征或者1024维的GoogleNet特征

图像的视觉嵌入zeroBrane Studio配置openresty库_Network_23 类别的语义嵌入zeroBrane Studio配置openresty库_相似度_24

预测函数zeroBrane Studio配置openresty库_Network_25zeroBrane Studio配置openresty库_数据_26是相似度函数,比如內积和余弦相似度;zeroBrane Studio配置openresty库_相似度_27是(nearest prototype classifier) NPC分类器分配给图像zeroBrane Studio配置openresty库_相似度_28类别zeroBrane Studio配置openresty库_Network_29的强度。

图像zeroBrane Studio配置openresty库_相似度_28的预测类别zeroBrane Studio配置openresty库_相似度_31zeroBrane Studio配置openresty库_Network_32

论文提到,预测源类和目标类的导致的技术难度是不一样的。

3.2 风险最小化

multi-class Hinge losszeroBrane Studio配置openresty库_数据_33 其中,间隔定义为zeroBrane Studio配置openresty库_相似度_34 文中提到大部分零样本学习方法使用多分类Hinge损失来学习视觉语义映射。

作者应用温度校正来缓解由于在已见数据上的过拟合导致的对源域类别的过分相信。温度校正是Hinton老爷子提出来从深度网络蒸馏知识的。作者应用温度校正来将预测zeroBrane Studio配置openresty库_相似度_35转换到源于类别上的概率分布

zeroBrane Studio配置openresty库_相似度_36

其中,zeroBrane Studio配置openresty库_Network_37就是温度,当zeroBrane Studio配置openresty库_Network_38是深度网络里最常见的选项。温度 zeroBrane Studio配置openresty库_Network_37zeroBrane Studio配置openresty库_数据_40“软化”了softmax。当zeroBrane Studio配置openresty库_相似度_41时,概率zeroBrane Studio配置openresty库_Network_42,这将导致最大的不确定性。当zeroBrane Studio配置openresty库_相似度_43时,概率坍缩到一点(即 zeroBrane Studio配置openresty库_数据_44)。因为zeroBrane Studio配置openresty库_Network_37不改变softmax函数的最大值,收敛后如果应用温度校正zeroBrane Studio配置openresty库_Network_46

将概率zeroBrane Studio配置openresty库_Network_47插入到源域类别zeroBrane Studio配置openresty库_相似度_48的可见数据zeroBrane Studio配置openresty库_相似度_49上的交叉熵损失得到

zeroBrane Studio配置openresty库_数据_50

关于这个loss,作者认为,相比于multi-class Hinge loss,虽然交叉熵是一个很简单的处理多分类的方案,但能够利用温度校正来缓解过拟合。

3.3 不确定性校准

不管是ZSL还是GZSL,都强调了模型训练不能使用目标域训练数据。但是,要用模型识别目标域的数据,必须让模型学习目标域的知识。所以就只能用到目标域的语义信息。

作者提出,将模型的预测zeroBrane Studio配置openresty库_Network_51转换成目标域上的概率(带有温度校正)。

zeroBrane Studio配置openresty库_数据_52

温度校正zeroBrane Studio配置openresty库_Network_46在公式(6)和(7)的端到端的训练中都会用到。

解释 直观上讲,目标域zeroBrane Studio配置openresty库_Network_29和源域图片zeroBrane Studio配置openresty库_相似度_28对应的源域越相似,概率zeroBrane Studio配置openresty库_数据_56的值越大。这样就避免了训练时源域图像对目标域图像的不确定性一致。在信息论中,熵zeroBrane Studio配置openresty库_数据_57是对分布zeroBrane Studio配置openresty库_相似度_58的不确定性的度量。值越低,不确定性越小。在本文中,作者提出了基于熵准则的不确定性校正的目标函数:

zeroBrane Studio配置openresty库_相似度_59

需要实验去看看,这个效果怎么样

3.4 深度校准网络

优化目标如下:zeroBrane Studio配置openresty库_相似度_60

zeroBrane Studio配置openresty库_相似度_61是模型复杂度惩罚项。在深度学习中,可以用权值衰减来替代它。


4 实验

4.2 Standard ZSL

zeroBrane Studio配置openresty库_Network_62

zeroBrane Studio配置openresty库_相似度_63

zeroBrane Studio配置openresty库_Network_37越小,不确定性越大。

4.3 GZSL结果

zeroBrane Studio配置openresty库_Network_65

最后三行结果表明,不确定性校正的高效。

GZSL的精度比ZSL低很多,为什么?

  1. 源域的精度低,是为什么?
  2. 目标域精度低,是为什么?模型对源域过拟合。