多标签分类

  即多标签分类相关/相似的问题。一个同属于监督学习并和多标签分类很相关的问题就是排序问题(ranking)。排序任务是对一个标签集排序,使得排在前面的标签与相应实例更相关。
  在特定分类问题中,标签属于一个层次结构(hierarchical structure)。当数据集标签属于一个层次结构的时候,我们这个任务为层次分类,如果一个样本与层次结构的多个节点相关, 那么这个任务就被称为层次多标签分类。
  多实例学习(multiple-instance learning)是监督学习的一个变种,用的比较少 ,就不说了。

具体算法

  1)0层或多层的hidden layer + Softmax:label弄成向量如[0 1 0 1 0 0 1],Loss Function是CE的话 做加和(/sum(label))就行(即将label从one-hot改成multi-hot),Softmax求导里面有一个点乘label,所以参数矩阵W迭代会更新到对应W的行(或列)上面–完全的Deep Learning套路,没理解错的话 就是Hinton的《Distilling the Knowledge in a Neural Network 》中提的 the soft targets

  2)Multi-dimension Logistic Regression[0层或多层的hidden layer + Sigmoid, 类Deep Learning方法] 训练过程如上,与Softmax的差别:训练过程最后层概率不做 NormalizationSoftmax

  3)在softmax层之前加入一个coding层,每一种分类用一个bit位表示。
coding层具体是用sigmoid激活函数,阈值设为0.5.如果值大于0.5,则属于此标签,小于0.5,则不属于这个标签”

  4)Classifier Chains,把原问题分解成有先后顺序的一系列Binary Classification,然后前边的Binary Classification会对后边的产生影响;

  5)Calibrated label ranking,这个有点像Multi-Classification中One vs One的策略,就是通过两两对比,然后进行投票决定分类效果。

依据解决问题的角度分类

  1)基于问题转化(Problem Transformation)的方法。基于问题转化的多标记分类是转化问题数据,使之适用现有算法。
  代表性学习算法LP[[1]],Binary Relevance[[2]],Calibrated Label Ranking[[3]], Random k-labelsets[[4]]。总体来说,这类方法有考虑类标之间的联系,但是对于类标较多、数据量较大的数据集,这类方法的计算复杂度是一个很明显的缺陷。

  2)基于算法适应的方法和算法适应方法(Algorithm Adaptation)。
  基于算法适应的方法是指针对某一特定的算法进行扩展,从而能够直接处理多标记数据,改进算法,适应数据。问题转化方法是将多标记问题转化成一个或者多个单类标问题,算法适应方法是在多标记的基础上研究算法。
  近年来,用于多标记的算法适应的算法越来越多,代表性学习算法ML-kNN[[5]],Rank-SVM[[6]],LEAD[[7]],CML。

对于分类策略,基于考察标记之间相关性的不同方式

  1)First-Order Strategy: 考虑的是label之间相互独立,那么就可以把Multi-label问题转换为普通的分类问题。如果一个Label有多类的话,那么就用传统的One vs All来解决。
  Binary Relevance:该类策略通过逐一考察单个标记而忽略标记之间的相关性,如将多标记学习问题分解为个独立的二类分类问题,从而构造多标记学习系统。该类方法效率较高且实现简单,但由于其完全忽略标记之间可能存在的相关性,其系统的泛化性能往往较低。”

  2)Second-Order Strategy: 这一类是考虑Label之间的两两相关性,结果会导致计算复杂度有显著的增加。

  3)High-Order Strategy: 这个就是考虑多Label之间的相关性,计算复杂度会更高。