机器学习笔记之生成模型综述——监督学习与无监督学习

  • 引言
  • 回顾:生成模型介绍
  • 判别方式:生成模型 VS \text{VS} VS
  • 生成模型的建模手段
  • 监督学习与无监督学习
  • 监督学习模型
  • 基于监督学习的非概率模型
  • 基于监督学习的概率模型
  • 无监督学习
  • 基于无监督学习的概率模型
  • 基于无监督学习的非概率模型
  • 生成模型介绍

引言

上一节介绍了生成模型的判别方式,本节将从机器学习需要解决的任务——监督学习、无监督学习的角度,对现阶段经典模型进行总结。

回顾:生成模型介绍

判别方式:生成模型 sklearn无监督学习模型评价_模型汇总

生成模型(sklearn无监督学习模型评价_生成模型与判别模型_02)的核心判别方式是:建模所关注的对象是否在样本分布自身。例如逻辑回归与朴素贝叶斯分类器。虽然这两个算法均处理基于监督学习的分类任务,并且均是软分类算法,但关注点截然不同:

  • 逻辑回归(sklearn无监督学习模型评价_监督VS无监督_03)的底层逻辑是最大熵原理,通过sklearn无监督学习模型评价_模型汇总_04函数直接对后验概率sklearn无监督学习模型评价_监督VS无监督_05进行描述:以二分类为例,此时sklearn无监督学习模型评价_监督VS无监督_06服从伯努利分布。sklearn无监督学习模型评价_模型汇总_07 很明显,这里我们仅关注sklearn无监督学习模型评价_监督VS无监督_08函数结果。而sklearn无监督学习模型评价_模型汇总_09的特征信息仅作为与模型参数sklearn无监督学习模型评价_模型汇总_10做内积的工具而已,并不是我们关注的对象;
  • 朴素贝叶斯分类器(sklearn无监督学习模型评价_模型汇总_11)针对后验概率sklearn无监督学习模型评价_监督VS无监督_05,通过贝叶斯定理将其转化为sklearn无监督学习模型评价_生成模型与判别模型_13之间的大小关系:
  • 关于分母sklearn无监督学习模型评价_模型汇总_14的完整形式是sklearn无监督学习模型评价_sklearn无监督学习模型评价_15,该项自身与sklearn无监督学习模型评价_生成模型与判别模型_16无关,可视作常数。
  • 这里依然以二分类为例,sklearn无监督学习模型评价_生成模型与判别模型_16同样服从伯努利分布。sklearn无监督学习模型评价_生成模型与判别模型_18

在这里,我们关注的对象是联合概率分布sklearn无监督学习模型评价_sklearn无监督学习模型评价_19。并且针对sklearn无监督学习模型评价_sklearn无监督学习模型评价_19建模的过程中,设计了朴素贝叶斯假设:sklearn无监督学习模型评价_模型汇总_21

生成模型的建模手段

如果针对监督学习,自带标签信息sklearn无监督学习模型评价_监督VS无监督_22,例如朴素贝叶斯分类器,通常针对联合概率分布sklearn无监督学习模型评价_监督VS无监督_23进行建模;

如果是无监督学习,此时只有样本特征sklearn无监督学习模型评价_sklearn无监督学习模型评价_24,主要分为两种情况:

  • 如自回归模型(sklearn无监督学习模型评价_模型汇总_25),它直接对sklearn无监督学习模型评价_sklearn无监督学习模型评价_26自身进行建模;
  • 隐变量模型(sklearn无监督学习模型评价_监督VS无监督_27),通过假设隐变量sklearn无监督学习模型评价_模型汇总_28,对联合概率分布sklearn无监督学习模型评价_sklearn无监督学习模型评价_29进行建模。

监督学习与无监督学习

从机器学习任务的角度观察:

  • 分类(sklearn无监督学习模型评价_监督VS无监督_30)、回归(sklearn无监督学习模型评价_生成模型综述_31) 等明显属于监督学习任务;
  • 而像降维(sklearn无监督学习模型评价_生成模型综述_32)、聚类(sklearn无监督学习模型评价_监督VS无监督_33)、数据生成(sklearn无监督学习模型评价_生成模型与判别模型_34) 等属于无监督学习任务。

无论是监督学习还是无监督学习,都可以将其划分为概率模型与非概率模型。这里的概率模型/非概率模型是指:在建模的过程中,其关于任务的返回结果是否考虑了概率分布。换句话说,概率是否直接参与到相关任务中去。

监督学习模型

基于监督学习的非概率模型

监督学习中的非概率模型,大方向指的是判别模型。在分类任务中,硬分类模型都是非概率模型。

  • 感知机算法(sklearn无监督学习模型评价_生成模型综述_35) :硬分类任务的对应模型均表示特征空间的超平面。区别在于样本划分的策略(模型表示后略):其中sklearn无监督学习模型评价_生成模型综述_36函数表示指示函数,在硬分类任务中,其大多指的是分段函数;而在软分类任务中,它可以是如sklearn无监督学习模型评价_sklearn无监督学习模型评价_37函数的连续函数。sklearn无监督学习模型评价_模型汇总_38 感知机算法的策略是错误驱动:sklearn无监督学习模型评价_监督VS无监督_39
  • 硬间隔-支持向量机(sklearn无监督学习模型评价_sklearn无监督学习模型评价_40),区别其他的硬分类模型,它是一个带约束的优化问题:sklearn无监督学习模型评价_监督VS无监督_41
  • 线性判别分析(sklearn无监督学习模型评价_sklearn无监督学习模型评价_42):以二分类为例,通过描述被超平面划分样本点的类内、类间关系,来确定模型参数信息。其策略表示如下:sklearn无监督学习模型评价_生成模型与判别模型_43
  • 多层感知机/前馈神经网络(sklearn无监督学习模型评价_生成模型综述_44):其核心是通用逼近定理。
  • 关于神经网络处理硬分类问题,例如亦或问题,可以将其视作非概率判别模型;基于亦或问题的前馈神经网络结构表示如下。
  • 如果是软分类问题,如在网络输出层加上sklearn无监督学习模型评价_监督VS无监督_45函数作为输出,它此时被视作概率判别模型。sklearn无监督学习模型评价_监督VS无监督_45函数将输出结果映射成了概率分布形式,并且是以sklearn无监督学习模型评价_模型汇总_47作为输入层,关于sklearn无监督学习模型评价_生成模型与判别模型_16的后验概率sklearn无监督学习模型评价_生成模型综述_49.
  • 如果是回归任务,并不称其为判别模型,能够确定的是,它是一个非概率模型。
  • 除了基于直线/超平面形状的硬分类算法,还如其他算法如决策树(sklearn无监督学习模型评价_sklearn无监督学习模型评价_50)等其他树模型也属于监督学习中的非概率模型。
基于监督学习的概率模型

监督学习中的概率模型可以继续向下划分,可划分为概率判别模型(sklearn无监督学习模型评价_模型汇总_51)和概率生成模型(sklearn无监督学习模型评价_生成模型与判别模型_02)两种:‘概率生成模型’在末尾统一介绍。

  • 其中概率判别模型的核心思想是:直接对条件概率sklearn无监督学习模型评价_生成模型综述_53进行建模 。经典的概率判别模型有:
  • 逻辑回归(sklearn无监督学习模型评价_生成模型综述_54):它的模型结构与其他分类任务的非概率模型相同,均是特征空间的直线/超平面:这里的sklearn无监督学习模型评价_监督VS无监督_55函数指的是sklearn无监督学习模型评价_监督VS无监督_56函数自身。sklearn无监督学习模型评价_生成模型与判别模型_57 假设标签信息sklearn无监督学习模型评价_生成模型与判别模型_16服从伯努利分布,逻辑回归使用sklearn无监督学习模型评价_监督VS无监督_56函数直接对sklearn无监督学习模型评价_生成模型综述_49进行表达:其中sklearn无监督学习模型评价_监督VS无监督_61分别表示权重参数与偏置信息。sklearn无监督学习模型评价_生成模型与判别模型_62
  • 最大熵马尔可夫模型(sklearn无监督学习模型评价_生成模型与判别模型_63):该模型的概率图结构表示如下: 这种概率图结构打破了观测独立性假设的约束。并且它直接对隐变量sklearn无监督学习模型评价_sklearn无监督学习模型评价_64的后验概率进行建模:sklearn无监督学习模型评价_监督VS无监督_65
  • 条件随机场(sklearn无监督学习模型评价_模型汇总_66) :该模型的概率图结构表示如下: 在给定观测变量sklearn无监督学习模型评价_sklearn无监督学习模型评价_67的条件下,直接对sklearn无监督学习模型评价_生成模型综述_68进行建模:关于这种链式的无向图结构,它的极大团内仅包含相邻的两个随机变量结点与观测变量结点,这里将极大团数量sklearn无监督学习模型评价_模型汇总_69替换为序列长度sklearn无监督学习模型评价_生成模型与判别模型_70;并且sklearn无监督学习模型评价_sklearn无监督学习模型评价_71表示能量函数,恒正;sklearn无监督学习模型评价_监督VS无监督_72表示配分函数。sklearn无监督学习模型评价_生成模型综述_73

从上述介绍的几种模型也能观察到:并不能将所有的隐变量模型武断地看作生成模型,对于判别模型与生成模型的界限存在新的认识。

无监督学习

基于无监督学习的概率模型

由于无监督学习中没有标签信息,仅包含样本特征,因此无法通过标签信息进行判别。因而基于无监督的概率模型只有概率生成模型。这里所说的概率分布只会是样本sklearn无监督学习模型评价_sklearn无监督学习模型评价_24的概率分布,在下面统一介绍。

基于无监督学习的非概率模型

关于无监督学习的非概率模型主要针对于特定任务。如:

  • 降维-主成分分析(sklearn无监督学习模型评价_模型汇总_75):在执行去中心化操作后,找到主成分sklearn无监督学习模型评价_生成模型综述_76,使sklearn无监督学习模型评价_生成模型综述_76满足如下条件:sklearn无监督学习模型评价_生成模型与判别模型_78
  • 其他的非概率模型如用于聚类任务的sklearn无监督学习模型评价_模型汇总_79,以及自编码器(sklearn无监督学习模型评价_模型汇总_80)等等。

生成模型介绍

关于生成模型,将其从监督任务、非监督任务进行划分,意义不大。因而统一进行描述。首先需要排除一些错误认知:

  • 概率图模型,特别是隐变量模型,并不全是生成模型。 如上面介绍的最大熵马尔可夫模型、条件随机场,它们是判别模型。只能说概率图模型中的大部分模型是生成模型。
  • 相反,生成模型也并不全是概率图模型,例如神经网络。
  • 在处理回归任务中,前馈神经网络结构可以视作非概率模型。如线性回归(sklearn无监督学习模型评价_模型汇总_81);
  • 在处理硬分类任务中,如前馈神经网络处理亦或问题,此时的前馈神经网络结构可以视作非概率的判别模型;
  • 在处理软分类任务,如逻辑回归,此时的前馈神经网络结构可以视作概率判别模型;
  • 在无监督学习任务中,针对非概率模型有自编码器(sklearn无监督学习模型评价_模型汇总_82);
  • 基于神经网络的分布式表示思想,通过神经网络实现特征提取,此时的神经网络可以被划分至概率生成模型。

也就是说,生成模型横跨了概率图模型以及深度学习,特别是将神经网络与概率图模型混合的产物——深度生成模型(sklearn无监督学习模型评价_生成模型综述_83)

  • 在介绍的生成模型中,假设最简单的生成模型——朴素贝叶斯分类器(sklearn无监督学习模型评价_模型汇总_84),它的核心是朴素贝叶斯假设:sklearn无监督学习模型评价_生成模型与判别模型_85 主要应用在监督学习的分类任务,对应的概率图结构表示如下:很明显,它并不是混合模型。sklearn无监督学习模型评价_生成模型综述_86是随机变量,表示样本自身的各维度特征;sklearn无监督学习模型评价_监督VS无监督_06表示样本对应的标签信息。
  • 混合模型系列,仅通过样本自身特征信息无法准确描述概率分布,需要引入隐变量sklearn无监督学习模型评价_监督VS无监督_88进行建模。如高斯混合模型(sklearn无监督学习模型评价_生成模型与判别模型_89),其中sklearn无监督学习模型评价_监督VS无监督_88被假设为一维、离散型随机变量,并且sklearn无监督学习模型评价_模型汇总_91服从高斯分布:根据实际情况,也可以将其设置为其他分布,构建不同的混合模型。sklearn无监督学习模型评价_模型汇总_92 对应的建模过程表示为:关于包含隐变量生成模型的建模过程主要是对联合概率分布sklearn无监督学习模型评价_生成模型与判别模型_93进行建模。sklearn无监督学习模型评价_监督VS无监督_94 主要应用在无监督学习的聚类任务。其概率图结构表示如下:
  • 动态模型(sklearn无监督学习模型评价_sklearn无监督学习模型评价_95)系列:从时间、序列角度随机变量从有限到无限。代表模型有隐马尔可夫模型(sklearn无监督学习模型评价_生成模型与判别模型_96),卡尔曼滤波(sklearn无监督学习模型评价_sklearn无监督学习模型评价_97),粒子滤波(sklearn无监督学习模型评价_生成模型与判别模型_98)。它们均服从齐次马尔可夫假设与观测独立性假设:sklearn无监督学习模型评价_生成模型综述_99 对应的概率图结构表示如下:
  • 从空间角度的随机变量从有限到无限,代表模型有高斯过程(sklearn无监督学习模型评价_生成模型综述_100),准确的说,高斯过程是联合正态分布的无限维的广义延伸,主要应用在高维的非线性回归任务中:由于连续域中的片段是无法划分完的,因此仅示例sklearn无监督学习模型评价_sklearn无监督学习模型评价_101个重要片段。后续补充:狄利克雷过程~sklearn无监督学习模型评价_监督VS无监督_102
  • 对比于高斯分布,仅需要知道该分布的参数(均值、方差),就可以确定一个高斯分布;
  • 高斯过程中,连续域中的任意一个片段均服从一个高斯分布,它的参数可能是无限个。如高斯过程这种参数空间从有限到无限的模型,被称作 非参数贝叶斯模型(sklearn无监督学习模型评价_模型汇总_103)。
  • 以隐狄利克雷分配(sklearn无监督学习模型评价_生成模型综述_104)为代表的sklearn无监督学习模型评价_sklearn无监督学习模型评价_105
  • 以因子分析(sklearn无监督学习模型评价_生成模型综述_106)为代表的因子模型(sklearn无监督学习模型评价_生成模型综述_107),其他模型有概率性主成分分析(sklearn无监督学习模型评价_模型汇总_108)等。

后续模型就是概率图模型与深度学习相结合的概率生成模型——深度生成模型。

  • 以玻尔兹曼机(sklearn无监督学习模型评价_生成模型综述_109)为代表的能量模型(sklearn无监督学习模型评价_监督VS无监督_110)。玻尔兹曼机的概率图结构表示如下: 对应的模型表示为(对联合概率分布sklearn无监督学习模型评价_sklearn无监督学习模型评价_111进行建模。下同):其中sklearn无监督学习模型评价_监督VS无监督_112分别表示包含边相关联结点之间的能量表达;sklearn无监督学习模型评价_生成模型与判别模型_113分别表示各结点内部的能量表达(sklearn无监督学习模型评价_模型汇总_114可看作偏置信息)sklearn无监督学习模型评价_监督VS无监督_115 其中包括受限玻尔兹曼机(sklearn无监督学习模型评价_生成模型与判别模型_116),对应概率图结构表示如下: 对应模型表示为:和玻尔兹曼机相比,受限玻尔兹曼机隐变量、观测变量内部各随机变量相互独立。sklearn无监督学习模型评价_sklearn无监督学习模型评价_117sklearn无监督学习模型评价_监督VS无监督_08信念网络(sklearn无监督学习模型评价_生成模型综述_119),它的概率图结构表示如下: 对应模型表示为:由于sklearn无监督学习模型评价_sklearn无监督学习模型评价_37信念网络是有向图模型,因而可以通过结点之间的因果关系对模型进行表示。sklearn无监督学习模型评价_sklearn无监督学习模型评价_121深度信念网络(sklearn无监督学习模型评价_生成模型综述_122),它的概率图结构表示如下: 对应模型表示为:sklearn无监督学习模型评价_sklearn无监督学习模型评价_123深度玻尔兹曼机(sklearn无监督学习模型评价_监督VS无监督_124),它的概率图结构表示如下:
  • 将神经网络与概率相结合的生成模型。 如:变分自编码器(sklearn无监督学习模型评价_监督VS无监督_125),它的概率图结构依然是混合模型(引入隐变量模型)的概率图结构。生成对抗网络(sklearn无监督学习模型评价_sklearn无监督学习模型评价_126),其计算图结构表示如下: 以及流模型(sklearn无监督学习模型评价_生成模型综述_127)和自回归模型(sklearn无监督学习模型评价_监督VS无监督_128)。

相关参考:生成模型2-监督VS非监督