sklearn无监督学习模型评价

转载

技术博主 2024-08-12 17:16:19

文章标签 sklearn无监督学习模型评价监督VS无监督模型汇总生成模型与判别模型生成模型综述 文章分类 机器学习人工智能

机器学习笔记之生成模型综述——监督学习与无监督学习

引言

回顾：生成模型介绍

判别方式：生成模型 $\text{VS}$
生成模型的建模手段

监督学习与无监督学习

监督学习模型

基于监督学习的非概率模型
基于监督学习的概率模型

无监督学习

基于无监督学习的概率模型
基于无监督学习的非概率模型

生成模型介绍

引言

上一节介绍了生成模型的判别方式，本节将从机器学习需要解决的任务——监督学习、无监督学习的角度，对现阶段经典模型进行总结。

回顾：生成模型介绍

判别方式：生成模型 $sklearn无监督学习模型评价_模型汇总$

生成模型( $sklearn无监督学习模型评价_生成模型与判别模型_02$ )的核心判别方式是：建模所关注的对象是否在样本分布自身。例如逻辑回归与朴素贝叶斯分类器。虽然这两个算法均处理基于监督学习的分类任务，并且均是软分类算法，但关注点截然不同：

逻辑回归( $sklearn无监督学习模型评价_监督VS无监督_03$ )的底层逻辑是最大熵原理，通过 $sklearn无监督学习模型评价_模型汇总_04$ 函数直接对后验概率 $sklearn无监督学习模型评价_监督VS无监督_05$ 进行描述：以二分类为例，此时 $sklearn无监督学习模型评价_监督VS无监督_06$ 服从伯努利分布。 $sklearn无监督学习模型评价_模型汇总_07$ 很明显，这里我们仅关注 $sklearn无监督学习模型评价_监督VS无监督_08$ 函数结果。而 $sklearn无监督学习模型评价_模型汇总_09$ 的特征信息仅作为与模型参数 $sklearn无监督学习模型评价_模型汇总_10$ 做内积的工具而已，并不是我们关注的对象；
朴素贝叶斯分类器( $sklearn无监督学习模型评价_模型汇总_11$ )针对后验概率 $sklearn无监督学习模型评价_监督VS无监督_05$ ，通过贝叶斯定理将其转化为 $sklearn无监督学习模型评价_生成模型与判别模型_13$ 之间的大小关系：

关于分母 $sklearn无监督学习模型评价_模型汇总_14$ 的完整形式是 $sklearn无监督学习模型评价_sklearn无监督学习模型评价_15$ ,该项自身与 $sklearn无监督学习模型评价_生成模型与判别模型_16$ 无关，可视作常数。
这里依然以二分类为例, $sklearn无监督学习模型评价_生成模型与判别模型_16$ 同样服从伯努利分布。 $sklearn无监督学习模型评价_生成模型与判别模型_18$

在这里，我们关注的对象是联合概率分布 $sklearn无监督学习模型评价_sklearn无监督学习模型评价_19$ 。并且针对 $sklearn无监督学习模型评价_sklearn无监督学习模型评价_19$ 建模的过程中，设计了朴素贝叶斯假设： $sklearn无监督学习模型评价_模型汇总_21$

生成模型的建模手段

如果针对监督学习，自带标签信息 $sklearn无监督学习模型评价_监督VS无监督_22$ ，例如朴素贝叶斯分类器，通常针对联合概率分布 $sklearn无监督学习模型评价_监督VS无监督_23$ 进行建模；

如果是无监督学习，此时只有样本特征 $sklearn无监督学习模型评价_sklearn无监督学习模型评价_24$ ，主要分为两种情况：

如自回归模型( $sklearn无监督学习模型评价_模型汇总_25$ )，它直接对 $sklearn无监督学习模型评价_sklearn无监督学习模型评价_26$ 自身进行建模；
隐变量模型( $sklearn无监督学习模型评价_监督VS无监督_27$ )，通过假设隐变量 $sklearn无监督学习模型评价_模型汇总_28$ ，对联合概率分布 $sklearn无监督学习模型评价_sklearn无监督学习模型评价_29$ 进行建模。

监督学习与无监督学习

从机器学习任务的角度观察：

分类( $sklearn无监督学习模型评价_监督VS无监督_30$ )、回归( $sklearn无监督学习模型评价_生成模型综述_31$ ) 等明显属于监督学习任务；
而像降维( $sklearn无监督学习模型评价_生成模型综述_32$ )、聚类( $sklearn无监督学习模型评价_监督VS无监督_33$ )、数据生成( $sklearn无监督学习模型评价_生成模型与判别模型_34$ ) 等属于无监督学习任务。

无论是监督学习还是无监督学习，都可以将其划分为概率模型与非概率模型。这里的概率模型/非概率模型是指：在建模的过程中，其关于任务的返回结果是否考虑了概率分布。换句话说，概率是否直接参与到相关任务中去。

监督学习模型

基于监督学习的非概率模型

监督学习中的非概率模型，大方向指的是判别模型。在分类任务中，硬分类模型都是非概率模型。

感知机算法( $sklearn无监督学习模型评价_生成模型综述_35$ ) ：硬分类任务的对应模型均表示特征空间的超平面。区别在于样本划分的策略(模型表示后略)：其中 $sklearn无监督学习模型评价_生成模型综述_36$ 函数表示指示函数，在硬分类任务中，其大多指的是分段函数；而在软分类任务中，它可以是如 $sklearn无监督学习模型评价_sklearn无监督学习模型评价_37$ 函数的连续函数。 $sklearn无监督学习模型评价_模型汇总_38$ 感知机算法的策略是错误驱动： $sklearn无监督学习模型评价_监督VS无监督_39$
硬间隔-支持向量机( $sklearn无监督学习模型评价_sklearn无监督学习模型评价_40$ )，区别其他的硬分类模型，它是一个带约束的优化问题： $sklearn无监督学习模型评价_监督VS无监督_41$
线性判别分析( $sklearn无监督学习模型评价_sklearn无监督学习模型评价_42$ )：以二分类为例，通过描述被超平面划分样本点的类内、类间关系，来确定模型参数信息。其策略表示如下： $sklearn无监督学习模型评价_生成模型与判别模型_43$
多层感知机/前馈神经网络( $sklearn无监督学习模型评价_生成模型综述_44$ )：其核心是通用逼近定理。

关于神经网络处理硬分类问题，例如亦或问题，可以将其视作非概率判别模型；基于亦或问题的前馈神经网络结构表示如下。
如果是软分类问题，如在网络输出层加上 $sklearn无监督学习模型评价_监督VS无监督_45$ 函数作为输出，它此时被视作概率判别模型。 $sklearn无监督学习模型评价_监督VS无监督_45$ 函数将输出结果映射成了概率分布形式，并且是以 $sklearn无监督学习模型评价_模型汇总_47$ 作为输入层，关于 $sklearn无监督学习模型评价_生成模型与判别模型_16$ 的后验概率 $sklearn无监督学习模型评价_生成模型综述_49$ .
如果是回归任务，并不称其为判别模型，能够确定的是，它是一个非概率模型。

除了基于直线/超平面形状的硬分类算法，还如其他算法如决策树( $sklearn无监督学习模型评价_sklearn无监督学习模型评价_50$ )等其他树模型也属于监督学习中的非概率模型。

基于监督学习的概率模型

监督学习中的概率模型可以继续向下划分，可划分为概率判别模型( $sklearn无监督学习模型评价_模型汇总_51$ )和概率生成模型( $sklearn无监督学习模型评价_生成模型与判别模型_02$ )两种：‘概率生成模型’在末尾统一介绍。

其中概率判别模型的核心思想是：直接对条件概率 $sklearn无监督学习模型评价_生成模型综述_53$ 进行建模。经典的概率判别模型有：

逻辑回归( $sklearn无监督学习模型评价_生成模型综述_54$ )：它的模型结构与其他分类任务的非概率模型相同，均是特征空间的直线/超平面：这里的 $sklearn无监督学习模型评价_监督VS无监督_55$ 函数指的是 $sklearn无监督学习模型评价_监督VS无监督_56$ 函数自身。 $sklearn无监督学习模型评价_生成模型与判别模型_57$ 假设标签信息 $sklearn无监督学习模型评价_生成模型与判别模型_16$ 服从伯努利分布，逻辑回归使用 $sklearn无监督学习模型评价_监督VS无监督_56$ 函数直接对 $sklearn无监督学习模型评价_生成模型综述_49$ 进行表达：其中 $sklearn无监督学习模型评价_监督VS无监督_61$ 分别表示权重参数与偏置信息。 $sklearn无监督学习模型评价_生成模型与判别模型_62$
最大熵马尔可夫模型( $sklearn无监督学习模型评价_生成模型与判别模型_63$ )：该模型的概率图结构表示如下：这种概率图结构打破了观测独立性假设的约束。并且它直接对隐变量 $sklearn无监督学习模型评价_sklearn无监督学习模型评价_64$ 的后验概率进行建模： $sklearn无监督学习模型评价_监督VS无监督_65$
条件随机场( $sklearn无监督学习模型评价_模型汇总_66$ ) ：该模型的概率图结构表示如下：在给定观测变量 $sklearn无监督学习模型评价_sklearn无监督学习模型评价_67$ 的条件下，直接对 $sklearn无监督学习模型评价_生成模型综述_68$ 进行建模：关于这种链式的无向图结构，它的极大团内仅包含相邻的两个随机变量结点与观测变量结点，这里将极大团数量 $sklearn无监督学习模型评价_模型汇总_69$ 替换为序列长度 $sklearn无监督学习模型评价_生成模型与判别模型_70$ ;并且 $sklearn无监督学习模型评价_sklearn无监督学习模型评价_71$ 表示能量函数，恒正; $sklearn无监督学习模型评价_监督VS无监督_72$ 表示配分函数。 $sklearn无监督学习模型评价_生成模型综述_73$

从上述介绍的几种模型也能观察到：并不能将所有的隐变量模型武断地看作生成模型，对于判别模型与生成模型的界限存在新的认识。

无监督学习

基于无监督学习的概率模型

由于无监督学习中没有标签信息，仅包含样本特征，因此无法通过标签信息进行判别。因而基于无监督的概率模型只有概率生成模型。这里所说的概率分布只会是样本 $sklearn无监督学习模型评价_sklearn无监督学习模型评价_24$ 的概率分布，在下面统一介绍。

基于无监督学习的非概率模型

关于无监督学习的非概率模型主要针对于特定任务。如：

降维-主成分分析( $sklearn无监督学习模型评价_模型汇总_75$ )：在执行去中心化操作后，找到主成分 $sklearn无监督学习模型评价_生成模型综述_76$ ，使 $sklearn无监督学习模型评价_生成模型综述_76$ 满足如下条件： $sklearn无监督学习模型评价_生成模型与判别模型_78$
其他的非概率模型如用于聚类任务的 $sklearn无监督学习模型评价_模型汇总_79$ ，以及自编码器( $sklearn无监督学习模型评价_模型汇总_80$ )等等。

生成模型介绍

关于生成模型，将其从监督任务、非监督任务进行划分，意义不大。因而统一进行描述。首先需要排除一些错误认知：

概率图模型，特别是隐变量模型，并不全是生成模型。如上面介绍的最大熵马尔可夫模型、条件随机场，它们是判别模型。只能说概率图模型中的大部分模型是生成模型。
相反，生成模型也并不全是概率图模型，例如神经网络。

在处理回归任务中，前馈神经网络结构可以视作非概率模型。如线性回归( $sklearn无监督学习模型评价_模型汇总_81$ )；
在处理硬分类任务中，如前馈神经网络处理亦或问题，此时的前馈神经网络结构可以视作非概率的判别模型；
在处理软分类任务，如逻辑回归，此时的前馈神经网络结构可以视作概率判别模型；
在无监督学习任务中，针对非概率模型有自编码器( $sklearn无监督学习模型评价_模型汇总_82$ )；
基于神经网络的分布式表示思想，通过神经网络实现特征提取，此时的神经网络可以被划分至概率生成模型。

也就是说，生成模型横跨了概率图模型以及深度学习，特别是将神经网络与概率图模型混合的产物——深度生成模型( $sklearn无监督学习模型评价_生成模型综述_83$ )

在介绍的生成模型中，假设最简单的生成模型——朴素贝叶斯分类器( $sklearn无监督学习模型评价_模型汇总_84$ )，它的核心是朴素贝叶斯假设： $sklearn无监督学习模型评价_生成模型与判别模型_85$ 主要应用在监督学习的分类任务，对应的概率图结构表示如下：很明显，它并不是混合模型。 $sklearn无监督学习模型评价_生成模型综述_86$ 是随机变量，表示样本自身的各维度特征; $sklearn无监督学习模型评价_监督VS无监督_06$ 表示样本对应的标签信息。
混合模型系列，仅通过样本自身特征信息无法准确描述概率分布，需要引入隐变量 $sklearn无监督学习模型评价_监督VS无监督_88$ 进行建模。如高斯混合模型( $sklearn无监督学习模型评价_生成模型与判别模型_89$ )，其中 $sklearn无监督学习模型评价_监督VS无监督_88$ 被假设为一维、离散型随机变量，并且 $sklearn无监督学习模型评价_模型汇总_91$ 服从高斯分布：根据实际情况，也可以将其设置为其他分布，构建不同的混合模型。 $sklearn无监督学习模型评价_模型汇总_92$ 对应的建模过程表示为：关于包含隐变量生成模型的建模过程主要是对联合概率分布 $sklearn无监督学习模型评价_生成模型与判别模型_93$ 进行建模。 $sklearn无监督学习模型评价_监督VS无监督_94$ 主要应用在无监督学习的聚类任务。其概率图结构表示如下：
动态模型( $sklearn无监督学习模型评价_sklearn无监督学习模型评价_95$ )系列：从时间、序列角度随机变量从有限到无限。代表模型有隐马尔可夫模型( $sklearn无监督学习模型评价_生成模型与判别模型_96$ )，卡尔曼滤波( $sklearn无监督学习模型评价_sklearn无监督学习模型评价_97$ )，粒子滤波( $sklearn无监督学习模型评价_生成模型与判别模型_98$ )。它们均服从齐次马尔可夫假设与观测独立性假设： $sklearn无监督学习模型评价_生成模型综述_99$ 对应的概率图结构表示如下：
从空间角度的随机变量从有限到无限，代表模型有高斯过程( $sklearn无监督学习模型评价_生成模型综述_100$ )，准确的说，高斯过程是联合正态分布的无限维的广义延伸，主要应用在高维的非线性回归任务中：由于连续域中的片段是无法划分完的，因此仅示例 $sklearn无监督学习模型评价_sklearn无监督学习模型评价_101$ 个重要片段。后续补充:狄利克雷过程~ $sklearn无监督学习模型评价_监督VS无监督_102$

对比于高斯分布，仅需要知道该分布的参数(均值、方差)，就可以确定一个高斯分布；
高斯过程中，连续域中的任意一个片段均服从一个高斯分布，它的参数可能是无限个。如高斯过程这种参数空间从有限到无限的模型，被称作非参数贝叶斯模型( $sklearn无监督学习模型评价_模型汇总_103$ )。

以隐狄利克雷分配( $sklearn无监督学习模型评价_生成模型综述_104$ )为代表的 $sklearn无监督学习模型评价_sklearn无监督学习模型评价_105$ 。
以因子分析( $sklearn无监督学习模型评价_生成模型综述_106$ )为代表的因子模型( $sklearn无监督学习模型评价_生成模型综述_107$ )，其他模型有概率性主成分分析( $sklearn无监督学习模型评价_模型汇总_108$ )等。

后续模型就是概率图模型与深度学习相结合的概率生成模型——深度生成模型。

以玻尔兹曼机( $sklearn无监督学习模型评价_生成模型综述_109$ )为代表的能量模型( $sklearn无监督学习模型评价_监督VS无监督_110$ )。玻尔兹曼机的概率图结构表示如下：对应的模型表示为(对联合概率分布 $sklearn无监督学习模型评价_sklearn无监督学习模型评价_111$ 进行建模。下同)：其中 $sklearn无监督学习模型评价_监督VS无监督_112$ 分别表示包含边相关联结点之间的能量表达; $sklearn无监督学习模型评价_生成模型与判别模型_113$ 分别表示各结点内部的能量表达( $sklearn无监督学习模型评价_模型汇总_114$ 可看作偏置信息) $sklearn无监督学习模型评价_监督VS无监督_115$ 其中包括受限玻尔兹曼机( $sklearn无监督学习模型评价_生成模型与判别模型_116$ )，对应概率图结构表示如下：对应模型表示为：和玻尔兹曼机相比，受限玻尔兹曼机隐变量、观测变量内部各随机变量相互独立。 $sklearn无监督学习模型评价_sklearn无监督学习模型评价_117$ $sklearn无监督学习模型评价_监督VS无监督_08$ 信念网络( $sklearn无监督学习模型评价_生成模型综述_119$ )，它的概率图结构表示如下：对应模型表示为：由于 $sklearn无监督学习模型评价_sklearn无监督学习模型评价_37$ 信念网络是有向图模型，因而可以通过结点之间的因果关系对模型进行表示。 $sklearn无监督学习模型评价_sklearn无监督学习模型评价_121$ 深度信念网络( $sklearn无监督学习模型评价_生成模型综述_122$ )，它的概率图结构表示如下：对应模型表示为： $sklearn无监督学习模型评价_sklearn无监督学习模型评价_123$ 深度玻尔兹曼机( $sklearn无监督学习模型评价_监督VS无监督_124$ )，它的概率图结构表示如下：
将神经网络与概率相结合的生成模型。如：变分自编码器( $sklearn无监督学习模型评价_监督VS无监督_125$ )，它的概率图结构依然是混合模型(引入隐变量模型)的概率图结构。生成对抗网络( $sklearn无监督学习模型评价_sklearn无监督学习模型评价_126$ )，其计算图结构表示如下：以及流模型( $sklearn无监督学习模型评价_生成模型综述_127$ )和自回归模型( $sklearn无监督学习模型评价_监督VS无监督_128$ )。