机器学习笔记之生成模型综述——监督学习与无监督学习
- 引言
- 回顾:生成模型介绍
- 判别方式:生成模型 VS \text{VS} VS
- 生成模型的建模手段
- 监督学习与无监督学习
- 监督学习模型
- 基于监督学习的非概率模型
- 基于监督学习的概率模型
- 无监督学习
- 基于无监督学习的概率模型
- 基于无监督学习的非概率模型
- 生成模型介绍
引言
上一节介绍了生成模型的判别方式,本节将从机器学习需要解决的任务——监督学习、无监督学习的角度,对现阶段经典模型进行总结。
回顾:生成模型介绍
判别方式:生成模型 ![sklearn无监督学习模型评价_模型汇总](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%5Ctext%7BVS%7D%20)
生成模型()的核心判别方式是:建模所关注的对象是否在样本分布自身。例如逻辑回归与朴素贝叶斯分类器。虽然这两个算法均处理基于监督学习的分类任务,并且均是软分类算法,但关注点截然不同:
- 逻辑回归(
)的底层逻辑是最大熵原理,通过
函数直接对后验概率
进行描述:以二分类为例,此时
服从伯努利分布。
很明显,这里我们仅关注
函数结果。而
的特征信息仅作为与模型参数
做内积的工具而已,并不是我们关注的对象;
- 朴素贝叶斯分类器(
)针对后验概率
,通过贝叶斯定理将其转化为
之间的大小关系:
-
关于分母
的完整形式是
,该项自身与
无关,可视作常数。
-
这里依然以二分类为例,
同样服从伯努利分布。
在这里,我们关注的对象是联合概率分布。并且针对
建模的过程中,设计了朴素贝叶斯假设:
生成模型的建模手段
如果针对监督学习,自带标签信息,例如朴素贝叶斯分类器,通常针对联合概率分布
进行建模;
如果是无监督学习,此时只有样本特征,主要分为两种情况:
- 如自回归模型(
),它直接对
自身进行建模;
- 隐变量模型(
),通过假设隐变量
,对联合概率分布
进行建模。
监督学习与无监督学习
从机器学习任务的角度观察:
- 分类(
)、回归(
) 等明显属于监督学习任务;
- 而像降维(
)、聚类(
)、数据生成(
) 等属于无监督学习任务。
无论是监督学习还是无监督学习,都可以将其划分为概率模型与非概率模型。这里的概率模型/非概率模型是指:在建模的过程中,其关于任务的返回结果是否考虑了概率分布。换句话说,概率是否直接参与到相关任务中去。
监督学习模型
基于监督学习的非概率模型
监督学习中的非概率模型,大方向指的是判别模型。在分类任务中,硬分类模型都是非概率模型。
-
感知机算法(
) :硬分类任务的对应模型均表示特征空间的超平面。区别在于样本划分的策略(模型表示后略):其中
函数表示指示函数,在硬分类任务中,其大多指的是分段函数;而在软分类任务中,它可以是如
函数的连续函数。
感知机算法的策略是错误驱动:
-
硬间隔-支持向量机(
),区别其他的硬分类模型,它是一个带约束的优化问题:
-
线性判别分析(
):以二分类为例,通过描述被超平面划分样本点的类内、类间关系,来确定模型参数信息。其策略表示如下:
- 多层感知机/前馈神经网络(
):其核心是通用逼近定理。
- 关于神经网络处理硬分类问题,例如亦或问题,可以将其视作非概率判别模型;基于亦或问题的前馈神经网络结构表示如下。
- 如果是软分类问题,如在网络输出层加上
函数作为输出,它此时被视作概率判别模型。
函数将输出结果映射成了概率分布形式,并且是以
作为输入层,关于
的后验概率
.
- 如果是回归任务,并不称其为判别模型,能够确定的是,它是一个非概率模型。
- 除了基于直线/超平面形状的硬分类算法,还如其他算法如决策树(
)等其他树模型也属于监督学习中的非概率模型。
基于监督学习的概率模型
监督学习中的概率模型可以继续向下划分,可划分为概率判别模型()和概率生成模型(
)两种:‘概率生成模型’在末尾统一介绍。
- 其中概率判别模型的核心思想是:直接对条件概率
进行建模 。经典的概率判别模型有:
-
逻辑回归(
):它的模型结构与其他分类任务的非概率模型相同,均是特征空间的直线/超平面:这里的
函数指的是
函数自身。
假设标签信息
服从伯努利分布,逻辑回归使用
函数直接对
进行表达:其中
分别表示权重参数与偏置信息。
- 最大熵马尔可夫模型(
):该模型的概率图结构表示如下: 这种概率图结构打破了观测独立性假设的约束。并且它直接对隐变量
的后验概率进行建模:
- 条件随机场(
) :该模型的概率图结构表示如下: 在给定观测变量
的条件下,直接对
进行建模:关于这种链式的无向图结构,它的极大团内仅包含相邻的两个随机变量结点与观测变量结点,这里将极大团数量
替换为序列长度
;并且
表示能量函数,恒正;
表示配分函数。
从上述介绍的几种模型也能观察到:并不能将所有的隐变量模型武断地看作生成模型,对于判别模型与生成模型的界限存在新的认识。
无监督学习
基于无监督学习的概率模型
由于无监督学习中没有标签信息,仅包含样本特征,因此无法通过标签信息进行判别。因而基于无监督的概率模型只有概率生成模型。这里所说的概率分布只会是样本的概率分布,在下面统一介绍。
基于无监督学习的非概率模型
关于无监督学习的非概率模型主要针对于特定任务。如:
-
降维-主成分分析(
):在执行去中心化操作后,找到主成分
,使
满足如下条件:
- 其他的非概率模型如用于聚类任务的
,以及自编码器(
)等等。
生成模型介绍
关于生成模型,将其从监督任务、非监督任务进行划分,意义不大。因而统一进行描述。首先需要排除一些错误认知:
- 概率图模型,特别是隐变量模型,并不全是生成模型。 如上面介绍的最大熵马尔可夫模型、条件随机场,它们是判别模型。只能说概率图模型中的大部分模型是生成模型。
- 相反,生成模型也并不全是概率图模型,例如神经网络。
- 在处理回归任务中,前馈神经网络结构可以视作非概率模型。如线性回归(
);
- 在处理硬分类任务中,如前馈神经网络处理亦或问题,此时的前馈神经网络结构可以视作非概率的判别模型;
- 在处理软分类任务,如逻辑回归,此时的前馈神经网络结构可以视作概率判别模型;
- 在无监督学习任务中,针对非概率模型有自编码器(
);
- 基于神经网络的分布式表示思想,通过神经网络实现特征提取,此时的神经网络可以被划分至概率生成模型。
也就是说,生成模型横跨了概率图模型以及深度学习,特别是将神经网络与概率图模型混合的产物——深度生成模型()
- 在介绍的生成模型中,假设最简单的生成模型——朴素贝叶斯分类器(
),它的核心是朴素贝叶斯假设:
主要应用在监督学习的分类任务,对应的概率图结构表示如下:很明显,它并不是混合模型。
是随机变量,表示样本自身的各维度特征;
表示样本对应的标签信息。
- 混合模型系列,仅通过样本自身特征信息无法准确描述概率分布,需要引入隐变量
进行建模。如高斯混合模型(
),其中
被假设为一维、离散型随机变量,并且
服从高斯分布:根据实际情况,也可以将其设置为其他分布,构建不同的混合模型。
对应的建模过程表示为:关于包含隐变量生成模型的建模过程主要是对联合概率分布
进行建模。
主要应用在无监督学习的聚类任务。其概率图结构表示如下:
- 动态模型(
)系列:从时间、序列角度随机变量从有限到无限。代表模型有隐马尔可夫模型(
),卡尔曼滤波(
),粒子滤波(
)。它们均服从齐次马尔可夫假设与观测独立性假设:
对应的概率图结构表示如下:
- 从空间角度的随机变量从有限到无限,代表模型有高斯过程(
),准确的说,高斯过程是联合正态分布的无限维的广义延伸,主要应用在高维的非线性回归任务中:由于连续域中的片段是无法划分完的,因此仅示例
个重要片段。后续补充:狄利克雷过程~
- 对比于高斯分布,仅需要知道该分布的参数(均值、方差),就可以确定一个高斯分布;
- 高斯过程中,连续域中的任意一个片段均服从一个高斯分布,它的参数可能是无限个。如高斯过程这种参数空间从有限到无限的模型,被称作 非参数贝叶斯模型(
)。
- 以隐狄利克雷分配(
)为代表的
。
- 以因子分析(
)为代表的因子模型(
),其他模型有概率性主成分分析(
)等。
后续模型就是概率图模型与深度学习相结合的概率生成模型——深度生成模型。
- 以玻尔兹曼机(
)为代表的能量模型(
)。玻尔兹曼机的概率图结构表示如下: 对应的模型表示为(对联合概率分布
进行建模。下同):其中
分别表示包含边相关联结点之间的能量表达;
分别表示各结点内部的能量表达(
可看作偏置信息)
其中包括受限玻尔兹曼机(
),对应概率图结构表示如下: 对应模型表示为:和玻尔兹曼机相比,受限玻尔兹曼机隐变量、观测变量内部各随机变量相互独立。
信念网络(
),它的概率图结构表示如下: 对应模型表示为:由于
信念网络是有向图模型,因而可以通过结点之间的因果关系对模型进行表示。
深度信念网络(
),它的概率图结构表示如下: 对应模型表示为:
深度玻尔兹曼机(
),它的概率图结构表示如下:
- 将神经网络与概率相结合的生成模型。 如:变分自编码器(
),它的概率图结构依然是混合模型(引入隐变量模型)的概率图结构。生成对抗网络(
),其计算图结构表示如下: 以及流模型(
)和自回归模型(
)。
相关参考:生成模型2-监督VS非监督