一、贝叶斯决策的基本思想
决策,就是根据观测对样本做出应该归属哪一类的判断和决策,分类就可以看作是一种简单的决策。
为了更好地理解贝叶斯决策,来举个栗子先——猜硬币,是我小时候最爱玩的,哈哈。假设有一枚不知道面值的硬币,让你来猜是多少钱的硬币,那么你该怎么做呢?很简单,做一个分类决策,从各种可能的结果中进行决策,如果告诉你这枚硬币要么是五毛的要么是一块的,显然这就是最简单的两类问题辣。当然,在我什么都不知道的情况下,我可能会根据,在我的印象中哪种硬币出现的概率更大,更频繁出现,我就选择那个出现概率最大类的决策。这里,把硬币记作x,五毛类记为w1,一元类记为w2,两者出现的概率记为P(w1),P(w2),那么该决策规则可以表示为:
,很显然,这种决策出错的概率会很小;在所有可能出现的样本上类别决策错误的概率叫做错误率,因此上式的准则就叫做最小错误率准则,因为对每一枚硬币都按照错误概率最小的原则进行决策,那么这种决策在所有可能出现的独立样本上的错误率就最小。这里不考虑概率相同的情况,因为对两类来说,决策效果是一样的。
另外,上述决策方法中,我们还用到了先验概率(priori probability),即在没有对样本进行任何观测情况下的概率,就叫做先验概率。
接下来,我想到了另外一个办法,我可以通过称量一下硬币的重量来判断啊,就是这么任性,我把得到的重量记为x,同样的,我开始计算在已知重量的情况下属于哪一类的概率大小,这里我们用到了所谓的后验概率(posterior probability),分别记为P(w1|x),P(w2|x),跟上面的决策思路一样,这里我们也可以这样表示:
,显然,这种决策仍然是最小错误率决策,但是我的疑问出来了,这里的后验概率我如何得知呢?好,我翻开概率论与概率统计,很快找到了答案,那就是大名鼎鼎的‘贝叶斯’,回顾一下贝叶斯公式,是这样的:
其中,P(wi)是先验概率,p(x,wi)是联合概率密度,p(x)是两类硬币重量的总体概率密度,p(x|wi)是第i类重量的概率密度,叫做类条件概率密度;利用贝叶斯公式,后验概率就很easy的转化成了先验概率与类条件概率密度的乘积,再用总体密度进行归一化。对于各类而言,重量的总体密度是一样的,因此可以忽略分母的比较,转化为分子的比较,于是决策可以改写为:
先验概率可以根据两类硬币的流通比例来获得,而类条件概率密度则需要用某类的一定数量的训练样本来进行估计得到。
好啦,说了这么久,我们的主题终于出来辣,上述的决策就是所谓的贝叶斯决策,又叫统计决策,它的基本思想如下:在类条件概率密度和先验概率已知或可估计的情况下,利用贝叶斯公式比较样本属于各类的后验概率,进而将类别决策为后验概率最大的一类,这样做的目的同样是保证错误率最小。
假设样本x是由d维实数特征组成,特殊地对于两类问题,根据贝叶斯决策,在样本x上的错误率(条件错误率)为:
这里,我们把错误率定义为所有服从同一个分布的独立样本上条件错误概率的期望E:
对应的,在所有样本上做出正确决策的概率就是正确率,记作P(c),P(c)=1-P(e);
当然,可以看得出,这里的栗子并不是很贴切,因为五角和一元的硬币通常重量相差并不微弱,我们在通过称重后就大概知道硬币的归属类别,于是类条件概率密度就近似是一个均值处的冲激函数,对于贝叶斯决策其实并没有实际意义,但是弄懂了叶斯决策的基本思想就行,哈哈。
二、贝叶斯决策的几种常用标准
常用标准主要有:
最小错误率准则;
最小风险准则;
在限定一类错误率条件下使得另一类错误率为最小的准则;
最小最大决策准则;