本文主要讲了一下我对最大似然、最小二乘法、最大后验、以及误差度量的准确率和召回率的浅略个人见解。
文章目录
- 最大似然和最小二乘法
- 最大似然估计:
- 最大似然估计的一般求解步骤编辑
- 最小二乘法:
- 总结:
- 参考文档:
- 最大似然和最大后验
- 参考文档:
- 准确率和召回率
最大似然和最小二乘法
最大似然估计:
百度解释:最大似然估计(maximum likelihood estimation, MLE)一种重要而普遍的求估计量的方法。最大似然法明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树。最大似然法是一类完全基于统计的系统发生树重建方法的代表。
最大似然估计的一般求解步骤编辑
基于对似然函数L(θ)形式(一般为连乘式且各因式>0)的考虑,求θ的最大似然估计的一般步骤如下:
(1)写出似然函数
总体X为离散型时:
总体X为连续型时:
(2)对似然函数两边取对数有
总体X为离散型时:
总体X为连续型时:
(3)对 求导数并令之为0:
此方程为对数似然方程。解对数似然方程所得,即为未知参数 的最大似然估计值。 [1]
我个人的认知:最大似然估计就是在我们已经知道观测的数据和相对应的结果时,要找出一个theta值来使取得这个结果的概率最大。
最小二乘法:
百度解释:最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
我的个人理解:在我们对一组(x,y)数据进行研究时,这些成对的数据会很妙的在二维平面坐标系中落在一条直线的附近。最小二乘法就是通过“残差平方和最小”的方式来确定这条直线。我个人认为是点到直线的距离最小。
总结:
最大似然的核心是自恋,相信自己看到的命中注定的最接近真相的;
最小二乘法的核心是权衡,在所有的直线中挑选距离最短的。
最大似然和最大后验
这段我以后会加上个人了解,这篇文章的解释相对清晰。
极大似然估计与最大后验概率估计
我们这有一个任务,就是根据已知的一堆数据样本,来推测产生该数据的模型的参数,即已知数据,推测模型和参数。因此根据两大派别的不同,对于模型的参数估计方法也有两类:极大似然估计与最大后验概率估计。
① 极大似然估计(MLE)
-她是频率学派模型参数估计的常用方法。
-顾名思义:似然,可以简单理解为概率、可能性,也就是说要最大化该事件发生的可能性
-她的含义是根据已知样本,希望通过调整模型参数来使得模型能够最大化样本情况出现的概率。
- 在这举个猜黑球的例子:假如一个盒子里面有红黑共10个球,每次有放回的取出,取了10次,结果为7次黑球,3次红球。问拿出黑球的概率 p 是多少?
我们假设7次黑球,3次红球为事件 A ,一个理所当然的想法就是既然事件 A已经发生了,那么事件 A 发生的概率应该最大。所以既然事件 A 的结果已定, 我们就有理由相信这不是一个偶然发生的事件,这个已发生的事件肯定一定程度上反映了黑球在整体中的比例。所以我们要让模型产生这个整体事件的概率最大,我们把这十次抽取看成一个整体事件 A ,很明显事件 A 发生的概率是每个子事件概率之积。我们把 P(A) 看成一个关于 p 的函数,求 P(A) 取最大值时的 p ,这就是极大似然估计的思想。具体公式化描述为P(A)=p7*(1-p)3。
接下来就是取对数转换为累加,然后通过求导令式子为0来求极值,求出p的结果。
② 最大后验概率估计(MAP)
-她是贝叶斯派模型参数估计的常用方法。
-顾名思义:就是最大化在给定数据样本的情况下模型参数的后验概率
-她依然是根据已知样本,来通过调整模型参数使得模型能够产生该数据样本的概率最大,只不过对于模型参数有了一个先验假设,即模型参数可能满足某种分布,不再一味地依赖数据样例(万一数据量少或者数据不靠谱呢)。
-在这里举个掷硬币的例子:抛一枚硬币10次,有10次正面朝上,0次反面朝上。问正面朝上的概率p。
在频率学派来看,利用极大似然估计可以得到 p= 10 / 10 = 1.0。显然当缺乏数据时MLE可能会产生严重的偏差。
如果我们利用极大后验概率估计来看这件事,先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布),那么P(p|X),是一个分布,最大值会介于0.5~1之间,而不是武断的给出p= 1。
显然,随着数据量的增加,参数分布会更倾向于向数据靠拢,先验假设的影响会越来越小。
准确率和召回率
讲这个之前,我们先来介绍一下真真假假阴阴阳阳的对数据集的预测。真的怕搞昏了,所以请跟紧我的思路:
首先明确:我们下面说的所有的真真假假的判断标准都是基于我们预测的情况与真是的情况是否一致,比如说,当我们猜对了的时候,它就是真,猜错了就是假;至于阴阳,就是我们猜它为阳,它就是阳,猜它为阴,就是阴。最后再将这两种情况相结合就可以推断出它的真假阴阳性了。
现在我来解释一下两两结果相组合出的四种结果性:
TP 真阳性:我们猜测它为阳性,并且我们猜对了。实际为阳。
TN 真阴性:我们猜测它为阴性,并且我们猜对了。实际为阴。
FP 假阳性:我们猜测它为阳性,但是我们猜错了。实际为阴。
FP 假阴性:我们猜测它为阴性,但是我们猜错了。实际为阳。
准确率(Precision): 真阳性 /(真阳性+假阳性)
=真阳性 /(全部我们猜测它为真的)
召回率(Recall): 真阳性 / (真阳性+假阴性)
= 真阳性 / (全部真实情况为阳性的)
通常来说,准确率和召回率一般为互斥的,我们一般根据不同的场景来选择不同的侧重方向。
场景1:当我们要从人群数据中找出犯罪分子的数据时,会强调准确率。
场景2:当我们对病人进行疾病的确诊时,会侧重于召回率。