这句话导致了丹尼斯林德利对克伦威尔规则的定义,这提出了如果一个先验概率等于零(我知道某些事情不是真的)或一个(我知道某事是真的)的想法,然后,尽管向你展示了什么证据,你的信念也不会被动摇。

在本文中,我们通过形象举例深刻剖析频率统计与贝叶斯统计之间的区别,深入探讨贝叶斯统计的神秘世界,以及它的一些原则,如克伦威尔规则、伯恩斯坦 - 冯米塞斯定理、伯努利审判,有助于分析现实世界的机器学习问题。

贝叶斯统计为什么优于频率统计?_经验分享

 

贝叶斯缩小了范围、指明了方向

拿例子说话。

我把手机放在了家里的某个地方。我可以使用仪器底座上的电话定位器来定位电话,当我按下电话定位器时,电话会开始发出哔哔声。

问题:我应该搜索我家的哪个区域?

频繁推理

我能听到手机发出的哔哔声。我还有一个心理猜测模型,即根据声音来确定区域。因此,在听到哔哔声后,我推断出我家的区域,我必须遍历搜索来找到手机。

贝叶斯推理

我能听到手机发出的哔哔声。现在,除了帮助我识别声音来自哪个区域的心理模型之外,我还知道过去经常放错电话的位置。因此,我结合我的推论使用了哔哔声和我之前关于我过去放错电话的位置的先验信息,以确定我必须搜索以找到手机的区域。

从这个例子,可以看出两者的区别,贝叶斯推理比频繁推理应用了更多的经验,缩小了范围、避免盲目。

贝叶斯统计捕获真正关心的信息:逆概率

假设在医院,患者健康(H)或生病(S),我们将对患者进行测试,结果将为阳性(+)或阴性(- )。如果患者生病,他们将始终获得阳性结果。我们称之为正确的(Correct)结果。

P(+ | S)= 1

也就是说:

P(Correct | S)= 1

如果患者健康,95%的时间测试将是阴性,但会有一些误报。

P(- | H)= 0.95

P(+ | H)= 0.05

对于健康人来说,测试正确的概率是95%。

因此,该测试要么100%准确,要么准确率为95%,具体取决于患者是健康还是生病。总之,这意味着测试至少95%准确。

到现在为止这些还是频率论者的陈述。这些陈述很容易理解。

但是,当你试图换一种方式,让事情变得有趣。鉴于测试结果,你可以了解患者的健康状况。如果测试结果为阴性,患者显然是健康的,因为没有假阴性。

但我们也必须考虑测试是阳性的情况。是因为患者实际上病了,还是假阳性?这是频率论者和贝叶斯派的分歧。每个频率论支持者都会同意目前无法回答这个问题。他们会拒绝回答。贝叶斯将准备给你一个答案,贝叶斯先生告诉它患病的比例是多少。

总结一下,以下陈述是正确的:

  • 对于健康人,测试很准确。
  • 对于病人,测试非常准确。

如果您对此类陈述感到满意,那么你事实上在使用频率统计的解释。

但如果让你做出不同的陈述并回答以下问题:

  • 对于那些测试结果为阳性的患者,测试的准确度如何?

这需要先验和贝叶斯定理。另注意,这是医生唯一感兴趣的问题。医生会说“我知道患者会得到阳性结果或阴性结果。阴性结果意味着患者健康并且可以送回家。现在我感兴趣的是获得阳性结果的人- 他们生病吗?”

总之,在这样的例子中,贝叶斯将同意频率论者所说的一切。但贝叶斯认为,频率论者的陈述虽然是真实的,但并不是很有用

频率论者将依次考虑参数(H或S)的每个可能值,并询问“参数是否等于该值,我的测试正确的概率是多少?

相反,贝叶斯将反过来考虑每个可能的观测值(+或- )并询问“如果我刚刚观察到这个值,那么它告诉我健康(H)和生病(S)的条件概率是什么?

从这个例子,可以看出两者的区别,贝叶斯统计(推理)能够获得逆概率的信息,这个是贝叶斯定理公式中一目了然的。为什么这个很重要呢?观察值(测量者)往往不一定是准确的,而真正的实际情况的条件概率才是我们关心的,才是最重要的。

贝叶斯统计的作用过程 极小概率问题:日出问题

“不管发生了什么,太阳第二天仍然会照常升起”,你对这个真理的坚信来源于你从来没碰见过一天,太阳没有升起。但是...

贝叶斯统计为什么优于频率统计?_经验分享_02

 

想象一下,有一天早上你醒来,太阳决定休息一天。这不仅会(最有可能)破坏你的一天并搞砸你的生物钟,这也会直接改变你对太阳升落的感觉。你不再坚信太阳永远会第二天升起来的真理了!更有可能预测到第二天太阳也不会升起。或者说,你对太阳将再次休息一天的期望将会比以前高很多。

贝叶斯统计的作用过程就是:我们根据新证据改变了对事件发生概率的先有的、固有的看法。这是所有贝叶斯统计数据的关键。

更数学的描述一下,贝叶斯规则:

贝叶斯的规则告诉我们,我们必须从一些关于事件发生可能性的固有概率开始(事前)。我们称之为先验概率。逐渐地,随着我们获得新的观察和证据,我们查看证据,决定我们当前立场的可能性基础上更新我们的信念。这种更新的信念称为后验概率(事后)。

贝叶斯统计为什么优于频率统计?_经验分享_03

 

回到我们的日出问题,我们每天都观察到太阳升起,每当它发生时我们都会更确定它会在第二天再次升起。但是,如果有一天我们发现太阳没有上升,这将根据新的证据对我们的后验概率产生巨大影响。

这在数学上以下面的形式表达,起初看起来令人生畏但可以被抽象:我们更新的信念是基于我们最初的信念和基于我们当前信念(可能性)呈现的新证据。有多少新的证据,我们的信念有有多少可能是正确的。如果最初信念是太阳明天不上升的概率是百万分之一,如果某一天(仅仅是如果)太阳没有照常升起,那么我的信念错误的可能性非常高,后验概率会更新以预测它是更有可能再次发生。

贝叶斯统计为什么优于频率统计?_经验分享_04

 

先验至上主义:克伦威尔规则

奥利弗·克伦威尔(Oliver Cromwell)是英国历史上的杰出人物,1658年在苏格兰教会大会上引用了一句名言:

"“我恳求你们,以基督的同情心想一想,你们可能错了。”

贝叶斯统计为什么优于频率统计?_经验分享_05

 

这句话导致了丹尼斯林德利对克伦威尔规则的定义,这提出了如果一个先验概率等于零(我知道某些事情不是真的)或一个(我知道某事是真的)的想法,然后,尽管向你展示了什么证据,你的信念也不会被动摇。

这向我们展示了在观察可以经验观察的事物时绝对主义观点的危险性。如果我坚信一种信念,我确信我是对的,没有人会说或做任何事情都不会说服我。这是无知的高度,而不是我们想要融入机器学习模型的东西。如果我们回顾贝叶斯定理,我们可以看出为什么会出现这种情况,如果我们的先验概率为零,那么将它乘以任何东西仍然会给我们一个后验概率为零。

原则上,没有可能将某种概率设置为零,因为物理世界中的任何东西都不应该被认为是完全不可能的 - 即使与所有观察的和当前的理论相反。

可能发生这种情况的一个理想例子是神经网络。当你启动神经网络时,节点会以某些固有值开始。如果将这些节点全部分配为权重为零,则节点将无法自行更新,因为梯度下降算法的所有迭代都将乘以零。而是进行随机初始化(通常对用户不可见),这通常可以防止诸如此类的问题。

贝叶斯定理的另一个有趣的特性来自于我们观察在无数次观察之后发生的事情,通常称为伯恩斯坦 - 冯米塞斯定理。

伯恩斯坦 - 冯米塞斯定理

简单来说,伯恩斯坦 - 冯米塞斯Bernstein-von Mises定理告诉我们,当我们获得更多数据时,我们的后验估计将渐近地独立于我们的初始(先验)信念 - 当然,它假设它遵循克伦威尔规则。这在某些方面类似于频率统计中的数字法则,它告诉我们样本的平均值最终将与总体相同,因为我们获得的数据越来越多。

机器学习中贝叶斯统计与频率统计

以硬币翻转为例 - 不公平硬币(不均匀)出现的可能性是多少?

贝叶斯统计为什么优于频率统计?_经验分享_06

 

频率统计解释

翻转不公平硬币时看到头部的概率是在重复翻转硬币时看到头部的长期相对频率。也就是说,当我们进行更多的硬币翻转时,作为总翻转的比例获得的头数倾向于硬币作为头部出现的“真实”或“物理”概率。特别是运行实验的个人并没有结合他们自己对其他硬币公平性的看法。

贝叶斯统计解释

在任何翻转硬币之前,个人可能认为硬币是公平的。几次翻转后,硬币不断上升。因此,对硬币公平性的先前信念进行了修改,以解释三个头已经连续出现的事实,因此硬币可能不公平。在500次翻转后,有400个头,个人更强烈的认为硬币不太可能公平。后验信念在很大程度上修改先前对公平硬币的信念。

在机器学习中,贝叶斯方法和频率方法之间的根本区别在于随机性存在的位置。在频率范畴中,数据被认为是随机的,而参数(例如,均值,方差)是固定的。在贝叶斯范畴中,参数被认为是随机的而数据是固定的。这是因为相比于数据,我们更关心产生这些数据的系统(参数)。

伯努利审判:机器学习更加关注产生数据的参数

对于硬币试验,以机器学习的视角来审视贝叶斯统计的魅力!

伯努利试验是一项随机试验,只有两种结果,通常标记为“成功”或“失败”,其中每次试验时成功的概率都完全相同。成功的概率由θ给出θ,这是0和1之间。

在进行一些硬币翻转实验(重复伯努利试验)的过程中,我们将生成一些数据D,关于头或尾。

一个自然的例子问题是“给出一个公平的硬币(θ=0.5),在8次翻转中看到3个头的概率是多少?”。

模型帮助我们确定给定参数θ的值,此数据D的概率。表示为:P(D | θ )。

但是,如果你考虑一下,我们实际上对另一个问题感兴趣,“考虑到我看到了特定的头尾序列,硬币是公平的的概率是多少?”

因此,我们对P(θ | D )概率分布感兴趣,这反映了我们对θ的不同可能值的信念。鉴于我们已观察到一些数据D,可得P(D | θ )。那么我们如何在这两个概率之间得到什么呢?事实证明,贝叶斯的规则是允许我们在两种情况之间进行的链接。

贝叶斯统计为什么优于频率统计?_经验分享_07

 

贝叶斯统计推理的规则:

P(θ | D )= P(D | θ )P(θ )/P(D )

  • P(θ )是先验这是我们对θ的信念的力量,不考虑证据D。我们之前关于硬币有多公平的可能性的看法。
  • P(θ | D )是后验这是一旦证据D已被考虑在内,我们对θ的信念的力量θ。在看到8次翻转中的4个头之后,比如说,这是我们关于硬币公平性的最新观点。
  • P(D | θ )是可能性这是由具有参数θ的模型生成数据D的概率。如果我们知道硬币是公平的,这就告诉我们在特定数量的翻转中看到许多头的数据D的概率。
  • P(D )是证据这是通过对所有可能的θ值求和(或积分)确定的数据的概率,其中加权我们对θ的特定值的相信程度。如果我们对硬币的公平性有多种看法(但不确定),那么这就告诉我们看到一系列翻转的可能性,以便我们相信硬币的公平性。

贝叶斯推断的整个目标是为我们提供一个合理的,数学上合理的程序,以便将我们先前的信念与手头的任何证据结合起来,以产生更新的后验信念。使其成为如此有价值的技术的原因在于后验信念本身可以用作新数据生成的先验信念。因此,贝叶斯推理允许我们通过反复应用贝叶斯规则来不断调整我们在新数据下的信念。

我们什么时候应该使用贝叶斯统计?

贝叶斯统计包含可用于机器学习的特定类型的模型。通常,由于各种原因中的一个或多个原因,人们会使用贝叶斯模型,例如:

  • 数据点相对较少
  • 具有强大的先前直觉(来自预先存在的观察/模型)关于事物是如何工作的
  • 具有高度不确定性,或强烈需要量化特定模型或比较模型的不确定性水平
  • 想要对替代假设的可能性提出一些要求,而不是简单地接受/拒绝零假设

我们可以清楚地看到,频率论和贝叶斯方法之间存在很大的协同作用,特别是在当今大数据和预测分析变得如此突出的世界中。我们为各种系统提供大量数据,我们可以不断地对系统进行数据驱动的推断,并在越来越多的数据可用时不断更新。由于贝叶斯统计提供了更新"知识"的框架,实际上它在机器学习中使用了很多。