关于期望、方差、协方差、协方差矩阵的定义和计算:🔗
期望是线性的。方差(variance)衡量的是对数据x依据它的概率分布采样时,随机变量x的函数值会呈现多大的差异。方差的平方根为标准差(standard deviation)。协方差(covariance)在某种意义上给出了两个变量线性相关性的强度。
以下部分内容参考链接:🔗
普通的伯努利分布和二项分布
首先,假设我们扔了一个不均匀的硬币,也就是说,一个正面和反面概率不相等的硬币。正面向上的概率是p,和前面一样仍然用X表示正面的数量。(可以是0或1。)
被称为参数为p的伯努利分布,简称Bernoulli(p)。继续思考,如果我们投掷这种不均匀的硬币N次,可以得到
这被称为参数为n和p的二项分布,或者简写为b(n,p)。实际上伯努利分布就是n=1时的二项分布。
正态分布
一个非常重要的连续分布就是所谓的正态分布(或者用另一个名字叫高斯)。你肯定在某个时候遇到过它,尽管你可能不知道它是正态分布。如果它有以下的密度函数,我们则称X是均值为μ和方差为σ²的正态分布,或者简称为N(μ, σ²)。
这在现实生活中经常出现,例如人们的身高往往会显示出这种分布。我们将在以后的旅程中多次遇到它。均值描述的是钟形曲线的中心。从符号上看,N(μ, σ²)的概率密度函数PDF通常表示为N(x | μ, σ²)。接下来我们都会用这个。
条件概率
用一个六面骰子掷。如果我们用X来表示投掷的结果,我们可以合理地假设
假设你想打个赌。由你的朋友掷骰子,如果结果小于或等于3,你就赢了。否则,你会损失相同数量的金额。很容易看出,默认情况下,你获胜的概率是1/2。然而,你的朋友在掷骰子后告诉你结果是偶数。你现在赢的机会有多大?直觉上,你现在的机会变小了,因为只有2分你才能赢,如果是4分或6分你就会输。因此,实验的附加信息改变了潜在的概率分布。
这个概念可以数学形式化为条件概率。假设有两个事件,A和B。在我们的具体例子中,A 表示投掷的结果小于或等于3,而B 表示投掷的结果是偶数。事件A在事件B已经发生条件下的发生概率称为在B的条件下A的概率 ,用P(A | B)表示,可用下式计算
在我们的例子中,P(A and B) = 1/6,而P(B) = 1/2,所以我们获胜的机会是P(A | B) = 1/3。
后验概率和贝叶斯定理
为了了解条件概率如何影响我们的机器学习问题,我们需要跳到另一个概念上。让我们再次回顾一下抛硬币的例子!这次硬币还是不均匀,所以正面的概率不是1/2。我们假设
其中p属于[0,1]。问题是,我们不知道它的确切值,我们只能从数据中猜测。换句话说,我们要估计它的概率分布。p是我们掷硬币实验中的一个参数。(为了清楚起见,我们这里有两个分布:一个描述抛硬币的结果,而第二个描述我们对给定硬币正面向上概率的看法。)
假设我们手里拿着那枚硬币,然后把它抛向空中十次的事件E,结果是这样
也就是说,三反七正。用概率的语言,让E来描述事件“十次有七次正面”。所以,我们想知道的是:P(p|E) 这被称为后验概率,因为它描述了我们在观察一些数据后对硬币的看法。注意,这是一个连续的概率分布,因为可以假设p是0到1之间的任何值。我们怎么计算这个?条件概率的一个基本性质在这里起到了重要作用。如果A和B是普通的事件,那么
换言之,以事件B为条件的事件A的概率可以用以事件A为条件的事件B的概率来表示,这就是贝叶斯(Bayes)定理,它同样适用于概率密度函数。这对我们有什么帮助呢?现在我们知道
这好极了。下面介绍这个公式中的三个部分。
1)P(E | p)被称为似然,它很容易计算出来。我们在上一节中这样做了。在投掷七次正面的例子中
也就是说,它们是成比例的,等于乘上一个常数。这个常数对我们来说并不重要,原因将在后面解释。
2)P(p)被称为先验概率,因为这是在我们观察到任何数据之前对硬币的认知。我们很合理地假设各种情况都是等可能的,所以
最大似然估计
极大似然估计:
极大后验估计: