二 数学基础-概率-高斯分布
2.1 思维导图简述
2.2 内容
2.2.1 高斯分布的最大似然估计
A 已知
数据条件:是
的列向量,代表一组数据。
是N*p维矩阵,表示N组数据。
高斯分布:
一维高斯分布(以一维高斯分布为例)
多维高斯分布
B 求最大似然估计MLE
C 解
D 收获
最大似然估计MLE
: maximum likelihood estimation,由高斯提出,R.A Fisher发扬光大。
MLE就是求使概率P(X|θ)取得最大值的θ是多少:
P(X|θ)是什么,P(X|θ)是指在θ发生时,X发生的概率
不同的参数θ发生,会使得P(X|θ)的值不一样,当已知某个参数θ就使这个样本出现的概率最大,我们当然不会去选其他参数,所以干脆就选这个θ啦
2.2.2 高斯分布的最大似然估计无偏和有偏性
背景
高斯分布最大似然估计中,均值估计是无偏的,方差估计是有偏的。
A 已知:
B 求
最大似然估计的均值:
最大似然估计的方差:
C 解
D 收获
高斯分布最大似然估计中,均值估计是无偏的,方差估计是有偏的。
2.2.3 从概率密度角度观察高斯分布
背景
结论
从不一样的概率角度观察和分析高斯分布。发现
二维高斯分布可以用平面上的不同的椭圆曲线来表达。
基础
PDF:probability denstiy function 概率密度函数
马氏距离:
欧式距离:马氏距离Σ=1
就是欧式距离
A 已知
多维高斯分布的PDF为:
其中,
B 求
多维高斯分布的PDF中,只有x
是自变量,均是参数。
根据多维高斯分布PDF,求出多维高斯分布的数学表现形式。
C 解
2.2.4 高斯分布的局限性
A 局限性
- 方差阵
Σ
是一个p*p维
的对称矩阵,太难求了,计算量太大
Σ
的参数个数是(p*p-p)/2+p = (p*p+p)/2 = O(p^2)
。
通过将Σ
设置为对角矩阵
可以缓解计算量
- 只能处理,假设整个模型是高斯分布,但仅用一个高斯分布无法表达模型
GMM中提出混合模型
B 完整过程
2.2.5 求高斯分布的边缘概率以及条件概率
2.2.6 求高斯分布的联合概率分布
2.3 问题
2.3.1 目前还无法完整脱稿推出高斯分布的全部特点。
【待完善推导】
参考资料
[1] shuhuai008. 【机器学习】【白板推导系列】【合集 1~23】. bilibili. 2019.
https://www.bilibili.com/video/BV1aE411o7qd?p=1
[2] 从概率密度角度观察高斯分布手稿