1.参数估计和非参数估计
前面提到随机变量的分布不是很明确时,我们需要先对随机变量的分布进行估计。有一种情况是我们知道变量分布的模型,但是具体分布的参数未知,我们通过确定这些未知参数就可以实现对变量的估计,这种方式就是参数估计。其中,比较基础且常见的参数估计方法有最大似然估计、最小二乘估计以及最大后验概率估计。
2.最大似然估计
给出随机变量\(X(x1,x2,x3...)\)以及它的独立采样统计\(Y(y1,y2,y3...)\),且已知X的分布是\(f(\theta)\),这里我们可以把变量X的分布看作关于\(\theta\)的函数,即一组参数值\(\theta\)确定一个X的分布函数,我们要求的参数\(\theta\)应使得分布函数最贴近Y。那么如何表示这一点呢?对于最大似然估计,那就是以\(\theta\)为参数时,对X的估计结果恰好是\(Y(y1,y2,y3...)\)的总概率最大!我们由此构建了关于\(\theta\)的似然函数,用\(L(\theta)\)表示似然函数,用\(p(x_{i}|\theta)\)表示估计结果恰好为\(y_{i}\)的概率,有:$$L(\theta) = \prod_{i=1}^{n} p(x_{i}|\theta)$$
注意前面提到了统计结果是独立的,所以总概率等于分概率相乘。对于连乘,通常采用取对数的方式做变换达到相近的结果:$$\widehat(L)(\theta) = \sum_{i=1}^{n} ln(p(x_{i}|\theta))$$
上式也叫对数似然函数,当我们要求参数时,只需要对似然函数关于参数的求导并置0,解方程组即可得到目标参数。
3.最小二乘法
最小二乘法和最大似然估计的不同点在于,它认为待估计的参数应使得对X的预测和X的实际分布整体的“距离”最小。即求\(\theta\)满足:$$\theta = argmin \sum_{i = 1}^{n} (f(x_{i}|\theta) - y_{i})^2$$
对于参数的求取我们同样可以转化为一阶导数为0的解,或者梯度下降发迭代求解。对于线性估计和非线性估计还有一些区别,本篇随笔只是简介,我会单独写一个关于最小二乘法的(完了,又一个坑)。
4.最大后验概率估计
提到最大后验概率,首先想起的就是贝叶斯估计,是的,最大后验概率是贝叶斯统计学说里面的。贝叶斯统计理论认为,对事物的观测结果可能根据观测角度、观测方法、样本的大小而不一样,因此直接通过统计对随机变量进行建模可能会引入误差,所以需要引入“先验知识”即先验概率。观察似然函数:$$L(\theta) = \prod_{i=1}^{n} p(x_{i}|\theta)$$
如果我们已知\(\theta\)的分布\(p(\theta)\):$$L(\theta) = \prod_{i=1}^{n} \frac{p(\theta|x_{i})p(\theta)}{p(x_{i})}$$
又分母与\(\theta\)无关,所以有:$$\theta = argmax \prod_{i=1}^{n} p(\theta|x_{i})p(\theta)$$
同样可以取对数似然:$$\theta = argmax \sum_{i=1}^{n} (ln(p(\theta|x_{i})) + ln(p(\theta))$$
最大后验概率和最大似然估计不一样的是,其追求\(p(x_{i}|\theta)p(\theta)\)的最大化,即保证预测尽可能接近分布的同时,\(\theta\)本身的概率也最大,感觉是给似然函数增加了“约束项”,不过是以乘法的形式。