二元线性回归模型的标准误差怎么算二元线性回归模型y=b0+b1x1+b2x2+u

转载

网络安全守卫 2024-02-29 16:01:08

文章标签 二元线性回归模型的标准误差怎么算线性回归正态分布建模拟合 文章分类 机器学习人工智能

前言

当你有一组数据，你想知道一些因变量（x）和自变量（y）的关系时，就需要建模，这个建模即为建立回归方程。
回归方程最常见最简单的就是一元回归，y=βx+b，其中β是系数，b是常数项。β也等于相关性系数。
回归的拟合，也就是寻找一个最优β，使得误差平方和最小。

一元总是最简单的，而实际应用则更为复杂。一般在医学里，我们不知道Y与哪些X有关系，我们都会纳入多个变量来进行临床建模和统计分析，也就是多元（线性）回归分析，这需要对回归方程理解更为深刻。

回归方程的基础理解

对于一般回归方程， $二元线性回归模型的标准误差怎么算二元线性回归模型y=b0+b1x1+b2x2+u_线性回归$ ，使用最小二乘法对其进行拟合。所谓的拟合，就是在高维平面，找一条线，来让其尽量通过收集到的这些观测值x。我们理想中认为会有一条线能通过所有x，即最优解，完美解释了Y和X的关系。然而事实上是，绝大部分情况，我们没办法得到这个最优解，只能得到次优。正如在机器学习中，不可能在测试集和验证集都达到100%准确率，除非是发生了验证集的数据泄露。寻找最优解的拟合，就是不断的求其偏导数。
以上是比较深入的解释，对于医学生而言，不需要知道这些先备知识，了解即可。
在回归方程中，如下公式所示：
$二元线性回归模型的标准误差怎么算二元线性回归模型y=b0+b1x1+b2x2+u_二元线性回归模型的标准误差怎么算_02$
左边是展开的原始数据模式，右边是简化成公式模式。首先假设用 $二元线性回归模型的标准误差怎么算二元线性回归模型y=b0+b1x1+b2x2+u_建模_03$ 代表其残差平方和。所谓残差平方和，就是每一个Y减去其X的差值平方，即 $二元线性回归模型的标准误差怎么算二元线性回归模型y=b0+b1x1+b2x2+u_建模_04$ ，残差其实就是x到y的差距。这是无任何约束的回归方程。现在我们想要要建立一个符合正态分布的回归方程，并且知道这个方程是否显著，（需要注意的是，现实中没有绝对符合正态分布的数据，但是可以是近似当成正态分布，在学术界而言，一般数据能通过shapiro test就可以默认它是正态分布或近似正态分布）。那么来说，首先建立H0假设，即 $二元线性回归模型的标准误差怎么算二元线性回归模型y=b0+b1x1+b2x2+u_二元线性回归模型的标准误差怎么算_05$ 需要注意，这里的 $二元线性回归模型的标准误差怎么算二元线性回归模型y=b0+b1x1+b2x2+u_线性回归_06$ 是由 $二元线性回归模型的标准误差怎么算二元线性回归模型y=b0+b1x1+b2x2+u_二元线性回归模型的标准误差怎么算_07$ 组成的一维矩阵向量，就是每个变量x的回归系数，只不过为了方便简化成这样。这个假设的意思就是说， $二元线性回归模型的标准误差怎么算二元线性回归模型y=b0+b1x1+b2x2+u_建模_08$ 是一个常数项，没有意义，如果我们不拒绝H0，那么就说明我们建模失败。
现在H0假设有了，开始计算验证。由于我们增加了正态分布这个约束条件，因此该模型整体的 $二元线性回归模型的标准误差怎么算二元线性回归模型y=b0+b1x1+b2x2+u_线性回归_06$ 取值范围是变小了，导致残差平方和变大，设这个正态分布回归方程的残差平方和为 $二元线性回归模型的标准误差怎么算二元线性回归模型y=b0+b1x1+b2x2+u_正态分布_10$ ，那么按理说 $二元线性回归模型的标准误差怎么算二元线性回归模型y=b0+b1x1+b2x2+u_正态分布_10$ 要大于等于 $二元线性回归模型的标准误差怎么算二元线性回归模型y=b0+b1x1+b2x2+u_建模_03$ 。因此，只要它是大于等于，我们就没办法拒绝H0，就接受H0，即这个方程的变量x和Y没有关系，建模失败。如果它是小于，并且其效应值达到了拒绝的水平，那么就拒绝H0接受H1，即该模型有意义。
当然，考虑到 $二元线性回归模型的标准误差怎么算二元线性回归模型y=b0+b1x1+b2x2+u_建模_03$ 和 $二元线性回归模型的标准误差怎么算二元线性回归模型y=b0+b1x1+b2x2+u_正态分布_10$ 是带有单位的，为了消除单位，就需要用比值比来表示，即 $二元线性回归模型的标准误差怎么算二元线性回归模型y=b0+b1x1+b2x2+u_正态分布_15$ ，这个差值比就是该方程的效应量。然后进一步把自由度考虑进去，对效应量进行缩放以后，去和F检验的临界表进行对比，那么就可以得到显著性P值了。