统计学 一元线性回归

回归(Regression):假定因变量与自变量之间有某种关系,并把这种关系用适当的数学模型表达出来,利用该模型根据给定的自变量来预测因变量

  • 线性回归:因变量和自变量之间是线性关系
  • 非线性回归:因变量和自变量之间是非线性关系

变量间的关系

变量间的关系:往往分为函数关系相关关系;函数关系是确定的关系(例如 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_02R语言一元线性回归函数 一元线性回归的r怎么算_回归_03

相关系数:度量两个变量之间线性关系强度的统计量,样本相关系数记为 R语言一元线性回归函数 一元线性回归的r怎么算_回归_04 (也称为 Pearson 相关系数),总体相关系数记为 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_05
R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_06

  • R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_07 ,越接近 R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_08 代表两个变量之间正线性相关关系越强,越接近 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_09 代表两个变量之间负线性相关关系越强,等于 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_10
  • R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_11 具有对称性,即 R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_12 ;很显然,若 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_13R语言一元线性回归函数 一元线性回归的r怎么算_概率论_14 之间是线性关系,那么 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_14R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_13
  • R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_11 不具有量纲,对 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_13R语言一元线性回归函数 一元线性回归的r怎么算_概率论_14 的缩放不敏感,其数值大小与 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_13R语言一元线性回归函数 一元线性回归的r怎么算_概率论_14
  • R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_11
  • R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_11 是两个变量之间线性关系的度量,但不一定意味着 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_13R语言一元线性回归函数 一元线性回归的r怎么算_概率论_14

相关系数的检验:采用 R.A.Fisher 提出的 t 分布检验,既可用于小样本,也可用于大样本:

① 提出假设:R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_26R语言一元线性回归函数 一元线性回归的r怎么算_概率论_27R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_28R语言一元线性回归函数 一元线性回归的r怎么算_概率论_29

② 计算样本相关系数 R语言一元线性回归函数 一元线性回归的r怎么算_回归_04 以及检验统计量 R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_31

③ 算出 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_32

一元线性回归模型的估计

一元回归:当回归分析只涉及一个自变量时称为一元回归

回归模型:描述因变量 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_02 如何依赖于自变量 R语言一元线性回归函数 一元线性回归的r怎么算_回归_03 和误差项 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_35 的方程;一元线性回归模型可表示为:
R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_36
模型参数为 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_37R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_38 ;随机变量 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_35

  • 正态性:R语言一元线性回归函数 一元线性回归的r怎么算_回归_40
  • 方差齐性:对于所有的 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_13 值,R语言一元线性回归函数 一元线性回归的r怎么算_回归_40 的方差值 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_43
  • 独立性:两个不同 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_13 值对应的 R语言一元线性回归函数 一元线性回归的r怎么算_回归_40

估计的回归方程:总体的 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_38R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_37 是未知的,需要用样本数据去估计,为:R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_48R语言一元线性回归函数 一元线性回归的r怎么算_回归_49

最小二乘法:使离差 R语言一元线性回归函数 一元线性回归的r怎么算_回归_50 的平方和最小的估计方法,即:
R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_51
求导得到:
R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_52
解得:
R语言一元线性回归函数 一元线性回归的r怎么算_概率论_53
(最小二乘法得到的回归直线通过样本平均点 R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_54

R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_55

一元线性回归模型的判优

拟合优度:回归直线与各观测点的接近程度称为模型的的拟合优度,评价拟合优度的一个重要统计量就是决定系数

变差:因变量的取值的波动称为变差,变差的产生来自两个方面:

  • 由于自变量的取值不同造成的
  • 自变量以外的随机因素的影响

总平方和R语言一元线性回归函数 一元线性回归的r怎么算_概率论_56 次观测值的总变差可以由这些变差的平方和来表示,称为总平方和(SST),R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_57 ;总平方和可以分解为:
R语言一元线性回归函数 一元线性回归的r怎么算_概率论_58
可以证明 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_59 ,所以总平方和实际上表现为两个部分:
R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_60

  • 回归平方和(SSR):反映了 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_61 的总变差中由于 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_62R语言一元线性回归函数 一元线性回归的r怎么算_概率论_61 的线性关系引起的 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_61 的变化部分,是可以由回归直线来解释的 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_65
  • 残差平方和(SSE) :是实际观测点与回归值的离差平方和,表示除了 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_62R语言一元线性回归函数 一元线性回归的r怎么算_概率论_61 的线性影响之外的其他随机因素对 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_61

R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_69

决定系数:又称判定系数,记为 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_70 模型拟合的好坏取决于回归平方和 SSR 占总平方和 SST 的比例,越大则直线拟合得越好:
R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_71

在一元线性回归中,相关系数 R语言一元线性回归函数 一元线性回归的r怎么算_回归_04 是决定系数 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_70

估计标准误差:即残差的标准差 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_74,是对误差项 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_35 的标准差 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_76 的估计,反映了实际观测值 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_77 与回归估计值 R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_78 之间的差异程度,R语言一元线性回归函数 一元线性回归的r怎么算_概率论_74 越小,则直线拟合得越好:
R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_80

一元线性回归模型的显著性检验

线性关系检验

线性关系检验:也称为 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_81 检验,用于检验自变量 R语言一元线性回归函数 一元线性回归的r怎么算_回归_03 和因变量 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_02 之间的线性关系是否显著,它们的关系是否能用一个线性模型 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_84

  • SSR 的自由度为自变量 R语言一元线性回归函数 一元线性回归的r怎么算_回归_85 (这里一元线性回归所以 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_86 ),其除以自由度后得到回归均方(MSR)
  • SSE 的自由度为 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_87 (这里一元线性回归所以 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_88),其除以自由度后得到残差均方(MSE)

① 提出检验假设:

  • R语言一元线性回归函数 一元线性回归的r怎么算_回归_89R语言一元线性回归函数 一元线性回归的r怎么算_回归_90
  • R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_91R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_92

② 计算检验自变量为
R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_93
③ 做出决策,确定显著性水平 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_94 ,根据自由度 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_95R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_96 得到 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_32 值,与 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_94

回归系数的检验和推断

回归系数检验:也称为 t 检验,用于检验自变量对因变量的影响是否显著;在一元线性回归模型中,回归系数检验和线性关系检验等价,而在多元线性回归中这两种检验不再等价。其检验假设为:

  • R语言一元线性回归函数 一元线性回归的r怎么算_回归_89R语言一元线性回归函数 一元线性回归的r怎么算_回归_90
  • R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_91R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_92

R语言一元线性回归函数 一元线性回归的r怎么算_回归_49R语言一元线性回归函数 一元线性回归的r怎么算_回归_104 也是随机变量,它们有自己的抽样分布,统计证明,R语言一元线性回归函数 一元线性回归的r怎么算_回归_49 服从正态分布,期望 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_106 ,标准差的估计量为:(R语言一元线性回归函数 一元线性回归的r怎么算_概率论_74 为估计标准误差)
R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_108

(这个 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_109 的分母太搞了,实际上等价于 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_110

将回归系数标准化,就可以得到用于检验回归系数 R语言一元线性回归函数 一元线性回归的r怎么算_回归_49 的统计量 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_112 ,在原假设成立的条件下,R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_113 ,因此检验统计量为:
R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_114
除了对回归系数进行检验外,还可以得到置信区间,回归系数 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_38 在置信水平为 R语言一元线性回归函数 一元线性回归的r怎么算_回归_116 下的置信区间为:
R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_117
还可以得到截距 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_37R语言一元线性回归函数 一元线性回归的r怎么算_回归_116 置信区间为:
R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_120

利用回归方程进行预测

回归分析的目的:根据所建立的回归方程,用给定的自变量来预测因变量。如果对于 R语言一元线性回归函数 一元线性回归的r怎么算_回归_03 的一个给定值 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_122 ,求出 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_02 的一个预测值 R语言一元线性回归函数 一元线性回归的r怎么算_回归_124 ,就是点估计;若是求出 R语言一元线性回归函数 一元线性回归的r怎么算_回归_125 的一个估计区间,就是个别值的区间估计;若是求出 R语言一元线性回归函数 一元线性回归的r怎么算_回归_126

例如,我们收集数据研究许多家企业的广告费支出作为自变量对销售收入这个因变量造成的影响:

  • 求出广告费用为 200 万元时企业销售收入平均值的区间估计,就是平均值的区间估计;
  • 求出广告费用为 200 万元的那家企业销售收入的区间估计,就是个别值的区间估计

点估计

点估计很明显,就是直接将 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_122

平均值的置信区间

平均值的置信区间 :设给定因变量 R语言一元线性回归函数 一元线性回归的r怎么算_回归_03 的一个值 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_122R语言一元线性回归函数 一元线性回归的r怎么算_概率论_130 为给定 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_122 时因变量 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_02 的期望值。当 R语言一元线性回归函数 一元线性回归的r怎么算_回归_133 时,R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_134 就是 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_130 的估计值。那么按照区间估计的公式,要知道 R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_136 的标准差的估计量 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_137
R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_138
因此,对于给定的 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_122,平均值 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_130R语言一元线性回归函数 一元线性回归的r怎么算_回归_116 置信水平下的置信区间为:
R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_142
R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_143 时,R语言一元线性回归函数 一元线性回归的r怎么算_回归_124 的标准差的估计量最小,此时有 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_145 ,也就是说当 R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_143 时,估计是最准确的。R语言一元线性回归函数 一元线性回归的r怎么算_概率论_122 偏离 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_148 越远,那么 R语言一元线性回归函数 一元线性回归的r怎么算_回归_125

个别值的预测区间

个别值的预测区间:用 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_150 表示估计 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_02 的一个个别值时 R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_136 的标准差的估计量:
R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_153
因此,对于给定的 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_122R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_02 的一个个别值 R语言一元线性回归函数 一元线性回归的r怎么算_回归_125R语言一元线性回归函数 一元线性回归的r怎么算_回归_116 置信水平下的预测区间为:
R语言一元线性回归函数 一元线性回归的r怎么算_回归_158
相比于置信区间而言,预测区间范围更宽一些,因此估计 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_02 的平均值比预测 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_02 的一个个别值更准确一些。同样,当 R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_143

用残差检验模型的假定

残差R语言一元线性回归函数 一元线性回归的r怎么算_回归_162 ,表示用估计的回归方程去预测 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_77

残差分析:跟方差分析一样,我们在做一元回归分析的时候也假定 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_84 中的误差项 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_35

残差图:检验误差项 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_35 是否满足这些假设,可以通过对残差图的分析来完成。常用的残差图有关于 R语言一元线性回归函数 一元线性回归的r怎么算_回归_03

  • 关于 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_62 的残差图是用横坐标表示自变量 R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_169 的值,纵轴表示对应的残差 R语言一元线性回归函数 一元线性回归的r怎么算_R语言一元线性回归函数_170

检验方差齐性

如果满足方差齐性,则残差图中的所有点都应当落在同一水平带中(图 a)且没有固定的模式,否则称为异方差性(图 b)。如果出现图 c 的情况,那么应当考虑非线性回归:

R语言一元线性回归函数 一元线性回归的r怎么算_概率论_171

检验正态性

标准化残差:也称 Pearson 残差或半 t 化残差,是残差除以其标准差后得到的结果:
R语言一元线性回归函数 一元线性回归的r怎么算_概率论_172
关于正态性的检验可以用标准化残差分析来完成。如果 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_35 服从正态分布,那么标准化残差的分布也应服从正态分布。例如,标准化后,应当有 R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_174 的残差都落在 R语言一元线性回归函数 一元线性回归的r怎么算_概率论_175

R语言一元线性回归函数 一元线性回归的r怎么算_线性回归_176

也可以画直方图或者 P-P 图来检验:

R语言一元线性回归函数 一元线性回归的r怎么算_机器学习_177