Stanford Online-统计学习-ISLR-Ch3-Linear Regression
1
线性模型
简单粗暴,直接上模型: 这是对“世界上所有数据“的假想模型,即我们假设“世界上所有数据“是从这个模型中产生的。虽然我们也不清楚这个假设对不对,但是就是这样假设了,看看结果好不好再决定对不对。
但是我们得不到“世界上所有的数据“,我们只有“训练数据集“,所以我们可以得到的模型是这样的:
“hat“表示这个变量是estimated的,不是real的,也就是说我们对上面的“假设“再进行了一次假设。效果好不好得看结果才知道,这里就这么粗暴地假设了。
2
损失函数
3
参数“好坏“评估
下面用“统计学“中的方法来评估一下这个模型,看看参数对不对,好不好。
3.1 Standard Error
3.2 Confident Interval 置信区间
Standard Error可以用来计算“置信区间“,置信度为95%,计算方式如下:
置信度为95%的置信区间的意思是:该区间有95%的概率会包含真实模型参数的B1
3.3 Hypothesis Testing 假设检验
所谓“假设检验“就是先给定一个假设,然后希望能够推翻这个假设。称这个希望被推翻的假设为“零假设(null hypothesis)H0“,该假设对立面为HA。
接下来就要用一些“统计学“的方法来推翻这个零假设H0,证明X和Y之间有关系。
3.3.1 T-statistic T值
Standard Error被用来计算T值,于是T值定义如下:
3.3.2 p-value p值
p值的定义为:当H0成立时,观测到任何≥|t|的值的概率
3.3.3 推翻“零假设H0“
3.3.4 X和Y之间的关联性有多强
既然推翻了零假设,证明了X和Y之间是有联系的,那么这种联系有多强呢?我们用R^2来反映这种关联性。 于是,R^2越大,一元线性模型中X和Y的关联性就越强。
是否还在因为论文写作排版问题而纠结?给大家推荐一门LaTex精准入门教程,限时免费,名额有限,先到先得额。