假设检验:
模型显著性检验——F检验(利用statsmodels中建立模型的summary/summary2方法)
偏回归系数显著性检验——t检验(利用statsmodels中建立模型的summary/summary2方法)
诊断:
正态性检验:
方法 | 实现 |
PP图/QQ图 | statsmodels.ProbPlot.ppplot/statsmodels.ProbPlot.qqplot |
Shapiro检验/K-S检验 | Scipy.stats.shapiro/scipy.stats.kstest |
多重共线性检验:
关于多重共线性的检验可以使用方差膨胀因子VIF来鉴定, 如果VIF大于10, 则说明变量间存在多重共线性; 如果VIF大于100, 则表名变量间存在严重的多重共线性。(Statsmodels.stats.outliers_influence.variance_inflation_factor)
线性相关性检验:
直接通过DataFrame的corrwith方法计算皮尔森相关系数。
异常值检验:
帽子矩阵 | 其中H为帽子矩阵,若H中主对角线元素满足,则称第i个样本点为异常点。 | Get_influence().hat_matrix_diag |
DFFITS准则 | 构造统计量(ε为预测误差,σ为误差项的标准差)若满足则为异常点。 | Get_influence().dffits(返回统计量的值与阈值) |
学生化残差 | 构造统计量,并满足以下条件则为异常点。 | Get_influence().resid_studentized_external |
Cook距离 | 其中,ri为学生化残差。 Cook统计量越大的点, 其成为异常点的可能性越大。 | Get_influence().cooks_distance(返回统计量的值与基于F分布的P值) |
独立性检验:
对因变量y的独立性检验,因为在线性回归模型的等式左右只有y和残差项ε属于随机变量,如果再加上正态分布,就构成了残差项独立同分布于正态分布的假设。关于残差的独立性检验通常使用Durbin-Watson统计量值来测试,如果DW值在2左右,则表明残差项之间是不相关的;如果与2偏离的较远,则说明不满足残差的独立性假设。(summary方法中的DW值)
方差齐性检验:
1.图形法:
方差齐性是指残差项的方差不随自变量的变动而变动,所以只需要绘制残差与自变量之间的散点图, 就可以发现两者之间是否存在某种趋势。
2.BP检验:
原假设是残差的方差为一个常数, 通过构造拉格朗日乘子LM统计量, 实现方差齐性的检验。 该检验可以借助于statsmodels模块中的het_breushpagan函数完成。(statsmodels.stats.diagnostic.het_breushpagan(残差,外生变量)返回第一个值为LM统计量;第二个值是统计量对应的概率p值;第三个值为F统计量,用于检验残差平方项与自变量之间是否独立,如果独立则表明残差方差齐性;第四个值则为F统计量的概率p值,同样大于0.05,则进一步表示残差项满足方差齐性的假设。)