在模型创建完成后,我们需要考虑模型的适当性,如模型的拟合优度,预测准确性和模型的
检验。
1拟合优度评价
我们在对模型的拟合优度进行评价时,需要判断模型的预测值与对应的观测值是否具有较高的一致性,如果匹配性较好,就认为这一模型拟合数据,否则,将不接受这一模型,需要对模型重新设置。从这一点上来说,模型的适当性指的就是拟合优度。那么可能就有小伙伴会问了,我们要从哪些角度来判断模型的好坏呢?统计分析中有很多方法可以对logistic回归模型的拟合优度进行评价。下面简单介绍几种拟合优度的方法。
1.1 皮尔逊
(Pearson
)
通过比较模型预测的和观测的事件发生和不发生的频数检验模型成立的假设。其标准统计量计算公式为:
其中,j是协变类型的种类数目。O表示观测频数,E表示预测频数,自由度是协变类型数目与参数数目之差。
统计量很小就意味着预测值之间没有显著差别,表示这一模型很好地拟合了数据,相反统计量很大时,统计检验就显著,于是提供拟合不佳的证据。当拟合不好时,可以用残差和其他诊断测量来说明每个案例对模型拟合的影响以便寻找模型不合理的原因。
1.2 Hosmer-Lemeshow拟合优度指标
Hosmer和Lemeshowv于1989年研制出了一种对于Logistic回归模型拟合优度检验方法,称为Hosmer-Lemeshow拟合优度指标。记为HL,HL检验根据预测概率值将数据大致分为相同规模的10个组,不考虑协变类型个数,将观测数据按照其预测概率做升序排列。
通过皮尔逊
来概括这些分组中事件结果的观测数和预测数将其与自由度为G-2的
进行比较,
检验不显著表示模型很好的拟合了数据,检验显著时表示模型拟合数据不好。
2预测准确性
除了拟合优度之外,对Logistic回归模型的另一种评价是模型的预测准确性。在线性回归中,人们往往对确定系数
的值感兴趣,因为它描述的是因变量的变动中由模型的自变量所“解释”百分比。但是在Logistic回归中却没有相应的统计指标,不过在模型似然值对数的基础上,可以为Logistic回归模型计算某种类似
的指标,如似然比指数(likelihood ratio index,记为LRI)
与
类似,LRI的值域为0至1,当自变量与因变量完全不相关时(即所有的回归系数为0时),LRI等于0,当模型的拟合程度提高时,LRI值增加,拟合得越好,LRI值越接近。,只有当模型完全拟合时,LRI值达到1,但在实际应用中,LRI的值可以非常接近1,但不会等于1。
3模型
统计
为了对logistic回归模型·进行有意义的解释,要求模型中所包含的自变量必须对因变量有显著的解释能力,也就是说所设模型必须要比零假设模型(即只包含常数项的模型)要好,在多元线性回归中,常用自由度分别为K和n-K-1的F检验(其中K是自变量的个数,n为样本规模)来检验“除常数项外的所有系数都等于0”的无关假设,而在logistic回归中服务于同一目的的检验却是似然比检验(likelihood ratio test),它可以用来检验logistic回归模型是否统计性显著,似然比统计量近似地服从
分布。
小结:以上就是对logistic回归模型进行评价的一些方法,我们可以根据这些方法在spss软件中进行判断我们所设的模型是否适当。下期我们将会用一个实例来检验我们的模型。