在研究X对Y的影响时,因变量Y往往是分类变量,这时如果还想分析影响关系可以使用logit回归,常见的logit回归包括,二元logit回归(二项logit回归)、多分类logit回归以及有序logit回归。三者的区别如下:

Python二元线性回归预测 二元线性回归分析案例_拟合

此案例使用二元logit回归研究患者肾细胞癌转移情况。

一、案例背景

案例中是乳腺癌症患者数据,其中包括“年龄”、“扩散等级”、“肿瘤尺寸变量”,想要建立一个预测因变量“癌变部位的的淋巴结是否含有癌细胞”的模型,并且观测自变量对因变量的影响关系。部分数据如下:

Python二元线性回归预测 二元线性回归分析案例_Python二元线性回归预测_02

案例的一般步骤如下。

二、一般步骤

Python二元线性回归预测 二元线性回归分析案例_数据_03

1.自变量的筛选

对于自变量的筛选,可能涉及两个方法一个是卡方分析一个是方差分析,此步不是必须步骤,通过此步可以试探性了解每个自变量X与Y之间的关系,一般来讲差异关系是基础性的判断,影响关系是更深一步的深层次关系,所以在二元logit回归分析前,可以先对X做差异分析,筛选出与Y有差异性的X。

对于卡方分析,需要X是定类数据,如果X是定类数据,那么就使用卡方分析去分析差异;如果说X是定量数据,那么可使用方差分析去研究X和Y的差异性。

分析完成X与Y的差异关系之后,筛选出有差异的X,然后再放入模型中,进行二元logit回归;由于自变量中既有定类变量也有定量变量所以二者分别进行。

  1. 定类变量
    由于自变量“扩散等级”是定类变量所以进行卡方检验。

Python二元线性回归预测 二元线性回归分析案例_Python二元线性回归预测_04

由上表可知,p值<0.05不同的“扩散等级”对“癌变部位的的淋巴结是否含有癌细胞”具有显著性差异。所以分析时可以将该分析项放入模型中。

  1. 定量变量
    由于“年龄”、“肿瘤尺寸变量”为定量变量,所以可以进行方差分析, 点击“开始分析”,对结果进行查看:

Python二元线性回归预测 二元线性回归分析案例_Python二元线性回归预测_05

由上表可知,两个p值<0.05说明“年龄”、“肿瘤尺寸变量”对“癌变部位的的淋巴结是否含有癌细胞”均具有显著性差异。同理,分析时可以将分析项放入模型中。
2.数据预处理
(1)因变量
二元logistic回归要求因变量只能为2项,而且数字一定是0和1,案例中因变量为两项,并且数字0表示“No”(即:癌变部位的的淋巴结不含有癌细胞)数字1表示“Yes”(即:癌变部位的的淋巴结含有癌细胞),如果不是这样可以使用【数据处理->数据编码】完成。

Python二元线性回归预测 二元线性回归分析案例_git_06

(2)自变量
另外,有些数据是定类数据,在进行二元logit分析前可以将数据进行哑变量处理。该案例自变量中“扩散等级”认为是定类变量所以进行哑变量处理。
3.影响关系分析
在确认了可能的影响因素之后,此步骤直接对题进行二元Logit回归分析。对于模型结果,宏观上来讲首先需要看某个题是否呈现出显著性,如果呈现出显著性,那么说明该题对Y有影响关系。具体是正向影响还是负向影响需要结合对应的回归系数值进行说明,如果回归系数值大于0,则说明是正向影响;反之则说明是负向影响。接下来对模型进行查看,分为模型效果和模型结果两部分进行。
三、模型效果
模型效果将从“回归结果基本汇总”、“模型似然比检验结果”、“拟合度检验”三个方面进行说明。
1.回归结果基本汇总

Python二元线性回归预测 二元线性回归分析案例_git_07

对于分析数据的基本情况进行说明,包括Y值的数据分析和最终分析有效样本量的数据情况,从结果可以看出:“癌变部位淋巴结含有癌细胞情况”因变量总共有1121个样本参加分析,并且没有缺失数据。接下来查看模型似然比检验结果。
2.模型似然比检验结果

Python二元线性回归预测 二元线性回归分析案例_Python二元线性回归预测_08

首先对p值进行分析,如果该值小于0.05,则说明模型有效;反之则说明模型无效;从上表可以看出p<0.05,所以说明本次构建模型时,放入的自变量具有有效性,本次模型构建有意义。然后对拟合度进行检验查看。

  1. 拟合度检验

Python二元线性回归预测 二元线性回归分析案例_拟合_09

HL检验原假设为:模型拟合值和观测值的吻合程度一致,如果p值大于0.05则说明通过HL检验,反之则说明模型没有通过HL检验,模型拟合优度差。从结果可以看出p值0.05(Chi=9.175,p=0.328>0.05),因而说明接受原定假设,即说明本次模型通过HL检验,模型拟合优度较好。

四、模型结果

从模型效果来看,数据没有缺失,并且模型通过似然比检验,模型构建有效,拟合优度也较好,接下来对模型结果进行分析,模型结果将从“模型公式及结果”和“影响关系及大小”两方面进行说明。

1.模型公式及结果

Python二元线性回归预测 二元线性回归分析案例_git_10

分析结果来源于SPSSAU

哑变量处理后在分析时需要少放入一项作为,在该案例里,不放入“扩散等级>5cm”放入“扩散等级2-5cm”以及“扩散等级<=2cm”两项。首先看p值,上表可以看出“肿瘤尺寸”和“年龄”两项p值小于0.05其余大于0.05,所以说明“肿瘤尺寸”和“年龄”对于 “癌变部位淋巴结含有癌细胞情况”具有显著性。虽然单分析“扩散等级”对因变量具有显著差异性,但是在总体模型中并未呈现出显著性,这是正常的,因为不同变量之间可能也存在关系。

从上表可知:模型公式为:ln(p/1-p)=-0.398-0.307*“扩散等级_2-5 cm” -0.185*扩散等级_<= 2 cm-0.025*年龄 + 0.424*肿瘤尺寸变量(其中p代表癌变部位淋巴结含有癌细胞情况为1 的概率,1-p代表癌变部位淋巴结含有癌细胞情况为0的概率)。

R2用于表示模型拟合程度,此值与多元线性回归分析的R2值意义基本一致,此值的取值范围为0~1,一般没有固定标准,值越大意味着相关因素对Y的解释力度越高。SPSSAU提供3个R方值指标,分别是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方。

2.影响关系及大小

上表可以看出“肿瘤尺寸”会对“癌变部位淋巴结含有癌细胞情况”产生显著的正向影响关系,以及“年龄”会对“癌变部位淋巴结含有癌细胞情况”产生显著的负向影响关系。但是“扩散等级_2-5 cm”, “扩散等级_<= 2 cm”并不会对癌变部位淋巴结含有癌细胞情况产生影响关系。其中“肿瘤尺寸”变量的回归系数大于“年龄”的回归系数,所以说明“肿瘤尺寸”对于“癌变部位淋巴结含有癌细胞情况”影响更大。

五、总结

本篇案例利用二元logit回归立一个预测因变量“癌变部位的的淋巴结是否含有癌细胞”的模型,模型进行前首先对变量进行数据预处理以及差异性分析,模型从模型效果以及模型结果两部分进行说明,最后得到模型公式,并进行预测。