因变量为无序多分类资料,或者因变量虽为有序多分类但不满足比例优势假定(平行性检验P>0.05),可采用无序多分类的logistic回归进行分析。当然当结局变量无序,自变量只有一个且为分类变量时,可以直接采用卡方检验;结局变量有序,自变量只有一个且为分类变量时,可以直接采用非参数检验。
无序多分类的logistic回归模型与有序多分类的logistic回归模型不同
。
有序多分类的logistic回归采用的是累积logit模型,进行logit变换的是因变量有序取值水平的累积概率;
而无序多分类的logistic回归采用的是广义logit模型,是用因变量的各个水平(除参照水平外)与参照水平比值的自然对数来建立模型方程,当水平数为2时,该模型等价于二分类资料的logistic回归,因此该模型可以看做是二分类logistic回归模型的扩展。因变量y是有n个水平的无序多分类变量,进行无序多分类的logistic回归时可以产生n-1个广义logit模型。参照水平R的阳性概率记为π
R
,第k个水平(k=1,2,…n)的阳性概率分别为π k,则有π
1+π
2+…π
n=1。自变量x有m个,第k个水平第i个自变量(i=1,2,…m)X
i系数为β
ki
。
以因变量为4水平(第4水平为参照水平),自变量有m个为例,模型可以表示为:
显然π1+π2+π3+π4=1,如希望比较1和2,可以将相应的两个公式相减即可得到相应的函数,同理可以比较1和3,或者2和3。当然我们也可以直接对参照水平进行修改。
示例:某研究人员欲了解不同社区和性别之间成年居民获取健康知识途径是否不同,对2个社区的314名成人进行了调查,结果见下表。变量赋值为:社区(社区A=0,社区B=1)、性别(男=0,女=1)、获取健康知识途径(传统大众媒介=1,网络=2,社区宣传=3)。请拟合社区和性别对居民获取健康知识途径的多分类logistic回归模型。
1、数据录入
2、数据加权:Data>>Weight Cases…,将[频数]进行加权
3、多变量回归分析:Analyze>>Regression>>Multinomial Logistic…
l 因变量:获得途径
l 因素:社区、性别
因变量和因素必须是分类变量,协变量是试验设计中不为研究者关注但对结果会产生影响的独立解释变量,可以分类变量也可以是连续型变量。
在[因变量]下方的[参考类别(Reference Category…)]中可以对参考类别和类别顺序进行设置,默认的参考类别是最后一个类别,默认的类别顺序为升序。
升序时因变量取值最小的为第一类别,而降序则将取值最小的为最后一类。
【模型】:可以指定分析的模型,默认是只分析主效应,也可以进行全因素分析(主效应+交互作用),当然也可以进行自定义分析。选中自定义/逐步(Custom/Stepwise)后,除了可以自定义模型外,还可以实现变量的筛选,类似于二分类logistics回归中的Block和Method。本例取默认的主效应分析。
【统计量】:
除默认选项,同时选中信息准则(输出AIC和BIC)、单元格概率、分类表及拟合优度检验
。定义子总体默认选项为对所有的自变量和协变量计算单元格概率并进行拟合优度检验。
【收敛准则】:主要对迭代进行设置。
【选项】:可对进入和剔除标准及其检验方法进行设置。【保存】:可以保存新变量[估计反应概率]、[预测分类]、[预测分类概率]、[实际分类概率]
。 4、结果
【案例处理概要】:分析示例的基本情况。
【模型拟合信息】:与只含常数项的初始模型相比,最终模型的AIC(Akaike信息准则)、BIC(贝叶斯信息准则)、负2倍的对数似然值(-2LL)均有下降。-2LL值从80.877下降至36.821,下降了44.056(卡方值),似然比卡方检验具有统计学意义(P<0.001),说明模型纳入性别和社区两个变量中至少有一个偏回归系数不为0。
【拟合优度检验】:显示Pearson拟合优度检验和Deviance拟合优度检验结果。此两种方法实际是检验当前模型预测值与样本实测值的比较,两者结果P值均大于0.05,表示拟合良好。但要注意这两种方法对自变量的样本量有一定要求,当自变量较多或者含有连续变量时一般不采用这两种方法的检验结果。
【伪R2】:输出三种伪决定系数。对分类数据的统计分析,不需要过于在意这三种伪决定系数过低的问题。
【似然比检验】:表格显示最终模型的AIC、BIC、-2LL值(与【模型拟合信息】表的结果一致),以及简约模型(去掉某个自变量效应后的模型)的AIC、BIC、-2LL值,卡方检验统计量为简约模型与最终模型的-2LL差值。结果显示社区和性别对模型的贡献均有统计学意义。
【参数估计】SPSS中因变量默认以取值高水平为参照水平(本例为社区宣传),如希望将其他取值水平作为参照水平,可在数据中修改因变量各水平的赋值,或者通过[参考类别(Reference Category…)]来指定。自变量也默认取值水平高的为参照水平,也可以修改自变量各水平的赋值来改变参照水平,如果将变量作为协变量纳入分析则低水平会被默认为参照水平。因此本例中社区B(社区=1)和女(性别=1)为参照水平,其参数值为0,一般是研究者不感兴趣的参数,即冗余参数。
从结果来看,社区A(社区=0)的回归系数为负值,P=0.001<0.05,OR=0.370。具有统计学意义表明社区A回归系数不为0(社区B的回归系数为0)。回归系数为负,表明与社区宣传相比,社区A(比社区B)更不愿意通过传统大众传媒获得健康知识,或者说社区A更愿意通过社区宣传获得健康知识;OR=0.370,即相比社区宣传,社区A通过传统大众传媒获得健康知识是社区B的0.37倍,或者更符合表达逻辑的说法是社区A通过社区宣传获得健康知识是社区B的2.70倍(1/0.370),社区B通过传统大众传媒获得健康知识是社区A的2.70倍。当然严格来说OR的表达应该是:社区B选择传统大众传媒与选择社区宣传的比值 是 社区A相应比值的2.70倍。
同理可知与社区宣传相比,男性(比女性)更愿意通过传统大众传媒获得健康知识,OR=3.410。与网络宣传相比,社区A(与社区B)在通过传统大众媒体获得健康知识方面没有统计过学差异(Wald
χ 2
=1.7,P=0.192>0.05),但男性更倾向于选择网络获得健康知识(Wald χ 2
=8.126,P=0.004<0.05,OR=2.213)。
如想比较传统大众媒介与网络,可直接将相应的模型方程相减,
大体可以判断与网络途径相比,社区A更不倾向传统大众传媒(也就是说更倾向于网络),男性更倾向传统大众传媒,但是否有统计学意义尚需进一步检验。可在多变量回归对话框中,通过[参考类别(Reference Category…)]将参考类别自定义为网络(Custom Value=2),可获得如下结果,同上述计算结果一致,解读略。
另外,自变量为多分类时也要遵循同进同出的原则。
【分类表】:观测频数与预测频数的差异。对角线为正确判断的频数,而非对角线为判断错误的个数。预测正确率一般,有待改善。
【观测频数和预测频数】:较为接近,拟合良好。
—— END ——