文章目录

  • 前言
  • 一、回归
  • 二、二值logistics回归
  • 1.示例
  • 2.minitab分析
  • 三、名义值logistics回归
  • 1.示例:
  • 四、顺序logistics回归
  • 1.示例:
  • 2.minitab分析
  • 总结



前言

一、回归

在研究Y与X之间的因果关系时,如果Y不是一个定比或定距变量时,就需要进行logistic回归。logistic回归是一种广义线性回归(generalized linear model)。logistic回归根据Y的取值分为三类:

  • 二值logistics回归
  • 名义值logistics回归
  • 顺序logistics回归

二、二值logistics回归

我们将响应变量只有“是”或“否”两类,我们把这类只取两值的响应变量对于单个或多个自变量的回归问题称作二值logistics回归。

1.示例

代码如下(示例):
研究肥胖是否与患心血管疾病有关的问题。上海某高校对于3983名参加体检者,记录了体重超重者(BWI大于等于25)患有心血管疾病的人数。其数据列于表9-9(数据文件是:REG_心血管疾病.MTW)。希望分析体重指数(BWD与心血管疾病患病率的关系。

表1

python二次回归模型 minitab二次回归方程_回归


解释:从上表最后一行看出,患病率有随BW1增加而增长的趋势,但这是否为规律性的结果?更具体地,对于给定的BWI,估计其患心血管病率为多少?因此要对这种数据进行回归分析。显然,用患病率p直接作为因变量y效果肯定不好,因为p的变化范围是从0到1,拟合线性回归肯定不行,要对p进行变换才好。

定义两种结果出现的概率之比为“优势比”或“差异比”(odds ratio),其定义是:

2.minitab分析

python二次回归模型 minitab二次回归方程_回归_02

python二次回归模型 minitab二次回归方程_python二次回归模型_03


python二次回归模型 minitab二次回归方程_logistic回归_04

python二次回归模型 minitab二次回归方程_python二次回归模型_05


python二次回归模型 minitab二次回归方程_回归_06


python二次回归模型 minitab二次回归方程_python二次回归模型_07

三、名义值logistics回归

1.示例:

第一节讨论了响应变量取值只有“是”或“否”两类的二进制Logistic回归。实际工作中,我们还会见到响应变量取名义值的情形,这个响应变量可以取多个值,但这些值又不存在顺序关系。例如响应变量是手机品牌,它有A,B,C,D共4种,4种品牌间不存在顺序关系;又如响应变量是某车间的“车床”、某工厂的“工人”、生产某产品的“方法”等,这些响应变量都是名义值。当响应变量是名义值类别变量(即离散型变量),自变量中有数值变量和类别变量,求出这些变量之间的关系之数学模型就是名义值Logistic回归问题。常用的名义值Logistic回归数学模型是:从响应变量取的值中选一个为参考事件,例如选取最后一个,即第k个事件,设响应变量取它的概率为pa,响应变量取其余事件概率为p…,p;;名义值Logistic回归模型为:

四、顺序logistics回归

1.示例:

第一1节讨论了响应变量取值只有“是”或“否”两类的二进制Logistic回归;第二节讨论了离散型变量取名义值的情形。在实际工作中,我们还会见到离散型变量取有序值的情形,例如空气污染等级分为I,Ⅱ,Ⅲ,V共四个级别,这里V级污染最重,Ⅲ级次之,Ⅱ级更好些,I级最好,它们之间可以排出顺序。这就提供了比二值回归或取多个名义值这两种情况更多的信息。与响应变量有关的自变量可以是离散型变量,也可以是连续型变量,我们要建立回归方程,主要的工具仍然是二进制Logistic回归分析。以空气污染状况为例,我们可以先比较I与Ⅱ,Ⅲ,Ⅳ;再比I,Ⅱ与Ⅲ,IⅣ;最后比I,Ⅱ,Ⅲ与Ⅳ。这样比较了三次,就把所有可以配对的状况都比较清楚了。更详细点说是这样:在每次比较时,In2,中的分子p代表的是“累积事件”出现的可能性,例如,第一次比较中,p代表的是出现I级污染状况的概率与出现Ⅱ,Ⅲ,IV三级污染状况的概率1一p的比较;第二次比较中,p代表的是出现I,Ⅱ两级累积污染状况的概率与出现Ⅲ,IⅣ两级污染状况的概率1-p的比较;第三次比较中,p代表的是出现I,Ⅱ,Ⅲ三级累积污染状况的概率与出现IⅣ级污染状况的概率1-p的比较。将p理解为“累积事件”出现的可能性则可以更容易地理解有序状况的二进制Logistic回归分析。
一般说来,如果有序观测值分为k级,则可以比较的共有k一1对。还应注意的是:这k一1对回归方程中,自变量的系数一定是相同的。

荣螺生活在北半球温暖潮湿的淡水或沼泽地带,对环境要求很苛刻,在被污染的水中寿命会大大缩短。将嫌娠的寿命分为三级;1级是短于10天;2级是介于10~30天;3级是31天以上。收集到的73只嫌嫄来自1区或2区,而且记录了水中的毒性水平(见表)试分析嫌频生存时间与水中的毒性水平及区域间的关系。

python二次回归模型 minitab二次回归方程_python二次回归模型_08

2.minitab分析

python二次回归模型 minitab二次回归方程_逻辑回归_09


python二次回归模型 minitab二次回归方程_逻辑回归_10

  • 响应信息(值、计数):每种满意度的样本个数;
  • 各X与回归方程的P值都要小于0.05;
  • 拟合优度的P值都大于0.05;
  • 相关性度量值越接近1模型预测能力越强;

总结

分享:
当我坐在书桌前边收到一本寄来的书,我就把它放在桌上。如果在阅读时有客来访,我就把书带到客厅,去和来客谈谈这本书的内容。客人告别以后,如果我把书遗忘在客厅,我就让它摆在那里。有时话谈得开心,我还不感倦意,只是想休息一会,我就把它带到楼上,在床上去阅读。如果书中兴趣浓厚,我就继续读了下去,如果兴趣减低,就把它用作枕头而睡,这就是我所谓的自然的方法,也可以说是“使书籍任其所在的方法”。我甚至不能说哪一处是我喜欢放书的地方。