一、引言

线性回归的因变量是连续变量,而逻辑回归解决的是因变量是分类变量的问题。当然,自变量既可以是连续的也可以是分类的,但是分类变量做自变量前需要做哑变量处理。

逻辑回归将分类因变量的0、1等 值转换为取其值的概率,将二分类模型转换为线性函数模型,转换后模型课表示为
因变量连续变量logistic回归python 连续变量做logistic_取值
因变量连续变量logistic回归python 连续变量做logistic_统计学_02因变量连续变量logistic回归python 连续变量做logistic_统计学_03的线性函数,因变量连续变量logistic回归python 连续变量做logistic_git_04就是Logit转换。也可以转换为
因变量连续变量logistic回归python 连续变量做logistic_git_05

二、回归模型估算方法

Logistic回归模型有两种估算方法,一种是加权最小二乘法估计,用于分组数据的Logistic回归模型;另一种是最大似然估计,用于未分组数据的Logistic回归模型。

2.1 分组数据的Logistic回归模型

分组数据的Logistic回归模型也可以称为分层逻辑回归,分类因变量的每一个可能取值 都能得到一个属于此取值的样本,且样本由此取值对应的原始数据统计得到,然后得到回归模型。这种方式的回归样本数 等于 分类因变量可能取值的个数。

下表9-5为例,分类因变量一共有9个可能取值,即 因变量连续变量logistic回归python 连续变量做logistic_取值_06。用家庭收入因变量连续变量logistic回归python 连续变量做logistic_取值_07作为自变量(由每一类可能取值对应的原始数据的平均值得到),回归模型为因变量连续变量logistic回归python 连续变量做logistic_git_08,回归样本数为9。

因变量连续变量logistic回归python 连续变量做logistic_git_09


对于每一个因变量的取值(对于每一个样本 因变量连续变量logistic回归python 连续变量做logistic_取值_06):

因变量连续变量logistic回归python 连续变量做logistic_取值_11


因变量连续变量logistic回归python 连续变量做logistic_git_12

用9个样本回归后,得到

因变量连续变量logistic回归python 连续变量做logistic_数据_13

为了避免异方差,采用加权最小二程的方式获得回归参数的估计值因变量连续变量logistic回归python 连续变量做logistic_取值_14,加权权重的计算方式为

因变量连续变量logistic回归python 连续变量做logistic_数据_15

注:分组数据的Logistic回归只适用于大样本的分组数据,对小样本的未分组数据不适用,并且组数即为回归拟合的样本数,容易造成拟合精度不够。一般情况下,多采用极大似然估计直接拟合未分组数据的Logistic回归模型。

2.2 未分组数据的Logistic回归模型

假设因变量连续变量logistic回归python 连续变量做logistic_数据_16组样本因变量连续变量logistic回归python 连续变量做logistic_取值_17,其中 因变量连续变量logistic回归python 连续变量做logistic_取值_18是取值为0或1的随机变量,因变量连续变量logistic回归python 连续变量做logistic_统计学_03是与 因变量连续变量logistic回归python 连续变量做logistic_数据_20 相关的确定性变量。对于每一个样本有
因变量连续变量logistic回归python 连续变量做logistic_统计学_21

因变量连续变量logistic回归python 连续变量做logistic_git_12
因变量连续变量logistic回归python 连续变量做logistic_数据_16个样本回归后,得到
因变量连续变量logistic回归python 连续变量做logistic_数据_13
与分组数据回归不同的是,样本存在相同的因变量连续变量logistic回归python 连续变量做logistic_数据_20值,因变量连续变量logistic回归python 连续变量做logistic_数据_20值相同的样本 因变量连续变量logistic回归python 连续变量做logistic_数据_27 值和 因变量连续变量logistic回归python 连续变量做logistic_数据_28

利用因变量连续变量logistic回归python 连续变量做logistic_数据_16组样本回归得到Logistic回归模型,样本以表9-6为例 因变量连续变量logistic回归python 连续变量做logistic_数据_30

因变量连续变量logistic回归python 连续变量做logistic_git_31


这种模型采用最大似然估计获得回归参数,假设为二分类逻辑回归模型,其思路定义因变量 因变量连续变量logistic回归python 连续变量做logistic_数据_20的联合概率密度为

因变量连续变量logistic回归python 连续变量做logistic_统计学_33

其中因变量连续变量logistic回归python 连续变量做logistic_数据_34,于是因变量连续变量logistic回归python 连续变量做logistic_取值_18的似然函数为:

因变量连续变量logistic回归python 连续变量做logistic_统计学_36

取对数后

因变量连续变量logistic回归python 连续变量做logistic_统计学_37

用数值计算得到参数估计值因变量连续变量logistic回归python 连续变量做logistic_取值_14