一、引言
线性回归的因变量是连续变量,而逻辑回归解决的是因变量是分类变量的问题。当然,自变量既可以是连续的也可以是分类的,但是分类变量做自变量前需要做哑变量处理。
逻辑回归将分类因变量的0、1等 值转换为取其值的概率,将二分类模型转换为线性函数模型,转换后模型课表示为
即是的线性函数,就是Logit转换。也可以转换为
二、回归模型估算方法
Logistic回归模型有两种估算方法,一种是加权最小二乘法估计,用于分组数据的Logistic回归模型;另一种是最大似然估计,用于未分组数据的Logistic回归模型。
2.1 分组数据的Logistic回归模型
分组数据的Logistic回归模型也可以称为分层逻辑回归,分类因变量的每一个可能取值 都能得到一个属于此取值的样本,且样本由此取值对应的原始数据统计得到,然后得到回归模型。这种方式的回归样本数 等于 分类因变量可能取值的个数。
下表9-5为例,分类因变量一共有9个可能取值,即 。用家庭收入作为自变量(由每一类可能取值对应的原始数据的平均值得到),回归模型为,回归样本数为9。
对于每一个因变量的取值(对于每一个样本 ):
即
用9个样本回归后,得到
为了避免异方差,采用加权最小二程的方式获得回归参数的估计值,加权权重的计算方式为
注:分组数据的Logistic回归只适用于大样本的分组数据,对小样本的未分组数据不适用,并且组数即为回归拟合的样本数,容易造成拟合精度不够。一般情况下,多采用极大似然估计直接拟合未分组数据的Logistic回归模型。
2.2 未分组数据的Logistic回归模型
假设组样本,其中 是取值为0或1的随机变量,是与 相关的确定性变量。对于每一个样本有
即
用个样本回归后,得到
与分组数据回归不同的是,样本存在相同的值,值相同的样本 值和
利用组样本回归得到Logistic回归模型,样本以表9-6为例
这种模型采用最大似然估计获得回归参数,假设为二分类逻辑回归模型,其思路定义因变量 的联合概率密度为
其中,于是的似然函数为:
取对数后
用数值计算得到参数估计值。