逻辑回归

基本概念

Logistic Regression 逻辑斯谛回归,属于对数线性模型,亦属于分类模型的一种。模型假设数据服从Logistic分布,然后使用极大似然估计做参数的估计。

首先我们需要了解什么是Logistic分布:

设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数:
连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_机器学习
连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_概率密度函数_02
公式中,连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_机器学习_03是位置参数,连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_概率密度函数_04是形状参数。

密度函数和分布函数的走势如下:


连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_概率密度函数_05

连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_概率分布_06

其中,分布函数是以点$(\mu,\frac{1}{2})$为中心对称的S形曲线,满足:

连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_概率分布_07

什么是概率函数、什么是分布函数呢?

  • 概率密度函数:区间内的面积除以总面积,即为该区间的概率密度。

对于一维实随机变量X,设它的累积分布函数是连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_概率分布_08,如果存在可测函数连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_机器学习_09满足:连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_概率分布_10,那么X是一个连续型随机变量,并且是它的概率密度函数。


连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_数据统计_11

  • 分布函数:
    分布函数就是变量小于等于某个特定值a的概率(或者频率,如果是用数据统计出来的话),也即连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_数据统计_12

逻辑回归模型

二项逻辑斯谛回归模型

定义:满足如下条件概率分布:
连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_机器学习_13
连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_数据统计_14
其中,x为输入,Y为输出。w为权重参数,b为偏置。
exp,以自然常数e为底的指数函数

当实例连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_数据统计_15输入模型后,会计算出连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_数据统计_16连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_数据统计_17时候的概率值,模型将比较两个数值的大小,并将实例连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_数据统计_15分到概率值较大的那一类。从输出上,也可以看出该模型是典型的0,1二分类模型。

从事件发生几率的角度上来说(该事件发生的概率与不发生的概率的比值),输出连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_数据统计_16的对数几率是由输入连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_数据统计_15的线性函数来表示的模型:
连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_机器学习_21

多项逻辑斯谛回归模型

在二分类的基础上进行推广可以得到多分类模型。这里需要将输出的Y进行推广,从0,1推广至K。

定义:满足如下条件概率分布:
连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_概率分布_22
连续变量logistic回归预测方程及曲线拟合 连续变量做logistic_机器学习_23
其中,x为输入,Y为输出。w为权重参数,K为总的输出类个数。
exp,以自然常数e为底的指数函数