逻辑回归
基本概念
Logistic Regression 逻辑斯谛回归,属于对数线性模型,亦属于分类模型的一种。模型假设数据服从Logistic分布,然后使用极大似然估计做参数的估计。
首先我们需要了解什么是Logistic分布:
设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数:
公式中,是位置参数,是形状参数。
密度函数和分布函数的走势如下:
其中,分布函数是以点$(\mu,\frac{1}{2})$为中心对称的S形曲线,满足:
什么是概率函数、什么是分布函数呢?
- 概率密度函数:区间内的面积除以总面积,即为该区间的概率密度。
对于一维实随机变量X,设它的累积分布函数是,如果存在可测函数满足:,那么X是一个连续型随机变量,并且是它的概率密度函数。
- 分布函数:
分布函数就是变量小于等于某个特定值a的概率(或者频率,如果是用数据统计出来的话),也即
逻辑回归模型
二项逻辑斯谛回归模型
定义:满足如下条件概率分布:
其中,x为输入,Y为输出。w为权重参数,b为偏置。
exp,以自然常数e为底的指数函数
当实例输入模型后,会计算出和时候的概率值,模型将比较两个数值的大小,并将实例分到概率值较大的那一类。从输出上,也可以看出该模型是典型的0,1二分类模型。
从事件发生几率的角度上来说(该事件发生的概率与不发生的概率的比值),输出的对数几率是由输入的线性函数来表示的模型:
多项逻辑斯谛回归模型
在二分类的基础上进行推广可以得到多分类模型。这里需要将输出的Y进行推广,从0,1推广至K。
定义:满足如下条件概率分布:
其中,x为输入,Y为输出。w为权重参数,K为总的输出类个数。
exp,以自然常数e为底的指数函数