目录
逻辑回归-分类算法
1 概述
2 sigmoid函数
3 逻辑回归公式
4 逻辑回归的损失函数
5 均方误差与对数自然损失对比
6 sklearn逻辑回归API
7 案例
8 总结
逻辑回归-分类算法
1 概述
逻辑回归(Logistic Regression),简称LR。它的特点是能够是我们的特征输入集合转化为0和1这两类的概率。一般来说,回归不用在分类问题上,因为回归是连续型模型,而且受噪声影响比较大。如果非要应用进入,可以使用逻辑回归。
逻辑回归只能解决二分类问题,并且逻辑回归非常擅长解决二分类问题,因为任何二分类场景都能得出概率。
逻辑回归的输入和线性回归的输入是一摸一样的,所以线性回归会出现的问题逻辑回归也会出现,比如过拟合。逻辑回归的核心:线性回归的输入到问题分类,那就是sigmoid函数
2 sigmoid函数
该函数的特点:横坐标是输入的值,这些值经过函数映射后得到某个值,这些值的特点就是0-1之间,也就是说sigmoid能将你的输入转换为一个0-1的值,交叉点为0.5
因为概率值就是0-1之间的,所以sigmoid就能将逻辑回归的输入转换为一个概率值。
3 逻辑回归公式
e为一个常数2.71 z就是逻辑回归的结果
输出:[0,1]区间的概率值,默认0.5作为阀值 注:g(z)为sigmoid函数
因为逻辑回归也有权重,也需要去迭代更新,那就应该也要有策略(损失函数)和优化的过程
4 逻辑回归的损失函数
与线性回归原理相同,但由于是分类问题, 损失函数不一样,只能通过梯度下降求解
对数似然损失函数:
注意:逻辑回归是选择某一个类别作为目标作为目标判断的概率(注意:哪一个类别少,判定概率值是指这个类别)。假设有A,B两种类型需要判断,逻辑回归只做一件事情就是判断属于A的概率是多少不判断属于B的概率(或者判断属于B的概率是多少那就不判断属于A的概率),当所有样本来了,只判断属于A的概率是多少,如果是1就是A了,如果概率是0.1,阈值是0.5,那就属于B类。
当目标值为1的时候,如果判断的是属于1的概率,如果说属于1的概率越来越大,目标值是1那损失越来越小。如果判断属于1的概率越来越小,那么损失越来越大
当目标值为0的时候,如果判断的是属于1的概率,如果说属于1的概率越来越大,目标值是0那损失越来越大。如果判断属于1的概率越来越小,那么损失越来越小
完整的损失函数:
cost损失的值越小,那么预测的类别准确度更高
假设有四个样本,[样本1,样本2,样本3,样本4],对应的目标值为[1,0,0,1]
假设逻辑回归的预测值为[0.6,0.1,0.51,0.7],阈值为0.5,那么预测的目标值就位[1,0,1,1]。我们可以看出这个结果是错的,但是,算法是通过损失函数去衡量,那就要建立一个损失函数。就是根据损失函数公式,得知每个样本都有损失值,那么就是1*log(0.6)+0*log(0.1)+0*log(0.51)+1*log(0.7)。
5 均方误差与对数自然损失对比
均方误差和对数自然损失的优化都可以通过梯度下降,损失函数的最低点,但是均方误差,有一个最低点,自然对数损失有很多个最低点
均方误差:是不存在局部最低点的,只有一个最小值
对数自然损失:多个局部最小值,是没有全局最低点,如下图,目前也是没有解决全局最低点的方法,只能通过两个方法区尽量改善,使其趋近于全局最低点。①多个值随机初始化,让他们分别找各自的最低点,比较他们每个的最低点,②在整个求解的过程中,调整学习率。
尽管没有最低点,但是通过这两个方法改善效果还是不错的。
6 sklearn逻辑回归API
sklearn.linear_model.LogisticRegression
sklearn.linear_model.LogisticRegression(penalty=‘l2’, C = 1.0)
penalty=‘l2’:L2正则化 C:正则化力度
Logistic回归分类器 coef_:回归系数
7 案例
良/恶性乳腺癌肿瘤预测
原始数据的下载地址: https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/
数据描述:
主要信息:①699条样本,共11列数据,第一列用语检索的id,后9列分别是与肿瘤 相关的医学特征,最后一列表示肿瘤类型的数值。2表示良性,4表示恶性 ②包含16个缺失值,用”?”标出。
哪一个类别少,判定概率值是指这个类别,因为恶性少,所以判定恶性为正例,此时良性就是反例。假如良性比较少,那就判定良性为正例,恶性为反例
注意:①数据样本如上,因为第一个行没有指定特征值的名字是什么,如果pd去读取他的时候没有默认给定每一列的名字,那么会默认把第一行当做列表名,所以读取的时候要指定列名
②因为缺失值为?,所以需要修改为np.NaN
实现步骤:①网上获取数据(工具pandas) ②数据缺失值处理、标准化(回归都是需要标准化的) ③LogisticRegression估计器流程
pandas使用:
pd.read_csv(’’,names=column_names)
column_names:指定类别名字
return:数据
replace(to_replace=’’,value=):返回数据
dropna():返回数据
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
# 构造列标签名字
column = ['Sample code number','Clump Thickness', 'Uniformity of Cell Size','Uniformity of Cell Shape','Marginal Adhesion','Single Epithelial Cell Size','Bare Nuclei','Bland Chromatin','Normal Nucleoli','Mitoses','Class']
# 读取数据
data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",names=column)
print(data)
# 缺失值处理,将?替换
data = data.replace(to_replace='?',value=np.nan)
# 删除缺失值,使用dropna,把有缺失值的整行删除
data = data.dropna()
# 将数据切分分训练集合测试集,切片是的索引是从0开始的
x_train,x_test,y_train,y_test = train_test_split(data[column[1:10]],data[column[10]],test_size=0.25)
# 特征值标准化处理,因为是分类问题,所以目标值不用标准化
std = StandardScaler()
x_train = std.fit_transform(x_train)
x_test = std.transform(x_test)
# 逻辑回归预测
# 有默认值penalty='l2', dual=False, tol=1e-4, C=1.0,
log = LogisticRegression()
log.fit(x_train,y_train)
print("权重为",log.coef_)
# 预测测试集的目标值
y_predict = log.predict(x_test)
# target_names指定目标分类,labels对应目标分类,指定4为恶性,2位良性
print("召回率为",classification_report(y_test,y_predict,labels=[4,2],target_names=["恶性","良性"]))
8 总结
应用:广告点击率预测、电商购物搭配推荐
优点:适合需要得到一个分类概率的场景
缺点:当特征空间很大时(多分类),逻辑回归的性能不是很好 (看硬件能力)
二分类问题首先想到用逻辑回归问题做。
判别模型与生成模型的区分:是否有先验概率,有先验概率的为生成模型,没有的为判别模型。先验概率就是说是否需要从历史数据中总结出一些概率信息。如朴素贝叶斯求本文概率的时候要先求某个文章的,某个类别下某个词的概率P(f1,f2..|c)P(c),求这些就提前需要在数据中获取这些东西,P(c)就是先验概率,要先求每个类型的概率是多少。现在某个文章过来了,要判断这个文章类别就要判断在历史数据上面他是怎样的一个概率情况
常见的判别模型:k-近邻,决策树,随机森林,神经网络
常见生成模型:朴素贝叶斯,隐马尔可夫模型
朴素贝叶斯和逻辑回归的比较:
| 逻辑回归 | 朴素贝叶斯 |
解决问题 | 二分类 | 多分类 |
应用场景 | 癌症预测,二分类需要概率 | 文本分类 |
参数 | 正则化力度 | 没有 |
模型 | 判别模型 | 生成模型 |
相同点 | 得出的结果都有概率解释 |