复盘:手推LR(逻辑回归logistics regression),它和线性回归linear regression的区别是啥?
提示:系列被面试官问的问题,我自己当时不会,所以下来自己复盘一下,认真学习和总结,以应对未来更多的可能性
关于互联网大厂的笔试面试,都是需要细心准备的
(1)自己的科研经历,科研内容,学习的相关领域知识,要熟悉熟透了
(2)自己的实习经历,做了什么内容,学习的领域知识,要熟悉熟透了
(3)除了科研,实习之外,平时自己关注的前沿知识,也不要落下,仔细了解,面试官很在乎你是否喜欢追进新科技,跟进创新概念和技术
(4)准备数据结构与算法,有笔试的大厂,第一关就是手撕代码做算法题
面试中,实际上,你准备数据结构与算法时以备不时之需,有足够的信心面对面试官可能问的算法题,很多情况下你的科研经历和实习经历足够跟面试官聊了,就不需要考你算法了。但很多大厂就会面试问你算法题,因此不论为了笔试面试,数据结构与算法必须熟悉熟透了
秋招提前批好多大厂不考笔试,直接面试,能否免笔试去面试,那就看你简历实力有多强了。
文章目录
- 复盘:手推LR(逻辑回归logistics regression),它和线性回归linear regression的区别是啥?
- @[TOC](文章目录)
- 面试官:请你手推LR,它的梯度是啥?
- LR的典型应用场景:二分类
- 总结
面试官:请你手推LR,它的梯度是啥?
我们首先会介绍一个函数,也就是我们sigmoid的函数,
有些场景下,也会叫logistic函数,
这个函数其实非常简单,也就是我们这张图,
输入是X,然后,我们有个参数theta,
我们的输入,做了一下加权求和theta*x
这个是什么样的,我们说它是个典型的一个S型的一个图像,对?这图像有什么特点?
首先,就在原点零的情况?我们说可以往这画对,零,它其实对应的,是等于0.5
可以把零带进去是什么?E的零次方是等于1的,
整体也就是1/2
也就是说我们在原点的时候的话,它是等于0.5,
那么如果随着我们横轴,X轴往右一直是趋向于正无穷大的时候,你这个函数是什么趋向于一的。
也就是说,这个theta乘以X是趋向于无穷大,
那么负C大X趋向负无穷大,
e的负无穷大是等于什么是等于0的,
那么一加零,就等于一和1/1?
总之函数长下面这样
就是说它的值域,是在零到一之间的。
还有是什么?还有就是说它是一个平滑的,对不对,
平滑就方便什么,方便我们做,求微分,
或者说要求导对?
这个函数的一个导数,有一个非常好的一个结果,大家可以去求一下,下图我画出来了
求得的会发现这个函数的导数,就是等于原先的值乘以一减去原先的值,
也就是说它的导数,非常容易求,很简单,
线性回归linear regression的话,直接是说一个线性函数,直接把它值输出了,
我们现在logistics regression干啥呢?把y做了一个非线性变换,
那么这个非线性变换拿到这样的一个值相当于什么?
相当于把它压缩到零到一之间,那么压缩到零到一之间,又有什么特点?
因为我们说概率一个元素,它的概率的值是零到一的。
所以我们可以近似的把这个函数的值域表示成什么?表示成一个概率,
或者说它表示,我们就可以把它近似的看成是一个概率,它主观就是概率的一个定义,对不对?
这个时候我们说我们再来重新的看一下我们这个函数,
首先,我们说这个函数,对我们原始的输入,就是X,就是我们的特征,
然后我们身高体重等等值得你关注的目标是相关的一些特征
首先对每个特征做一下价值求和,做完加权求和之后,我们就拿到了汇总
线性回归拿到的一个值,然后对这个值做一下非线性变换,
压缩到零到一之间,已使得这个零到之间的值,能够表示成概率。
LR的典型应用场景:二分类
那么我们说这个LR的一个典型的一个场景,就是我们一个二分类的一个任务,
我输入我们的一个X,我们希望它输出是零或者是一,
那么我们对应到我们的LR模型,它用到了sigmoid函数
首先,我们对我们抽取出来的特征做一个线性变换,
就就直接是对我们加权求和,
再经过一个logistics函数,映射到零到一之间,就认为它是个概率,
我们再加上这个概率的值,与我们的一个阈值0.5进行比较,
那如果大于这个值,我们认为它就是一
小于我们的阈值0.5,认为它就是零,
这样的话,就能够得到我们的一个标签,
也就是说我们的这样的一个变化,
如果为一的概率,是大于0.5的,我们认为什么为一
如果小于0.5个,概率是零
就能够把它标记设置成零,
这个就是我们的一个函数。
经过y预测为1或者0的表达式各种转化
我们说一个更简便的方式,如上图
也就是说,我不管你的样本是等于Y是等于几,我都可以用这种方式来表示。
现在,假设我们有m个样本,训练样本是独立的,
我假设M的训练样本是独立的,
那么你需要解释每一个样本出现的概率
也就是说在X给定的情况下,我们的Y指定的概率是多少,
就等于它的一个乘积,对不对?【上图】
说白了我们就要求theta
使得上面L(theta)这个最大似然函数尽可能的大
相当于逼迫y_predict=y_groundtruth
但是直接求还不好求,我们讲L取对数吧
连乘变累加和咋求l最大值呢,不就是对theta求导数吗?
经过我文章开头求过的sigmoid的函数的导数公式
各种化简,求到,整理
最后得到了梯度时间上很简单
即使(y-y_predict)*x
y就是真实值,标签
ypredict就是咱们LR模型输出的值
x是训练样本,梯度一出来
更新theta岂不就是很简单
这样就用梯度下降法,将LR的参数theta优化好了
LR就手动推导完成!!!
面试官常问的问题哦这可是
总结
提示:重要经验:
1)LR是线性回归用sigmoid激活之后的概率,线性回归是线性回归问题,而逻辑回归是二分类问题,sigmoid求到很重要,另外,LR的最大似然函数求到很重要
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。