概述
- 学习机器学习中不同的回归类型,包括线性回归和逻辑回归
- 每种回归方法都有自己的回归方程和回归系数
- 在本文中,我们将介绍7种不同的回归类型
Introduction
线性回归和逻辑回归通常是人们在数据科学中最先学习的算法。由于它们的流行,许多分析师甚至认为它们是唯一的回归形式。稍微有点参与的人认为他们是所有形式的回归分析中最重要的。
事实上,回归有无数种形式,可以进行。每种形式都有其自身的重要性和最适合应用的特定条件。在本文中,我以一种简单的方式解释了数据科学中最常用的7种类型的回归。
通过这篇文章,我也希望人们能够对回归的广度有一个概念,而不是仅仅将线性/逻辑回归应用到他们遇到的每一个机器学习问题上,并希望它们刚好适合!
如果你是数据科学的新手,想找一个地方开始你的旅程,“数据科学”课程是一个很好的起点!它涵盖了Python、统计和预测建模的核心主题,是您进入数据科学的第一步的完美方式。
Table of Contents
- 什么是回归分析?
- 为什么我们要使用回归分析?
- 回归的类型是什么?
- 线性回归
- 逻辑回归
- 多项式回归
- 逐步回归
- Ridge回归
- Lasso回归
- ElasticNet回归
4.如何选择合适的回归模型?
What is Regression Analysis?
回归分析是预测建模技术的一种形式,它研究的是因变量(目标)与自变量(预测因子)之间的关系。这一技术用于预测、时间序列建模和找出变量之间的因果关系。例如,鲁莽驾驶和司机发生交通事故的数量之间的关系最好通过回归来研究。
回归分析是建模和分析数据的重要工具。在这里,我们将曲线/直线拟合到数据点上,使数据点与曲线或直线之间的距离差减到最小。我将在接下来的小节中更详细地解释这一点。
Why do we use Regression Analysis?
如上所述,回归分析估计了两个或多个变量之间的关系。让我们用一个简单的例子来理解这一点:
比方说,你想根据当前的经济状况来估计一家公司的销售增长。你有最近公司的数据显示销售的增长大约是经济增长的2.5倍。利用这种洞察力,我们可以根据当前和过去的信息来预测公司未来的销售。
使用回归分析有多种好处。它们如下:
- 它表明了因变量和自变量之间的显著关系。
- 表示多个自变量对一个因变量的影响强度。
回归分析还允许我们比较不同尺度测量的变量的影响,例如价格变化的影响和促销活动的数量。这些好处有助于市场研究人员/数据分析师/数据科学家消除和评估用于建立预测模型的最佳变量集。
How many types of regression techniques do we have?
有各种各样的回归技术可以用来进行预测。这些技术主要由三个指标驱动(自变量的数量、因变量的类型和回归线的形状)。我们将在下面几节中详细讨论它们。
对于那些有创意的项目,如果你觉得有必要使用以上参数的组合,你甚至可以编造出新的回归,而人们以前从未使用过这些参数。但在你开始之前,让我们先来了解一下最常用的回归:
1. Linear Regression
它是最广为人知的建模技术之一。线性回归通常是人们学习预测建模时最先选择的几个主题之一。在这种方法中,因变量是连续的,自变量可以是连续的,也可以是离散的,回归线的性质是线性的。
线性回归利用一条最合适的直线(也称为回归线)建立因变量(Y)和一个或多个自变量(X)之间的关系。
它由方程
表示,其中a是截距,w是直线的斜率,e是误差项。该方程可以根据给定的预测变量来预测目标变量的值。
简单线性回归与多元线性回归的区别在于,多元线性回归有(>1)个自变量,而简单线性回归只有1个自变量。现在的问题是“我们如何获得最佳拟合线?”
How to obtain best fit line (Value of a and b)?
用最小二乘法可以很容易地完成这一任务。这是用来拟合回归线最常用的方法。它通过最小化每个数据点到直线的垂直偏差平方和来计算观测数据的最佳拟合直线。因为偏差是第一个平方,当相加时,正负值之间不会相互抵消。
我们可以使用度量r平方来评估模型的性能。要了解关于这些度量的更多细节,您可以阅读:模型性能度量第1部分,第2部分。
Important Points:
- 自变量和因变量之间必须存在线性关系
- 多元回归存在多重共线性、自相关、异方差等问题。
- 线性回归对异常值非常敏感。它会严重影响回归线,并最终影响预测值。
- 多重共线性增加了系数估计的方差,使估计对模型中的微小变化非常敏感。结果表明,系数估计是不稳定的.
- 对于多自变量的情况,我们可以采用正向选择、反向消去和分步法来选择最重要的自变量。
2. Logistic Regression
使用逻辑回归来找出事件=成功和事件=失败的概率。当因变量是二进制(0/ 1,真/假,是/否)时,我们应该使用逻辑回归。这里Y的取值范围为0到1,可以用以下方程表示。
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
上面,p是某一特征出现的概率。你应该问的一个问题是“为什么我们要在等式中使用log ?”
由于我们在这里处理的是一个二项分布(因变量),我们需要选择一个最适合这个分布的链接函数。它是logit函数。在上面的方程中,选择参数是为了最大化观察样本值的可能性,而不是最小化平方误差的总和(就像在普通回归中一样)。
Important Points:
- 逻辑回归广泛用于分类问题
- Logistic回归不需要因变量和自变量之间存在线性关系。它可以处理各种类型的关系,因为它对预测的优势比应用了非线性的日志转换。
- 为了避免过拟合和拟合不足,我们应该包括所有重要的变量。确保这一实践的一个好方法是使用逐步明智的方法来估计逻辑回归。
- 它需要很大的样本量,因为在小样本量的情况下,最大似然估计值的能力不如最小二乘法。
- 自变量之间不应相互关联,即不存在多重共线性。但是,我们可以选择在分析和模型中包含分类变量的交互作用。
- 如果因变量的值为序数,则称为序数逻辑回归
- 如果因变量是多类的,则称为多项逻辑回归。
3. Polynomial Regression
如果自变量的幂大于1,则回归方程为多项式回归方程。下式为多项式方程:
在这种回归技术中,最佳拟合直线不是直线。而是一条与数据点相吻合的曲线。
Important Points:
尽管人们可能倾向于拟合更高次的多项式以获得更低的误差,但这可能导致过拟合。始终绘制关系以查看是否合适,并集中精力确保曲线符合问题的性质。这里有一个如何绘图可以帮助的例子:
尤其要注意末端的曲线,看看这些形状和趋势是否有意义。较高的多项式最终会产生外推的奇异结果。
4. Stepwise Regression
当我们处理多个自变量时,就会用到这种形式的回归。在这种技术中,独立变量的选择是在自动过程的帮助下完成的,不需要人工干预。
这一壮举是通过观察统计值,如r平方,t统计和AIC度量来辨别重要的变量。逐步回归基本上符合回归模型,它是根据特定的标准,每次增加或减少一个协变量。下面列出了一些最常用的逐步回归方法:
- 标准的逐步回归做了两件事。它根据每个步骤的需要添加和删除预测器。
- 正向选择从模型中最重要的预测器开始,并为每一步添加变量。
- 向后消除从模型中的所有预测器开始,并为每一步删除最不重要的变量。
这种建模技术的目的是用最少的预测变量来获得最大的预测能力。它是处理数据集高维性的方法之一。
5. Ridge Regression
岭回归是在数据存在多重共线性(自变量高度相关)时使用的一种方法。在多重共线性中,虽然最小二乘估计是无偏的,但其方差很大,使得观测值与真实值相差甚远。通过在回归估计中加入一定程度的偏差,岭回归降低了标准误差。
上面,我们看到了线性回归方程。还记得吗?它可以表示为:
y = a + b * x
这个方程也有一个误差项。完全方程为:
y=a+b*x+e (error term), [error term is the value needed to correct
for a prediction error between the observed and predicted value]
=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
在线性方程中,预测误差可以分解为两个子分量。首先是由于偏差,其次是由于方差。由于这两种或两种因素中的任何一种,都可能发生预测误差。在这里,我们将讨论由方差引起的误差。
岭回归解决多重共线性问题通过收缩参数λ(λ)。看看下面的方程。
在这个方程中,我们有两个分量。第一个是最小平方项,另一个是求和的
,β是系数。这是添加到最小二乘法项,以缩小参数具有一个非常低的方差。
Important Points:
- 该回归的假设与最小二乘回归相同,只是不假设正态性
- 岭回归缩小了系数值,但没有达到零,说明没有特征选择特征
- 这是一种正则化方法,使用l2正则化。
6. Lasso Regression
与Ridge回归相似,Lasso(最小绝对收缩和选择算子)也对回归系数的绝对大小进行了惩罚。此外,它还可以降低线性回归模型的可变性,提高模型的准确性。请看下面的方程:Lasso回归与ridge回归的不同之处在于,它在惩罚函数中使用绝对值,而不是平方。这将导致惩罚(或等效地限制估计值的绝对值之和)值,从而导致一些参数估计值恰好为零
Important Points:
- lasso回归的假设与最小二乘回归相同,只是不假设正态性
- Lasso回归将系数缩小到0(正好为0),这当然有助于特征的选择
- Lasso是一种正则化方法,使用l1正则化
- 如果一组预测因子高度相关,lasso只选择其中一个,而将其他预测因子缩减为零
7. ElasticNet Regression
ElasticNet Regression是lasso和Ridge回归技术的结合。采用L1和L2先验作为正则化器进行训练。当有多个相关的特征时,Elastic-net是有用的。Lasso可能会随机选择其中一个,而elasticnet可能会同时选择两个。
在lasso和Ridge之间进行权衡的一个实际好处是,它允许elasticnet在旋转时继承Ridge的一些稳定性。
Important Points:
- 在变量高度相关的情况下,鼓励群体效应
- 选择变量的数量没有限制
- 它会遭受双重缩水
除了这7种最常用的回归技术外,您还可以查看其他模型,如贝叶斯模型、生态模型和稳健回归模型。
How to select the right regression model?
当你只知道一两个技巧时,生活通常很简单。我知道的一个培训机构告诉他们的学生——如果结果是连续的——应用线性回归。如果是二分类——逻辑回归!然而,可供我们选择的选项越多,选择正确的选项就越困难。回归模型也有类似的情况。
在多元回归模型中,根据自变量和因变量的类型、数据中的维数以及数据的其他本质特征,选择最合适的方法是非常重要的。以下是选择正确的回归模型应该练习的关键因素:
- 数据挖掘是建立预测模型的必然组成部分。在选择正确的模型(如识别变量之间的关系和影响)之前,应该先迈出第一步。
- 为了比较不同模型的拟合优度,可以分析参数的统计意义、R-平方、修正r-平方、AIC、BIC和误差项等指标。另一个是马洛的CP准则。这实际上是通过比较模型与所有可能的子模型(或仔细选择它们)来检查模型中可能存在的偏差。
- 交叉验证是评估用于预测的模型的最佳方法。在这里,您将数据集分成两组(训练和验证)。观测值和预测值之间的简单均方差给出了预测精度的衡量标准。
- 如果数据集有多个混杂变量,则不应选择自动模型选择方法,因为您不希望同时将这些变量放入模型中。
- 这也取决于你的目标。与具有高度统计意义的模型相比,功能较弱的模型更容易实现。
- 回归正则化方法(Lasso、Ridge和ElasticNet)在数据集中变量之间存在高维和多重共线性的情况下,效果很好。
End Note
现在,我希望您已经对回归有了一个总体的了解。这些回归技术应该考虑到数据的条件。找出使用哪种技术的最佳技巧之一是检查变量的族,即离散变量或连续变量。
在本文中,我讨论了7种类型的回归以及与每种技术相关的一些关键事实。作为这个行业的新手,我建议您学习这些技术,然后在您的模型中实现它们。