1.简单的介绍一下线性回归。
是一种预测模型,利用各个特征的数值去预测目标值。线性回归的主要思想是给每一个特征分配一个权值,最终的预测结果是每个特征值与权值的乘机之和再加上偏置。所以训练的目标是找到各个特征的最佳权值和偏置,使得误差最小。线性回归的假设前提是噪声符合正态分布。线性回归也可以做分类,但是效果不好。
2.线性回归的损失函数 && 为什么使用?
3.线性回归要求因变量符合正态分布?
是的。线性回归的假设前提是特征与预测值呈线性关系,误差项符合高斯-马尔科夫条件(零均值,零方差,不相关),这时候线性回归是无偏估计。噪声符合正态分布,那么因变量也符合分布。在进行线性回归之前,要求因变量近似符合正态分布,否则线性回归效果不佳(有偏估计)。
4.如果判断数据是否符合正态分布?将数据转化成符合正态分布的方法。
看一下这个非正态转化成正态 看峰度和偏度。若偏度大于3倍标准差,则需要进行处理。
偏度大于3倍标准差,可以进行log变换。
2-3倍,可以进行根号处理。
5.LASSO回归和RIDGE回归的使用目的和使用场景。
解决普通线性回归过拟合问题。解决方程求解法中的非满秩矩阵无法求解问题。约束参数。
6.线性回归求解方法
(1)公式法,损失对w和b进行求导,倒数为0,然后求解w和b。(需要时满秩矩阵,样本数量要大于特征数量)
(2)优化方法,初始化w和b,然后使用优化方法不断进行优化求解。通常使用梯度下降法。
7.线性回归的五大假设
1.特征和标签呈线性关系。
2.误差之间相互独立
3.自变量相互独立
4.误差项的方差应为常数
5.误差呈正态分布
8.线性回归不好的原因
1.普通线性回归易过拟合,使用LASSO或者RIDGE回归试试.
2.数据不符合线性回归的假设。
3.特征工程要不再搞搞?
9.简要介绍一下线性回归处理步骤,怎么确定因变量与自变量间线性关系,什么情况下可停止迭代,怎么避免过拟合情况?
一般来说缺失值处理、类别变量数值化,异常值处理,连续特征离散化(数据分桶)等等,当两次迭代所带来的增益小于事先给定的阈值时,或者达到事先设定的最大迭代次数,则停止迭代过程,过拟合没法避免只能说是尽量降低过拟合的影响,通过l1、l2正则化、减少特征的数量、增大样本的数量等等。
10.LASSO和RIDGE谁更好
答:你可以引用ISLR的作者Hastie和Tibshirani的话,他们断言在对少量变量有中等或大尺度的影响的时候用lasso回归。在对多个变量只有小或中等尺度影响的时候,使用Ridge回归。
从概念上讲,我们可以说,Lasso回归(L1)同时做变量选择和参数收缩,而ridge回归只做参数收缩,并最终在模型中包含所有的系数。在有相关变量时,ridge回归可能是首选。此外,ridge回归在用最小二乘估计有更高的偏差的情况下效果最好。因此,选择合适的模型取决于我们的模型的目标。
实际回答,都试一下不就完了吗
11.选择题
下列关于线性回归说法错误的是(D)
A.在现有模型上,加入新的变量,所得到的R^2的值总会增加
B.线性回归的前提假设之一是残差必须服从独立正态分布
C.残差的方差无偏估计是SSE/(n-p)
D.自变量和残差不一定保持相互独立
12.为什么进行线性回归前需要对特征进行离散化处理。
1.离散化操作很easy,特征离散化之后易于模型的快速迭代。
2.稀疏矩阵计算快,省内存。
3.鲁棒性强。单个特征数值过大或者过小对结果的影响会被降低。
4.可以产生交叉特征(相当于非线性了)
5.模型的稳定性加强了。
6.简化了模型,相当于降低了过拟合的风险。