1.线性回归
回归一词最早由英国科学家弗朗西斯·高尔顿(Francis Galton)提出。他发现一个趋势:父母高,儿女也高;父母矮,儿女也矮。但给定父母的身高,儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高。换句话说,即使父母双方都异常高或者异常矮,儿女的身高还是会趋向于人口总体的平均身高。这也就是所谓的普遍回归规律。
现代意义上的回归分析用来预测两种两种以上变量间相互依赖的定量关系。其中被预测的变量叫因变量,被用来进行预测的变量叫自变量。
当自变量与因变量之间存在线性关系时则叫做线性回归,按照自变量个数的多少可以将线性回归分为一元线性回顾与多元线性回归。以下图为例,自变量为房屋面积,因变量为房屋价格,通过找到一条直线去拟合数据点的分布趋势的过程,就是线性回归的过程。
2. 一元线性回归
假设一元线性方程为
3.多元线性回归
4.线性回归算法的衡量指标
- 均方误差(RSE)
均方根误差等于所有预测值与真实值误差平方和再除以样本数量。
- 均方根误差(RMSE)
均方根误差等于均方误差的算术平方根。 - 平均绝对误差(MAE)
平均绝对误差等于预测值与真实值的误差绝对值之和再除以样本数量。 - R方(R^2)
- R^2的取值小于等于1。取值越大,回归模型拟合的效果越好。取值越小,回归模型拟合的效果越差。
参考