回归问题–输出的结果是一个具体的值
分类问题–输出的结果是唯一的类别值(是或不是,超过或者不超过,等等)
机器学习的核心:通过训练,找到特征与结果之间的“关系”(pattern)。利用找到的关系解决问题。
线性回归概述(个人理解,请注意甄别):
根据输入数据集中数据的特征与结果,找到一条“线”,这条线可以最大程度的拟合输入的训练数据;(如果二维空间(单特征),找一条线y = ax + b, 如果是三维空间(双特征),则需要找一个面z = ax + by + c,依次类推)
在机器学习的线性回归问题中,这条线就是要找的特征与结果之间的关系,利用这条线,我们得以计算出测试数据集的结果值;
预测值与误差:
误差项分析:
误差:真是值与预测值之间的差距;
每个样本的误差不同,相互独立,互不影响,服从同分布;
误差方差为0,均值为θ*θ,服从高斯(正态)分布;
似然函数求解:
- 由于误差服从高斯分布:
- 将误差公式带入:
- 似然函数(参数估计)
似然函数的大概意思是:根据样本,估计参数值; 根据实际数据推导参数,看什么样的参数跟我们数据组合之后恰好是真实值;(个人理解,仅供参考) - 对数似然:利用对数,将累乘问题转化为累加问题
- 我们的目标是让似然函数和对数似然越大越好,故需求下述表达式最小值(最小二乘法的来历)
目标函数J(θ)求解:
对θ求偏导,令结果为零求得最小值点,推导结果如下:
评估方法 R方(R方越接近1越好,越接近0不好):