回归问题/分类问题

取决于输出变量的类型

  • 回归问题:连续性变量(温度、身高、气温)大多像是数值型的
  • 分类问题:更多是定性结果(好/坏)

特征、标签、样本三者之间的关系

相关工作经验 岗位 城市 薪资待遇

1	ai	北京	20
2	后端	上海	30
3	前端	南京	10
4			25
5			40
6			22
7			
8

基于这个样本集,我们可以看相关工作经验可以算是一个特征、岗位也可以作为一个特征,城市也可以作为一个特征去看,对应的呢,薪资待遇其实算是一个标签

他为什么是标签,我们去看数据特征算是一个三维的,由相关工作经验、岗位、城市构成,薪资对应其实算是要去预测的

logistic回归分析 sas 连续型变量_拟合

同时,我们可以也可以看,在这里x算是一个矩阵,y算是一个向量

拟合

简单点讲起实施用一条光滑的线连接起来

logistic回归分析 sas 连续型变量_线性回归_02

某种意义上讲,拟合是需要最接近样本或者是点的那么一条线

数据集

logistic回归分析 sas 连续型变量_建模_03logistic回归分析 sas 连续型变量_机器学习_04logistic回归分析 sas 连续型变量_线性回归_05
x1-xn算是特征向量,y1-yn算是label,注意一下logistic回归分析 sas 连续型变量_线性回归_06的维度是d

建模基本流程:

DataSource -> 数据预处理-> 特征工程 -> 建模 -> 验证
金融风险评估
情感分析

定义误差

误差的表示方法-平方误差

logistic回归分析 sas 连续型变量_机器学习_07

获取最小误差

logistic回归分析 sas 连续型变量_人工智能_08


我们要的结果其实就是,我们做的线性回归取得一个最小误差来帮助我们做某种意义上的决策

根据我们上回得到的,最小误差其实还是要去看我们给出的平方误差公式logistic回归分析 sas 连续型变量_建模_09

在这里只不过是,我们拿到的logistic回归分析 sas 连续型变量_拟合_10都是我们基于logistic回归分析 sas 连续型变量_拟合_11的这么一个斜率取得的结果,因为logistic回归分析 sas 连续型变量_机器学习_12的计算公式是logistic回归分析 sas 连续型变量_建模_13,因为在这里直线又是由(k,b)这两个参数去做控制的,所以实际上我们需要的 logistic回归分析 sas 连续型变量_机器学习_14完全是要根据斜率公式来去实现的。

固确定最小误差的公式就变成了这样logistic回归分析 sas 连续型变量_建模_15,另外一种呈现效果就是logistic回归分析 sas 连续型变量_线性回归_16 所以这个l其实也算是目标函数,

即最终公式其实是logistic回归分析 sas 连续型变量_拟合_17

符号解释

logistic回归分析 sas 连续型变量_建模_18这是累加符号,叫sum
logistic回归分析 sas 连续型变量_线性回归_19这是乘法的意思,叫product

线性回归求解

logistic回归分析 sas 连续型变量_拟合_20

logistic回归分析 sas 连续型变量_机器学习_21,这个是干嘛的?,求平均值

logistic回归分析 sas 连续型变量_线性回归_22


这个公式是通过偏导的方式来获取公式当中的b参数具体值