第1章:绪论
什么是机器学习
经典定义:利用经验改善系统自身的性能
计算机程序(算法)如何随着经验积累自动提高性能、系统自我改进的过程。
“假设用????来评估计算机程序在某任务类????上的性能,若一个程序通过利用经验????在????中任务上获得了性能改善,则我们就说关于????和????,该程序对????进行了学习”
三个特征:
某类任务T:Task
性能P:Performance
经验E:Experience or Examples
????根据训练数据是否拥有标记信息,学习任务分为“监督学习”与“无监督学习”。
⭐监督学习(supervised learning):分类、回归
如果我们预测的值是离散值,此类学习任务称为“分类”;
若欲预测的是连续值,此类学习任务称为“回归”。
⭐无监督学习(unsupervised learning):聚类
半监督学习:两者结合
泛化能力和归纳偏好
机器学习的目标是使得学到的模型能很好的适用于“新样本”,而不仅仅是训练集合,我们称模型适用于新样本的能力为泛化(generalization)能力。
版本空间:与训练数据一致的假设集合
学习过程中对某种类型假设的偏好称作归纳偏好
“奥卡姆剃刀”:若有多个假设与观察一致,选最简单的那个
没有免费的午餐定理
一个算法a如果在某些问题上比另一个算法b好,必然存在另一些问题,b 比a好,也即没有免费的午餐定理。
没有免费的午餐-启发
对于任意的固定训练集X,对于所有的目标函数f(问题)求平均(均匀分布),所有学习算法的训练集外误差之期望值相同。
学习算法自身的归纳偏好与问题是否匹配,会起决定性作用