机器学习绪论

基本术语

基础

  • 模型:泛指从数据中学得的结果
  • 数据集 data set:一组记录的集合
  • 示例 instance/样本 sample:关于一个事件或对象的描述
  • 属性 attribute/特征 feature:反映事件或对象在某方面的表现或性质的事项
  • 属性值 attribute value:属性上的取值
  • 属性空间 attribute space/样本空间 sample space:属性张成的空间即 \(n\) 个特征描述出的 \(n\) 维空间
  • 特征向量 feature vector:每个示例在空间中的坐标向量
  • \(D={\{\vec{x_1},\vec{x_2},\cdots,\vec{x_m}\}}\):包含 m 个样本的数据集
  • \(\vec{x_i}=(x_{i1};x_{i2};\cdots;x_{id})\):\(d\) 维样本空间 \({\chi}\) 中的一个向量,\({\vec{x_i}}{\in}{\chi}\)
  • 输入空间:一个样本所有特征的集合
  • \(x_{ij}\):\(\vec{x_i}\)在第 \(j\) 个属性上的取值,后期可能会用 \(\vec{X}\) 展示
  • \(d\):\({\vec{x_i}}\) 的“维数 dimensionlity”
  • 学习 learning/训练 training:从数据中学得模型的过程
  • 训练数据 training data:训练过程中使用的数据
  • 训练样本 training sample:训练中的每个样本
  • 假设 hypothesis:学习模型对应了关于数据某种潜在的规律
  • 真相/真实 ground-truth:潜在规律自身
  • 学习器 learner:模型
  • 预测 prediction:获得训练样本的“结果”信息
  • 标记 label:样本结果的信息
  • 样例 example:拥有标记信息的样本
  • \((x_i,y_i)\):第 \(i\) 个样例,\(y_i\in{\vec{Y}}\) 是示例 \(x_i\) 的标记,\(\vec{Y}\) 是所有标记的集合
  • 标记空间 label space/输出空间:所有标记的集合

监督学习 supervised learning

  • 分类 classification:预测结果是离散值的学习任务

  • 回归 regression:预测结果是连续值的学习任务

  • 二分类 binary calssification:涉及两个类别

  • 正类 positive class 和 反类 negative class:“二分类”中的两个类别

  • 多分类 multi-class classification:涉及多个类别

  • 预测任务:对训练集 \(\{(\vec{x_1},y1),(\vec{x_2},y_2),\cdots,(\vec{x_m},y_m)\}\) 进行学习,建立一个从输入空间 \(\vec{X}\) 到 输出空间 \(\vec{Y}\) 的映射 \(f:\vec{X}\rightarrow\vec{Y}\),通常令 \(\vec{Y}=\{-1,+1\}\) 或 \(\{0,1\}\);对于多分类任务,\(|\vec{Y}|\gt2\);对回归任务,\(|\vec{Y}|=R\),\(R\) 为实数集

  • 测试 testing:对学得模型进行预测的过程

  • 测试样本 testing sample:被预测的样本,例如学得 \(f\) 后,对测试例 \(\vec{x}\) ,可得到其预测标记 \(y=f(x)\)


无监督学习 unsupervised learning

  • 聚类 clustering:将训练集中的西瓜分成若干组
  • 簇 cluster:“聚类”中的每一组。每一簇都可能对应一些潜在的概念划分并且这些概念我们事先是不知道的

进阶

  • 泛化 generalization:学得模型适用于新样本的能力
  • 分布 distribution \({{D}}\) :通常假设样本空间中全体服从一个未知“分布”
  • 独立同分布 independent and identically distributed \(i.i.d.\):每个样本都是独立地从这个分布上采样获得的

假设空间

  • 科学推理的两大基本手段:归纳 induction 与 演绎 deduction
  • 归纳:从特殊到一般的“泛化 generalization”过程,即从具体的事实归结出一般性规律
  • 演绎:从一般到特殊的“特化 specialization”过程,即从基础原理推演出具体状况
  • 归纳学习 inductive learning:从样例中学习
  • 广义归纳学习:相当于从样例中学习
  • 狭义归纳学习:从训练数据中学得概念,因此也称为“概念学习”或“概念形成”
  • 布尔概念学习:对“是”“不是”这样的可表示为0/1布尔值的目标概念的学习
  • 学习过程:在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配 fit”的假设,
  • 假设空间:能将训练集中的样本判断为正确的假设的集合
  • 版本空间 version space:一个与训练集一致的“假设集合”

归纳偏好

“版本空间”中可能有多个假设对应训练集中的某个样本,但是多个假设可能有不同的输出,那么应该采用哪一个模型(或假设)呢?

  • 归纳偏好 inductive bias:算法在学习过程中对某种类型假设的偏好
  • 如果没有归纳偏好:学得模型预测时时而告诉我们它是好的,时而告诉我们它是不好的
  • 奥卡姆剃刀 Ocam’s razor:若有多个假设与观察一致,则选最简单的那个
  • “没有免费的午餐”定理 No Free Lunch Theorem:无论学习算法 \(a\) 多聪明、学习算法 \(b\) 多笨拙,它们的期望性能都会相同。
  • NFL 定理前提:所有“问题”出现的机会相同、或所有问题同等重要
  • NFL 定理最重要的寓意:空泛的谈“什么学习算法更好毫无意义”,因为若考虑所有潜在的问题,则学习算法都一样好
  • 噪声:出现不应该出现的数据,例如相同的属性得出不一样的分类

机器学习研究的主要内容:在计算机中从数据中产生“模型 model”的算法,即“学习算法 learning algorithm”。

计算机科学研究“算法”;机器学习研究“学习算法”。

大多数时候算法的归纳偏好是否与问题本身匹配,直接决定了算法能否取得好的性能。