• 概要
  • 前文总结
  • 有效的切分直线
  • 有效的假设空间
  • 断点break point

 

概要

本节主要讲训练和测试有什么不一样。上节中说到机器学习不可行,但是有的情况下是可以的。当假设空间有限,同时资料来自某一个分布。本节讲述当假设空间无限的时候会如何。

前文总结

上节中,我们讲到假如测试资料和训练资料来自同一个分布,如果假设空间有限,那么我们说机器学习是可行的。

林轩田机器学习基石笔记 林轩讲师_二分类


那么前面四节中主要围绕了两个问题:1)Ein和Eout会接近?

2)如何使得Ein变得更小?

那么上节课中提到的M扮演了什么角色呢?

林轩田机器学习基石笔记 林轩讲师_二维_02


当M很小的时候

1)根据霍夫丁不等式,Ein和Eout在大部分情况下都是很接近的。满足第一个条件。

2)但是当M很小的时候,假设空间可选的假设就很少了,这个时候就会导致不一定能找到一个假设使得Ein很小。

当M很大的时候
1)那么根据霍夫丁不等式,Ein和Eout很大可能不接近。就是机器学习学习不到东西。
2)但是我们可能能找到一个假设使得Ein很小。

那么能不能将M替换成一个小小的m呢?

林轩田机器学习基石笔记 林轩讲师_林轩田_03


假如我们可以找到一个小的m比M小很多,来替换M。是不是就很不错了呢?

有效的切分直线

回顾上节,我们到底为什么会的到很大的M呢?

林轩田机器学习基石笔记 林轩讲师_二分类_04


我们可以看到这里直接用的加号。

实际的情况呢?比如在PLA中,两条很相近的直线,那么他们的Ein和Eout应该是很接近的。这样的话,其实实际情况是不应该使用加法,而应该去掉重叠的部分:

林轩田机器学习基石笔记 林轩讲师_机器学习_05


我们以PLA为例:在二维平面中,有着无数条线,可不可以将这些线进行分类呢?很多线是具有差不多的Ein和Eout的。我们可以从资料出发,因为资料是有限的。

如果资料只有一笔,那么有几类线呢?只有两种嘛。一种判断是+1,一种判断是-1。

如果有两个点呢?

林轩田机器学习基石笔记 林轩讲师_二维_06


这样就就产生了4种线条。

如果是三个点呢?就产生了8种线条。如果三个点排列在一起的话,就只有6种。

林轩田机器学习基石笔记 林轩讲师_林轩田机器学习基石笔记_07

如果是4个点呢?

林轩田机器学习基石笔记 林轩讲师_机器学习_08


这个时候是只有14种线条,而不是16种。

林轩田机器学习基石笔记 林轩讲师_机器学习_09


当资料的数量增长的话,根据霍夫丁不等式,有限的线条是远小于指数式的增长的。那么就会导致Ein和Eout很接近。所以尽管有很多很多线条,但是如果我们的假设空间的数量增长很慢的话,证明机器学习是可以学习到东西的。

有效的假设空间

这里以二分类为例。假设每条直线将资料分开后,这些资料被判断为+1或者-1。那么,如下图;

林轩田机器学习基石笔记 林轩讲师_林轩田机器学习基石笔记_10


假设空间的线条最大上线是2N个。

这里定义一个函数:增长函数,就是mh(N),就是根据资料个数,得到最大的一个假设空间。

林轩田机器学习基石笔记 林轩讲师_林轩田机器学习基石笔记_11


这里再简单点,假如是在一维空间中,只有正方向是+1,负的方向是-1。那么可以得到 mh(N)=N+1 ,这个是远远小于2N.

林轩田机器学习基石笔记 林轩讲师_机器学习_12


假如假设空间是一个凸集呢?

林轩田机器学习基石笔记 林轩讲师_二维_13


其实我们得到了如下一些空间的成长函数:

林轩田机器学习基石笔记 林轩讲师_林轩田机器学习基石笔记_14

断点(break point)

这里再来一个定义,断点:成长函数是随着资料的增长而增长的,那么我们称第一个不能被完全分割的点为断点。

比如在二维的PLA中,前面三个点都可以被划分开,而到第四个点,就找不到2N中划分方法了,所以我们说二维的PLA的断点是4。

这样我们可以得到:

林轩田机器学习基石笔记 林轩讲师_二维_15


那么这个断点到底是多少呢?

这里留下一个悬念:

林轩田机器学习基石笔记 林轩讲师_二维_16


我们说断点个数和资料量以及维度相关,O(Nk−1)

这样的数量级。

要后续证明,请听下回分解。