- 概要
- 前文总结
- 有效的切分直线
- 有效的假设空间
- 断点break point
概要
本节主要讲训练和测试有什么不一样。上节中说到机器学习不可行,但是有的情况下是可以的。当假设空间有限,同时资料来自某一个分布。本节讲述当假设空间无限的时候会如何。
前文总结
上节中,我们讲到假如测试资料和训练资料来自同一个分布,如果假设空间有限,那么我们说机器学习是可行的。
那么前面四节中主要围绕了两个问题:1)Ein和Eout会接近?
2)如何使得Ein变得更小?
那么上节课中提到的M扮演了什么角色呢?
当M很小的时候
1)根据霍夫丁不等式,Ein和Eout在大部分情况下都是很接近的。满足第一个条件。
2)但是当M很小的时候,假设空间可选的假设就很少了,这个时候就会导致不一定能找到一个假设使得Ein很小。
当M很大的时候
1)那么根据霍夫丁不等式,Ein和Eout很大可能不接近。就是机器学习学习不到东西。
2)但是我们可能能找到一个假设使得Ein很小。
那么能不能将M替换成一个小小的m呢?
假如我们可以找到一个小的m比M小很多,来替换M。是不是就很不错了呢?
有效的切分直线
回顾上节,我们到底为什么会的到很大的M呢?
我们可以看到这里直接用的加号。
实际的情况呢?比如在PLA中,两条很相近的直线,那么他们的Ein和Eout应该是很接近的。这样的话,其实实际情况是不应该使用加法,而应该去掉重叠的部分:
我们以PLA为例:在二维平面中,有着无数条线,可不可以将这些线进行分类呢?很多线是具有差不多的Ein和Eout的。我们可以从资料出发,因为资料是有限的。
如果资料只有一笔,那么有几类线呢?只有两种嘛。一种判断是+1,一种判断是-1。
如果有两个点呢?
这样就就产生了4种线条。
如果是三个点呢?就产生了8种线条。如果三个点排列在一起的话,就只有6种。
如果是4个点呢?
这个时候是只有14种线条,而不是16种。
当资料的数量增长的话,根据霍夫丁不等式,有限的线条是远小于指数式的增长的。那么就会导致Ein和Eout很接近。所以尽管有很多很多线条,但是如果我们的假设空间的数量增长很慢的话,证明机器学习是可以学习到东西的。
有效的假设空间
这里以二分类为例。假设每条直线将资料分开后,这些资料被判断为+1或者-1。那么,如下图;
假设空间的线条最大上线是2N个。
这里定义一个函数:增长函数,就是mh(N),就是根据资料个数,得到最大的一个假设空间。
这里再简单点,假如是在一维空间中,只有正方向是+1,负的方向是-1。那么可以得到 mh(N)=N+1 ,这个是远远小于2N.
假如假设空间是一个凸集呢?
其实我们得到了如下一些空间的成长函数:
断点(break point)
这里再来一个定义,断点:成长函数是随着资料的增长而增长的,那么我们称第一个不能被完全分割的点为断点。
比如在二维的PLA中,前面三个点都可以被划分开,而到第四个点,就找不到2N中划分方法了,所以我们说二维的PLA的断点是4。
这样我们可以得到:
那么这个断点到底是多少呢?
这里留下一个悬念:
我们说断点个数和资料量以及维度相关,O(Nk−1)
这样的数量级。
要后续证明,请听下回分解。