引言
对于模型的评估与选择,我们可以通过实验测试来对学习器的泛化误差进行评估并对模型进行选择,因此我们需要一个测试集来测试学习器对没有见过的新样本的判别能力,并且用学习器在该测试集上的测试误差作为泛化误差的近似。
测试集应该尽可能与训练集互斥,也就是说测试集中的样本尽量不在训练集中出现,也就是尽量不在训练过程中被使用过。
为什么?举个栗子。在大学的期末考试中,老师会选择用平时的作业题来作为期末考试题。如果期末考试题中作业题占了很大一部分,那么这样的期末考试题对于评估大家学习的效果是不理想的,努力的人和摸鱼的人的成绩差别不大,虽然看似是种双赢的结果,但对于选拔人才其实是不利的,因为平时努力的人更具有举一反三的能力,即便不是作业题,他们能够做出来的概率也很高。对于评估分类器也是如此。如果测试样本被用作训练,得到的结果是“乐观的”,并不能很好的区分学习器的泛化能力。
但是我们只有一个包含m个样本的训练集D,既要训练,又要测试,那么如何才能做到这一点呢?其实很容易想到,对D进行适当处理,分出测试集T和训练集S。接下来介绍几种常见的划分测试集和训练集的方法。
留出法(hold-out)
留出法直接将数据集D划分为两个互斥的集合:训练集S与测试集T。满足S∪T=D,S∩T=Ø。用S训练模型,用T评估误差作为对泛化误差的估计。
Note:
- 训练集和测试集的划分要尽可能保持数据分布的一致性。在分类任务中,至少要保持样本的类别比例相似。从采样角度来说,保留类别比例的采样方式称为分层采样。例如测试集中正例和反例的比例是2:1,那么训练集和测试集中正例和反例的比例都要是2:1。
- 即便给定了样本比例后,仍然存在多种方式对数据集D进行划分,比如1000个正例中要分到训练集中700个,分到测试集中300个,但这700个和300个具体是哪些?这样不同的划分会导致不同的训练集\测试集。一般采用若干次随机划分、重复实验评估取平均值作为留出法的评估结果。
窘境:
- 若训练集S包含绝大多数样本,则训练出的模型更接近于直接用D训练出的模型,但由于T较小,评估的结果可能不够稳定准确,我们说此时评估结果的稳定性差。
- 若测试集T多包含一些样本,则测试集S和训练集D差别就会增大,被评估模型与用D训练出的模型可能有较大差别,我们说此时评估结果的保真性差。
常用比例:
训练集和测试集大小的比例没有完美的解决方案,常见的做法是将约2/3至4/5的样本用于训练,其余用于测试。例如训练集:测试集=7:3。
交叉验证法(cross validation)
交叉验证法先将数据集D分为k个大小相似的互斥子集。每个子集Di都尽可能与整体数据集D保持数据分布的一致性,即从D中分层采样。
这样划分得到k个互斥子集后,则进行k次训练和测试。每次训练取k-1个子集,合起来作为训练集,剩下的那1个子集用作测试集;一共有k种取法。k次训练则是用这k种取法划分的k种训练集和测试集。最终返回k个测试结果的平均值。
Note:
交叉验证法评估结果的稳定性和保真性很大程度上取决于k的取值。k常用的取值是10,又称10折交叉验证。
与留出法类似,交叉验证法对于具体k个子集中有哪些样本同样存在多种划分。k折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值,例如常见的10次10折交叉验证。
留一法
如果交叉验证法中的k等于数据集D的大小m,那么就得到交叉验证法的一个特例,又称为留一法。
留一法中被实际评估的模型与期望评估的模型很相似,留一法的评估结果往往被认为较准确。
缺陷:
- 数据集较大时,训练m个模型的计算开销太大。
- 留一法的估计结果未必永远比其他评估方法准确。
自助法(bootstrapping)
自助法以自主采样法为基础。
具体做法:
给定m个样本的数据集D,从D中进行m次随机采样,每次采样后均放回。于是得到新的数据集D’。D’中存在重复数据。但数据集D和新的数据集D’的大小均为m。
D中有一部分样本会在D’中重复出现,另外一部分样本不会出现。我们知道在一次随机抽样中,m个样本中抽中某个样本的概率为1m,那么不被抽中的概率为1−1m。由二项分布,m次独立采样中某样本一直不被抽中的概率为(1−1m)m。
对上式取极限:
limm➡∞(1−1m)m=1e≈0.368
也就是说,通过自主采样,一个样本始终不出现在D’中的概率大约是0.368,由于D的大小为m,我们可以得到D中大约有0.368 * m个样本始终不会出现在D’中。
于是,我们用D’作为训练集,而D−D′作为测试集。
优点:
自助法在数据集较小、难以有效划分训练集和测试集时很有用。
缺点:
这里给大家整理了一份《软件测试工程师进阶的技术栈》,包含了诸多技术栈,希望能帮助在升级打怪中提供中坚力量