机器学习模型评估与选择
k折交叉验证法
自助法
调参
错误率 精度
P-R曲线
!]()
1.误差
训练误差:在训练集上的误差
测试误差:在测试集上的误差
泛化误差:学习器在所有新样本上的误差
2.过拟合:学习能力过强,以至于把训练样本所包含的不太一般的特性都学到了
(欠拟合)3.K折交叉验证法:
作用:解决问题时可供选择的机器学习算法有很多种,交叉验证法能帮助我们实现多种机器学习方法的比较。
例(10折交叉验证法):将所有样本进行十等份,其中任意一等份当作测试数据,其余为训练数据,如下图所示,黄色为测试数据,蓝色为训练数据
缺点:当数据量较大时,不好计算。4.自助法:直接以自助取样法为基础
适用:数据较小,难以划分
缺点:当改变初始数据集分布时,会引入估计误差。
5.调参(超参数)
目的:对模型的参数进行相应的调整,以期获得更好的预测效果
模型参数:模型内部的配置变量,可以用数据估计。
模型超参数:模型外部的配置,必须手动设置参数的值,其值不能从数据估计中得到。
验证集:在调参过程中,经常会加一个数据集–验证集。训练集训练,验证集看结果,然后调参,再用验证集看结果…调到最佳后,在测试集上看结果。6.错误率,精度
错误率
精度
其中双杠号是统计满足括号内条件的元素的个数7.P-R曲线
举例:手写数字识别;分类器;二分类等等
(其实际上都是随着阈值的移动,查全率与查准率的反向关系)即如下图
阈值-PR图像:
而P=R时的阈值点,也是确定最优阈值的一个方法