机器学习模型评估与选择

k折交叉验证法

自助法

调参
错误率 精度
P-R曲线

K折交叉验证选择KNN的K值_人工智能


!]()

1.误差

训练误差:在训练集上的误差

测试误差:在测试集上的误差

泛化误差:学习器在所有新样本上的误差

2.过拟合:学习能力过强,以至于把训练样本所包含的不太一般的特性都学到了

(欠拟合)3.K折交叉验证法:

作用:解决问题时可供选择的机器学习算法有很多种,交叉验证法能帮助我们实现多种机器学习方法的比较。

例(10折交叉验证法):将所有样本进行十等份,其中任意一等份当作测试数据,其余为训练数据,如下图所示,黄色为测试数据,蓝色为训练数据

K折交叉验证选择KNN的K值_算法_02


缺点:当数据量较大时,不好计算。4.自助法:直接以自助取样法为基础

K折交叉验证选择KNN的K值_算法_03


适用:数据较小,难以划分

缺点:当改变初始数据集分布时,会引入估计误差。

5.调参(超参数)

目的:对模型的参数进行相应的调整,以期获得更好的预测效果

模型参数:模型内部的配置变量,可以用数据估计。

模型超参数:模型外部的配置,必须手动设置参数的值,其值不能从数据估计中得到。

验证集:在调参过程中,经常会加一个数据集–验证集。训练集训练,验证集看结果,然后调参,再用验证集看结果…调到最佳后,在测试集上看结果。6.错误率,精度

错误率

K折交叉验证选择KNN的K值_K折交叉验证选择KNN的K值_04


精度

K折交叉验证选择KNN的K值_人工智能_05


其中双杠号是统计满足括号内条件的元素的个数7.P-R曲线

举例:手写数字识别;分类器;二分类等等

(其实际上都是随着阈值的移动,查全率与查准率的反向关系)即如下图

K折交叉验证选择KNN的K值_算法_06


阈值-PR图像:

K折交叉验证选择KNN的K值_交叉验证_07


而P=R时的阈值点,也是确定最优阈值的一个方法