回归任务做交叉验证码

转载

编程小天才 2025-01-04 23:10:31

文章标签 回归任务做交叉验证码机器学习数据挖掘交叉验证数据 文章分类 机器学习人工智能

13 交叉验证

标签：机器学习与数据挖掘
（此篇R代码对应本博客系列《12 R语言手册（第五站多元回归》）

1.交叉验证概述

若不采用正确的方法，数据挖掘将成为数据淤积，数据挖掘分析人员发现的是虚幻的结果，来自于随机变化而不是真正的影响。因此，至关重要的是数据挖掘人员需要避免数据淤积。实现这一目标的方法是通过交叉验证。
交叉验证是一种技术，用于确保通过分析所发现的结果对独立的、未见的数据集具有一般性。在数据挖掘中，大多数常见的方法是两折交叉验证或k折交叉验证。采用两折交又验证时，采用随机分配方法对数据进行划分，将数据集划分为训练集和测试集。测试数据集将忽略目标变量。训练集与测试集唯一的系统性差异在于训练数据包含目标变量，而测试数据集没有包含。