文章目录
- 一:什么是样本?
- 二:什么是总体?
- 三:样本抽取规则
- 四:样本的作用
- 五:样本的类型
- 六:数据集各类样本的比例
一:什么是样本?
研究中实际观测或调查的一部分个体称为样本(sample)。
二:什么是总体?
研究对象的全部称为总体。
三:样本抽取规则
为了使样本能够正确反映总体情况,对总体要有明确的规定;总体内所有观察单位必须是同质的。
在抽取样本的过程中,必须遵守随机化原则;样本的观察单位还要有足够的数量,又称“子样”。按照一定的抽样规则从总体中取出的一部分个体。
四:样本的作用
在监督学习中,样本通常不仅作为神经网络模型学习数据特征的来源,还要负责验证和评估模型的好坏程度,以及对训练完的模型在现实环境中的表现如何做出测试。
五:样本的类型
样本一般分为训练集、验证集、测试集这三种类型。
(1)训练集
训练集:用来学习神经网络模型参数。
训练集样本是带有标签的数据集,神经网络的输入值是样本的值,输出值是和标签值形状类型一致的,用来和标签值做损失,用于后向传播更新权重。
例如训练人脸检测模型的训练集数据输入值是带有人脸图像的像素值矩阵,标签是人脸框的坐标值和置信度,而输出是和标签形状类型一致的值。
(2)验证集
验证集:用来评估 模型性能。
验证集样本同样是带有标签的数据集,不同的是训练集同时参与网络的每–次前向和后向运算,目的是为了学习更多的数据特征,而验证集是固定每隔N个轮次只进行一次前向运算,其目的是为了验证模型的训练程度如何,是否可以停止训练。
例如训练人脸检测模型的验证集每隔10次进行一次前向运算获得输出结果和标签对比,检验结果是否达到目标。
(3)测试集
测试集:用来检测模型表现情况。
测试集样本是不带标签的数据集,所以测试集的数据是在模型训练结束后使用的,用来测试模型的泛化能力。
例如训练人脸检测模型的测试集在模型训练结束后输入模型,模型输出为测试集里每张图像上的人脸位置坐标和置信度,因为没有标签做对比,所以只有人可以判断人脸框是否准确。
六:数据集各类样本的比例
如果已经有了一个大的标注数据集,那么通过随机抽样获得三种数据集,三者的比例为6:2:2至8:1:1之间。如果有标注的样本集较少的话,也可以只随机抽样出训练集和验证集,因为测试集不需要标签。