grafana错误qps计算错误率

转载

智能创新者 2024-12-20 10:03:24

文章标签 grafana错误qps计算错误率数据挖掘机器学习泛化正例 文章分类 云原生云计算

二、模型评估与选择

2.1 经验误差与过拟合

Error rate（错误率）：将分类错误的样本数占样本总数的比例称为错误率，即在m个样本中有a个样本分类错误，则错误率E=a/m。1-a/m称为精度。更一般的，将机器学习器的实际预测输出与样本的真实输出之间的差异称为误差。学习器在训练集上的误差称为“训练误差”or“经验误差（empirical error）”，在新样本上的误差称为泛化误差（generalization error）。

由于不知道新样本的特征，实际能做的只是尽力使经验误差最小化。但很多时候虽然能在训练集上做到分类错误率为0，但多数情况这种分类器的性能并不好。

过拟合（overfitting）：学习器把训练样本学习的“太好”，将训练样本本身的特点作为所有样本的一般性特征，导致其泛化能力下降。

欠拟合（underfitting）：对训练样本的一般性质尚未学好。

有诸多因素导致overfitting，大多情况是学习能力过强，以至于把训练样本所包含的不太一般的特性学习成一般特性。underfitting通常的解决方法可以有在决策树学习中扩展分支、在神经网络中增加训练次数等。overfitting是机器学习的最大障碍

2.2 评估方法

现实任务中常常会对学习器的泛化性能、时间开销、存储开销、可解释性等方面的因素进行评估而做出选择。假设测试集是从样本真实分布中独立采样获得，将测试集上的“测试误差”作为泛化误差的近似，所以测试集要和训练集中的样本尽量互斥。通常将包含m个样本的数据集D={(x1,y1),(x2,y2),(x3,y3)...，(xm,ym)}拆分成训练集S和测试集T。

留出法：将数据集划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T，即

$D=S\cup T$

，

$S\cap T=\O$

。在S上训练出模型后，在T中评估其测试误差，作为对泛化误差的近似。

交叉验证法：将数据集分层采样划分为k个大小相似的互斥子集，每次用k-1个子集的并集作为训练集，余下的子集作为训练集，最终返回k个测试结果的均值，k最常用的值为10，也叫10折交叉验证法。

自助法：以自助采样法为基础，对数据集D有放回采样m次得到训练集D*，D\D*做测试集。实际模型与预期模型都使用m个训练样本，约有1/3的样本不会在训练集中出现。从初始数据集中产生多个不同的训练集，对集成学习有较大好处。自助法在数据集较小，难以有效划分训练/测试数据集时很有用；

2.3 性能度量（performance measure）

性能度量是衡量模型泛化能力的评价标准，反映了任务需求；使用不同的性能度量会导致不同的评判结果，即模型的好与坏事相对而言的，什么样的模型是好的模型，不尽取决于算法和数据，还取决于任务需求。

在预测任务中，给定样例集D={(x1,y1),(x2,y2),(x3,y3)...,(xm,ym)}，其中yi是xi的真实标记。要评估学习器f的性能，其实是将学习器预测的结果f(x)与真实标记y进行比较。

回归任务中最常用的性能度量是“均方误差（mean squared error）”

$E(f;D)=\frac{1}{m}\sum_{i=1}^{m}(f(xi)-yi)^{2}$

(公式1.1)

更一般的，对于数据分布D和概率密度函数p(*)，均方误差可描述为：

$E(f;D)=\int_{x}^{d}(f(x)-y)^{2}p(x)dx$

(公式1.2)

对于分类任务，错误率与精度是最常用的两种性能度量：

错误率：分错样本占样本总数的比例

$E(f;D)=\frac{1}{m}\sum_{i=1}^{m}\prod (f(xi)\neq yi)$

（公式1.3）

精度：分对样本占样本总数的比例

$acc(f;D)=\frac{1}{m}\sum_{i=1}^{m}\prod (f(xi)= yi)=1-E(f;D)$

公式（1.4）

在信息检索、Web搜索等领域经常需要衡量正例被预测出来的比率或者预测出来的正例中正确的比率，此时，查准率（precision）和查全率（recall）更适合。

表1.分类结果混淆矩阵

真实情况	预测结果
真实情况	正例	反例
正例	TP(真正例)true positive	FN(假反例)false negative
反例	FP(假正例)false positive	TN(真反例)true negative

查准率

$p=\frac{TP}{TP+FP}$

查全率

$R=\frac{TP}{TP+FN}$

查准率与查全率是一对矛盾的度量。查准率高时，查全率往往偏低；而查全率高时，查准率往往偏低。

根据学习器的预测结果按正例可能性大小对样例进行排序，并逐个把样本作为正例进行预测，则可以得到查准率-查全率曲线，简称“P-R曲线”。

grafana错误qps计算错误率_机器学习_09

图1.P-R曲线与平衡点示意图

P-R图直观地显示出了学习器在样本总体上的查全率、查准率。在进行比较时，若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”，则后者的性能优于前者。也可以根据曲线下的面积来比较两个学习器的性能优劣。平衡点（Break-Even Point）是曲线上“查准率=查全率”时的取值，可用来度量P-R曲线有交叉的分类器性能高低。

比P-R曲线平衡点更常用的是F1度量：

$F1=\frac{2*P*R}{P+R}=\frac{2*TP}{total sample +TP-TN}$

totalsample=样例总数公式（1.5）F1度量的更一般形式-

$F\beta$

公式（1.6）

$\beta$

=1时，退化为标准的F1度量，

$\beta$

>1时对查全率有更大影响，

$\beta$

<1时对查准率有更大影响。

ROC与AUC

ROC全称是受试者工作特征（receiver operating characteristic），ROC曲线的横轴是“假正例率（false positive rate,FPR）”，纵轴是“真正例率（true positive rate,TRR）”。

$TPR=\frac{TP}{TP+FN}$

公式（1.7）

$FPR=\frac{FP}{FP+TN}$

公式（1.8）

显示ROC曲线的图被称为ROC图。

若一个学习器的ROC曲线被另一个学习器的曲线完全包住，则可断言后者的性能优于前者；若两个学习器的ROC曲线发生交叉，则难以断言两者孰优孰劣。若一定要进行比较，则较为合理的方式是比较ROC曲线下面积，即AUC（Area under ROC Curve）。假设ROC曲线是由坐标{（x1,y1）,(x2,y2）,(x3,y3）...(xm,ym）}的点按序连接而形成，则AUC可估算为：

$AUC=\frac{1}{2}\sum_{i=1}^{m-1}(x_{i+1}-x_{i})*(y_{i}+y_{i+1})$