NLP常用评价指标

一.概述

  自动评价指标(Automatic Evaluation Metric)是用来衡量一个语言模型好坏的标准,是NLP任务中用于评价系统性能的标准。NLP任务大致分为文本分类,文本匹配/排序,序列标注和文本生成。

二.文本分类

  对于NLP文本分类任务的评价指标有哪些?通过什么标准去判断一个模型的好坏?如何解读指标的意义?

    T:表示正类  F:表示负类  P:预测为正  N:预测为负

    TP — 将正类预测为正类的个数;(预测结果正确)

    FN — 将正类预测为负类的个数;(预测错误)

    FP— 将负类预测为正类的个数; (预测错误)

    TN — 将负类预测为负类的个数;  (预测结果正确)

    TP + FN + FP + TN = 样本总数

2.1 二分类

1)错误率(Error):错误率是指分类错误的样本数占样本总数的比例。

NLP 分类 预测 nlp模型评估指标_评价指标

或者  Error = FP/TP+FP

统计分类器预测出来的结果与真实结果不相同的个数,然后除以总的样例集D的个数。

2)精确率(Precision): 精度则是指分类正确的样本数占样本总数的比例。

NLP 分类 预测 nlp模型评估指标_文本分类_02

3)查准率P(准确率Accuracy):反应了分类器对整个样本的判定能力(即能将正的判定为正的,负的判定为负的)。

NLP 分类 预测 nlp模型评估指标_文本分类_03

      分类器正确分类的样本数/总样本数

4)查全率R(召回率Recall):查全率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确。

NLP 分类 预测 nlp模型评估指标_召回率_04

查准率和查全率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。

5)精确度和召回率的调和均值(F-Score):

NLP 分类 预测 nlp模型评估指标_文本分类_05

 β>0度量了查全率对查准率的相对重要性。β=1时,退化为标准的F1;β>1时查全率有更大影响;β<1时,查准率有更大影响。

6)AUC

 

7)ROC

 

1.2 多分类

1)准确率(Accuracy)

      2)宏平均(Marco Averaged):对所有类别的每一个统计指标值的算数平均值,分别称为宏精确率(Macro-Precision),宏召回率(Macro-Recall),宏F值(Macro-F Score)

NLP 分类 预测 nlp模型评估指标_NLP 分类 预测_06

 

NLP 分类 预测 nlp模型评估指标_文本分类_07

NLP 分类 预测 nlp模型评估指标_NLP 分类 预测_08

3)微平均(Mirco Averaged):对每个样本进行P、R的统计,计算微精确率(Micro-Precision),微召回率(Micro-Recall),微F值(Micro-F Score)。

NLP 分类 预测 nlp模型评估指标_召回率_09

 

NLP 分类 预测 nlp模型评估指标_评价指标_10

NLP 分类 预测 nlp模型评估指标_评价指标_11

 

      Macro-averaging 赋予每个类相同的权重,Micro-averaging 赋予每个样本决策相同的权重。

      度量分类器对大类判别的有效性选择微平均,度量分类器对小类判别的有效性选择宏平均。

 

三.文本生成

  3.1 BLEU

  3.2 Meteor

  3.3 Rouge

  3.4 Distinct

 

 

 

 

reference:

1)

2)https://cdn.modb.pro/db/381455

3)https://zhuanlan.zhihu.com/p/421124479

4)