目录标

  • 困惑度(Perplexity)
  • BLEU
  • 精确率和召回率


困惑度(Perplexity)

困惑度 是语言模型的一个衡量标准。因为单纯序列的似然概率是一个难以理解、难以比较的数字。 毕竟,较短的序列比较长的序列更有可能出现, 因此评估模型产生长篇巨著《战争与和平》的可能性会比产生中篇小说《小王子》可能性要小得多。

一个好的语言模型应该能让我们准确地预测下一个词元。 所以我们可以通过一个序列中 所有的 n 个词元的交叉熵损失的平均值 来衡量:

NLP 最后词的评估 语言模型 nlp模型评估指标_NLP 最后词的评估 语言模型

其中 NLP 最后词的评估 语言模型 nlp模型评估指标_机器学习_02 由语言模型给出, NLP 最后词的评估 语言模型 nlp模型评估指标_词元_03 是在时间步 NLP 最后词的评估 语言模型 nlp模型评估指标_语言模型_04

NLP 最后词的评估 语言模型 nlp模型评估指标_机器学习_05

如果是使用神经网络来编码语言模型,那么神经网络的输出loss的均值的指数值,即为一个句子的困惑度

  • 在最好的情况下,模型总是完美地估计标签词元的概率为1。 在这种情况下,模型的困惑度为1。
  • 在最坏的情况下,模型总是预测标签词元的概率为0。 在这种情况下,困惑度是正无穷大。

BLEU

BLEU(bilingual evaluation understudy) 最早提出时是用于评估机器翻译的结果, 但现在它已经被广泛用于测量许多应用的输出序列的质量。 BLEU的定义为:

NLP 最后词的评估 语言模型 nlp模型评估指标_nlp_06

其中 NLP 最后词的评估 语言模型 nlp模型评估指标_词元_07 表示标签序列中的词元数, NLP 最后词的评估 语言模型 nlp模型评估指标_nlp_08 表示预测序列中的词元数,NLP 最后词的评估 语言模型 nlp模型评估指标_词元_09

另外,NLP 最后词的评估 语言模型 nlp模型评估指标_机器学习_10 表示 n-gram 的精确度,它是两个数量的比值: 第一个是预测序列中与标签序列匹配的 n-gram 的数量(注:只要预测序列中的 n-gram 在标签序列的 n-gram 中也存在即认为是匹配;如果预测序列中的某个 n-gram 出现了 i 次,而该 n-gram 在标签序列中出现了 j 次,那么算 min(i,j) 次匹配), 第二个是预测序列中 n-gram 的数量。

举例来说,给定标签序列 A , B 、 C 、 D 、 E 、 F 和预测序列 A 、 B 、 B 、 C 、 D , 则 NLP 最后词的评估 语言模型 nlp模型评估指标_词元_11
NLP 最后词的评估 语言模型 nlp模型评估指标_nlp_12
NLP 最后词的评估 语言模型 nlp模型评估指标_词元_13 为例具体说明:预测序列中的 2-gram 为: AB, BB, BC, CD,标签序列中的 2-gram 为:AB, BC, CD, DE, EF。因此预测序列中与标签序列匹配的 2-gram 有:AB, BC, CD NLP 最后词的评估 语言模型 nlp模型评估指标_语言模型_14 NLP 最后词的评估 语言模型 nlp模型评估指标_词元_13

根据上述BLEU的定义:

  • 当预测序列与标签序列完全相同时,BLEU为 1
  • 由于 n-gram 越长则匹配难度越大, 所以BLEU为更长的 n 元语法的精确度分配更大的权重。(n 越大,NLP 最后词的评估 语言模型 nlp模型评估指标_NLP 最后词的评估 语言模型_16
  • 由于预测的序列越短获得的 pn 值越高, 所以 NLP 最后词的评估 语言模型 nlp模型评估指标_NLP 最后词的评估 语言模型_17 用于惩罚较短的预测序列。当 NLP 最后词的评估 语言模型 nlp模型评估指标_NLP 最后词的评估 语言模型_18 时,预测序列越短,惩罚系数 NLP 最后词的评估 语言模型 nlp模型评估指标_NLP 最后词的评估 语言模型_17

精确率和召回率

对于分类模型,假如有 NLP 最后词的评估 语言模型 nlp模型评估指标_机器学习_20 个类别,那么对于任意类别 NLP 最后词的评估 语言模型 nlp模型评估指标_语言模型_21,有:

  • 真正例(TP):样本真实类别为 NLP 最后词的评估 语言模型 nlp模型评估指标_词元_22,并且模型也预测为NLP 最后词的评估 语言模型 nlp模型评估指标_词元_22 的数量:
    NLP 最后词的评估 语言模型 nlp模型评估指标_语言模型_24
  • 假负例(FN):样本真实类别为 NLP 最后词的评估 语言模型 nlp模型评估指标_词元_22,但是模型将它预测为其他类别的数量:
    NLP 最后词的评估 语言模型 nlp模型评估指标_NLP 最后词的评估 语言模型_26
  • 假正例(FP):样本真实类别为其他类别,但是模型将它预测为 NLP 最后词的评估 语言模型 nlp模型评估指标_词元_22 的数量:
    NLP 最后词的评估 语言模型 nlp模型评估指标_机器学习_28
  • 真负例(TN):样本真实类别为其他类别,并且模型也将它预测为其他类别的数量,对类别 NLP 最后词的评估 语言模型 nlp模型评估指标_词元_22

精确率,也叫查准率,类别 NLP 最后词的评估 语言模型 nlp模型评估指标_语言模型_21 的查准率是所有预测为类别 NLP 最后词的评估 语言模型 nlp模型评估指标_语言模型_21 的样本中预测正确的比例:
NLP 最后词的评估 语言模型 nlp模型评估指标_nlp_32

召回率,也叫查全率,类别 NLP 最后词的评估 语言模型 nlp模型评估指标_语言模型_21 的查全率是所有真实标签为类别 NLP 最后词的评估 语言模型 nlp模型评估指标_语言模型_21 的样本中预测正确的比例:
NLP 最后词的评估 语言模型 nlp模型评估指标_NLP 最后词的评估 语言模型_35

F1 score,是一个综合指标,为精确率和召回率的调和平均:
NLP 最后词的评估 语言模型 nlp模型评估指标_词元_36

计算分类算法在所有类别上的总体精确率,召回率和F1 score:
NLP 最后词的评估 语言模型 nlp模型评估指标_语言模型_37


Reference:

  1. 动手学深度学习