目录标
- 困惑度(Perplexity)
- BLEU
- 精确率和召回率
困惑度(Perplexity)
困惑度 是语言模型的一个衡量标准。因为单纯序列的似然概率是一个难以理解、难以比较的数字。 毕竟,较短的序列比较长的序列更有可能出现, 因此评估模型产生长篇巨著《战争与和平》的可能性会比产生中篇小说《小王子》可能性要小得多。
一个好的语言模型应该能让我们准确地预测下一个词元。 所以我们可以通过一个序列中 所有的 n 个词元的交叉熵损失的平均值 来衡量:
其中 由语言模型给出, 是在时间步
如果是使用神经网络来编码语言模型,那么神经网络的输出loss的均值的指数值,即为一个句子的困惑度。
- 在最好的情况下,模型总是完美地估计标签词元的概率为1。 在这种情况下,模型的困惑度为1。
- 在最坏的情况下,模型总是预测标签词元的概率为0。 在这种情况下,困惑度是正无穷大。
BLEU
BLEU(bilingual evaluation understudy) 最早提出时是用于评估机器翻译的结果, 但现在它已经被广泛用于测量许多应用的输出序列的质量。 BLEU的定义为:
其中 表示标签序列中的词元数, 表示预测序列中的词元数,
另外, 表示 n-gram 的精确度,它是两个数量的比值: 第一个是预测序列中与标签序列匹配的 n-gram 的数量(注:只要预测序列中的 n-gram 在标签序列的 n-gram 中也存在即认为是匹配;如果预测序列中的某个 n-gram 出现了 i 次,而该 n-gram 在标签序列中出现了 j 次,那么算 min(i,j) 次匹配), 第二个是预测序列中 n-gram 的数量。
举例来说,给定标签序列 A , B 、 C 、 D 、 E 、 F 和预测序列 A 、 B 、 B 、 C 、 D , 则 。
以 为例具体说明:预测序列中的 2-gram 为: AB, BB, BC, CD,标签序列中的 2-gram 为:AB, BC, CD, DE, EF。因此预测序列中与标签序列匹配的 2-gram 有:AB, BC, CD
根据上述BLEU的定义:
- 当预测序列与标签序列完全相同时,BLEU为 1
- 由于 n-gram 越长则匹配难度越大, 所以BLEU为更长的 n 元语法的精确度分配更大的权重。(n 越大,
- 由于预测的序列越短获得的 pn 值越高, 所以 用于惩罚较短的预测序列。当 时,预测序列越短,惩罚系数
精确率和召回率
对于分类模型,假如有 个类别,那么对于任意类别 ,有:
- 真正例(TP):样本真实类别为 ,并且模型也预测为 的数量:
- 假负例(FN):样本真实类别为 ,但是模型将它预测为其他类别的数量:
- 假正例(FP):样本真实类别为其他类别,但是模型将它预测为 的数量:
- 真负例(TN):样本真实类别为其他类别,并且模型也将它预测为其他类别的数量,对类别
精确率,也叫查准率,类别 的查准率是所有预测为类别 的样本中预测正确的比例:
召回率,也叫查全率,类别 的查全率是所有真实标签为类别 的样本中预测正确的比例:
F1 score,是一个综合指标,为精确率和召回率的调和平均:
计算分类算法在所有类别上的总体精确率,召回率和F1 score:
Reference:
- 动手学深度学习