重新评估自动机器翻译评估度量的评估
作者:Nitika Mathur, Timothy Baldwin and Trevor Cohn
解决问题
当前的指标评估方法对用于评估的翻译系统非常敏感,尤其是存在异常值时,这通常会导致对评价效果产生错误的自信判断。
解决对策
本文研究了成对系统排名方法,开发了一种在自动度量标准下以人为判断为阈值提高性能的方法,该方法可以量化所引起的I型错误与II型错误,即可以接受的人类评判质量差异,以及不能接受的人类评判差异。总之,这些发现对机器翻译中的度量评估和系统性能评估的协议进行了改进。