分类是指解决预测样本所属类别的一类问题,即对于给定样本x,输出x所属的类别。

当供选择的类别只有2个时,称为二分类,反之称为多分类。而多分类的问题也可以通过二分类来解决。具体来说包含one-vs-one和one-vs-rest两种方案。

  • one-vs-one:进行多轮的二分类,每次比较两个不同的分类,枚举所有的所有的两个分类的组合;理想情况下应该有且仅有一个类别在每一次比较中都被选中,成为预测结果。
  • one-vs-rest:进行多轮的二分类,每次比较某个类别和非该类别,枚举所有的类别;理想情况下应该有一个类别被模型赋予的费数是最高的,成为预测结果。

由此可见,只要有效实现了二分类,就可以应用于多分类的结果。

在NLP领域,分类问题的应用包括:

  • 本文分类:天然的分类问题
  • 新词发现、关键词提取:判断每个单词是否属于新词或关键词
  • 指代消解:判断每个代词是否和实体存在指代关系
  • 近义词替换:判断两个单词是否是近义词可以替换
  • 语言模型:语言模型中,也可以将每个单词视作一个类别,给定上文预测接下来要出现的单词。

学习参考文献:《自然语言处理入门》(何晗):5.1