1.词性标注
词性标注的输入是一个序列,输出的是每个词的词性,那么标注完以后再进行下游任务效果就会比直接把一段文字丢进去更好。
下图为示例图:
2.分词
对于英文来说,单词间有空格,所以不需要分词,但是对于中文,在进行各种任务时需要对文本进行分词。
如图所示:
3.Coreference Resolution(指代消解)
把同一个人或者事物标注出来,如下图例子:
4.文本摘要(summarization)
1.直接抽取出一些句子当做摘要
2.机器用自己的话写摘要
5.机器翻译
输入文字或者语音输出翻译的结果,如图:
6.改错
7.情感分类
分为正面和负面的评价
8.立场侦测
一般来说,立场就是四类,support、denying、querying,commenting,那么,这四类立场的判断需要用到veracity prediction,也就是真实性预测。
真实性预测如下图,以输入发的文章,网友的回应,维基百科的的数据为例,输出的就是真实性。
9.自然语言推论(Narural Language Inference)
简称NLI,根据前提(promise)能不能推断出某个假设,输出有三类,矛盾(contradiction)、蕴含(entailment)、中立(neutral)
10.搜索引擎
11.问答系统
12.对话(dialogue)
对话有两种,一种chatting,另一种是任务导向的对话(Task-oriented)。
12.1chatting
chatting,其实就是尬聊,需要注意的是模型需要记得之前的话。
12.2Task-oriented
另一种是任务导向的对话(Task-oriented)
有点像摘要,但是只把和任务有关的信息抽取出来,
State Tracker不会直接吃对话,而是先把对话通过NLU(nature language understanding)表示,再丢给State Tracker
所以总结起来Task-oriented整个流程如下
13.Knowledge Graph
命名实体识别
输入一个sequence,机器给里面每一个token一个label,
两个实体之间的关系表示如下图:
总结
那么这么多任务,就有了新的思考,如何把不同的任务用一个模型解决呢?DecaNLP就用一个模型解决十个任务,把所有的任务都看成QA问题。