一.文本基本任务—预处理操作:

1.词向量化
把词进行量化,得到向量空间的值,得到具体的数值,长度,计算距离,拓展到文本向量和文章向量
2.分词
中文 :基本语义单元分割
英文:按照空格
3.词性标注
分词之后进行标注
4.命名实体识别
组织,人,
5.文本结构化
快递地址识别信息提取案例

二.文本应用—分类与聚类:

将文本文件分到一个或多个一定好的类别中,涉及文本向量化,序列化标注等

  • 新闻稿分类
  • 垃圾邮件分类
  • 情感类型分类
  • 意图识别

文本应用—文章标签与摘要提取:

从文章中自动提取关键字和关键段落,构成摘要内容

  • 自动新闻撰稿

文本应用—文章审核与舆情分析:

  • 是否含有不良内容,主观色彩如何,恶意推广
  • 酒店评价,互联网平台信息过滤

备注:《我和我的祖国》-中国平安银行人工智能研究院创作的交响曲
基于照片,视频创作与其对应的轻音乐或者歌曲
AI完成曲,编,唱全链路的工作
微软小冰,

文本应用—机器翻译:

将自然语言转换成另一种语言的过程
在线翻译词典,语音同传产品

文本应用—阅读理解:

利用算法是计算机理解文章语义并回答相关问题,包括选择,填空,问答
作文语法,写作

文本应用—问答系统和聊天机器人:

  1. 问答系统-回答用户用自然语言提出的问题
  2. 由对话或文字进行交谈的计算机程序,模拟人类对话
    问答: 百度小度,客服:阿里小蜜,社交:微软小冰,

文本应用—搜索引擎:

关键词匹配,关键词理解两类

文本应用—知识图谱:


文本应用—文本生成:

根据一些关键信息,机器在机器内部的表达形式,自动生成一段高质量的文本

文本应用—NLP与其它方向的融合: