一.文本基本任务—预处理操作:
1.词向量化
把词进行量化,得到向量空间的值,得到具体的数值,长度,计算距离,拓展到文本向量和文章向量
2.分词
中文 :基本语义单元分割
英文:按照空格
3.词性标注
分词之后进行标注
4.命名实体识别
组织,人,
5.文本结构化
快递地址识别信息提取案例
二.文本应用—分类与聚类:
将文本文件分到一个或多个一定好的类别中,涉及文本向量化,序列化标注等
- 新闻稿分类
- 垃圾邮件分类
- 情感类型分类
- 意图识别
文本应用—文章标签与摘要提取:
从文章中自动提取关键字和关键段落,构成摘要内容
- 自动新闻撰稿
文本应用—文章审核与舆情分析:
- 是否含有不良内容,主观色彩如何,恶意推广
- 酒店评价,互联网平台信息过滤
备注:《我和我的祖国》-中国平安银行人工智能研究院创作的交响曲
基于照片,视频创作与其对应的轻音乐或者歌曲
AI完成曲,编,唱全链路的工作
微软小冰,
文本应用—机器翻译:
将自然语言转换成另一种语言的过程
在线翻译词典,语音同传产品
文本应用—阅读理解:
利用算法是计算机理解文章语义并回答相关问题,包括选择,填空,问答
作文语法,写作
文本应用—问答系统和聊天机器人:
- 问答系统-回答用户用自然语言提出的问题
- 由对话或文字进行交谈的计算机程序,模拟人类对话
问答: 百度小度,客服:阿里小蜜,社交:微软小冰,
文本应用—搜索引擎:
关键词匹配,关键词理解两类
文本应用—知识图谱:
文本应用—文本生成:
根据一些关键信息,机器在机器内部的表达形式,自动生成一段高质量的文本
文本应用—NLP与其它方向的融合: