1.基础概念
自然语言处理(Nature Language Processing,NLP)是一门融合了计算机科学,人工智能以及语言学的交叉学科。
2.研究目标
通过机器学习等技术,让计算机学会处理人类语言,乃至实现终极目标——理解人类语言或人工智能。
3.自然语言的处理层次
- 语音、图像和文本
自然语言处理系统的输入源一共有3个,语音,图像和文本,但前两者存储的信息总量没有文本多,所以需要先转换为文本再处理,转换分别称为语音识别(Speech Recognition)和光学字符识别(OCR)。 - 词法分析
主要任务是将文本分隔为有意义的词语 (中文分词),消除每个词语的歧义(词性标注),再识别出一些特殊的专有名词(命名体识别)。 - 信息抽取
词法分析之后,文本已经呈现结构化趋势。显示为有意义的单词列表。根据单词与标签,我们可以抽取出一部分有用的信息,从简单的高频词到高级算法提取关键词。 - 句法分析
词法分析只能得到零散的词汇信息,计算机不知道词语之间的关系。句法分析的目标就是,得到句子中词语之间的关系。 - 语义分析与篇章分析
相对于句法分析来看,语义分析侧重于语义而非语法,它包括词义消歧(确定一个词在语境中的含义)、语义角色标注(标注句子中谓语与其他成分的关系),语义依存分析(分析句子中词语之间的关系)
4.自然语言处理的流派
- 基于规则的专家系统
设计专家针对需求而设计许多规则组成的系统,比较死板僵硬与不稳定。 - 基于统计学的方法
收集制作语料库
,让机器根据语料库自动学习这些规则(与机器学习相结合)
5.总结
机器学习是人工智能的子集,而NLP则是人工智能与语言学,计算机科学的交集。这个交集虽然小,它的难度却很大。为了实现理解自然语言这个宏伟目标,人们尝试了规则系统,并最终发展到基于大规模语料库的统计学习系统
。