自然语言处理简介#
研究人与计算机之间用自然语言进行有效通信的理论与方法。融语言学、计算机科学、数学等一体的科学。旨在从文本数据中提取信息,目的是让计算机理解或处理自然语言,以执行自动翻译、文本分类、情感分析等。
入门基础#
1)数学基础线性代数、概率论、统计学;
2)语言学基础:语音、词汇、语法
3)Python
4)机器学习基础:统计学习方法、机器学习周志华
5)深度学习基础:CNN、RNN、LSTM
6)自然语言处理理论基础:统计自然语言处理、Python自然语言处理、数学之美
NLP主要技术范畴#
1)语义文本相似度分析:
对两段文本的意义和本质之间的相似度进行分析的过程。
2)信息检索:
指将信息按一定的方式加以组织,并通过信息查找满足用户的信息需求的过程和技术。
3)信息抽取:
指从非结构化/半结构化文本(如网页、新闻、论文文献、微博等)中提取指定类型的信息(如实体、属性、关系、事件、商品记录等),并通过信息归并、冗余消除和冲突消解等手段将非结构化文本转化为结构化信息的一项综合技术。
4)文本分类:
根据给定文档的内容或主题,自动分配预先定义的类别标签。
5)文本挖掘:
信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的集中文本挖掘技术有:文档聚类,文档分类,摘要提取。
6)文本情感分析:
是一种广泛的主观分析,它使用自然语言处理技术来识别客户评论的语义情感,语句表达的情绪正负面以及通过语音分析或书面文字判断其表达的情感。
7)问答系统:
自动问答是指利用计算机自动回答用户所提出的问题以满足用户需求的任务。
8)机器翻译:
机器翻译研究的目标就是建立有效的自动翻译方法、模型和系统,打破语言壁垒,最终实现任意时间、任意地点和任意语言的自动翻译,完成人们无障碍自由交流的梦想。
9)自动摘要:
自动文摘(又称自动文档摘要)是指通过自动分析给定的一篇文档或多篇文档,提炼、总结其中的要点信息,最终输出一篇长度较短、可读性良好的摘要(通常包含几句话或数百字),该摘要中的句子可直接出自原文,也可重新撰写所得。
10)语音识别:
语言识别指的是将不同语言的文本区分出来。其利用语言的统计和语法属性来执行此任务。语言识别也可以被认为是文本分类的特殊情况。
NLP基本知识点#
1)语料库
语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。
2)中文分词
(1)中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
(2)现有的分词方法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
(3)比较流行的中文分词工具:jieba、StanfordNLP、HanLP、SnowNLP、THULAC、NLPIR
3) 词性标注(Part-of-speech tagging)
(1)词性标注是指为给定句子中的每个词赋予正确的词法标记,给定一个切好词的句子,词性标注的目的是为每一个词赋予一个类别,这个类别称为词性标记(part-of-speech tag),比如,名词(noun)、动词(verb)、形容词(adjective)等。
(2)词性标注是一个非常典型的序列标注问题。最初采用的方法是隐马尔科夫生成式模型, 然后是判别式的最大熵模型、支持向量机模型,目前学术界通常采用的结构是感知器模型和条件随机场模型。近年来,随着深度学习技术的发展,研究者们也提出了很多有效的基于深层神经网络的词性标注方法。
4) 句法分析(Parsing)
(1)基于规则的句法结构分析
(2)基于统计的语法结构分析
5)词干提取(Stemming)
词干提取是将词语去除变化或衍生形式,转换为词干或原型形式的过程。词干提取的目标是将相关词语还原为同样的词干。
6)词形还原(Lemmatization)
词形还原是将一组词语还原为词源或词典的词目形式的过程。
7)停用词过滤
停用词过滤是指在文本中频繁出现且对文本信息的内容或分类类别贡献不大甚至无贡献的词语,如常见的介词、冠词、助词、情态动词、代词以及连词等。
8)词向量化(Word Vector)
词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用,因为电脑无法处理自然语言。词向量化可以捕捉到自然语言和实数间的本质关系。通过词向量化,一个词语或者一段短语可以用一个定维的向量表示。(word2vec)
9)命名实体消歧(Named Entity Disambiguation)
命名实体消岐是对句子中的提到的实体识别的过程。
例如,对句子“Apple earned a revenue of 200 Billion USD in 2016”,命名实体消岐会推断出句子中的Apple是苹果公司而不是指一种水果。一般来说,命名实体要求有一个实体知识库,能够将句子中提到的实体和知识库联系起来。
10)命名实体识别(named entity recognition)
命名实体识别是识别一个句子中有特定意义的实体并将其区分为人名,机构名,日期,地名,时间等类别的任务。
三种主流算法:CRF,字典法和混合方法