牛客网自然语言处理(NLP)专项练习总结

  • 过拟合与欠拟合
  • 1.有助于解决模型训练过程中的过拟合问题的方法
  • 2.解决欠拟合的方法
  • 梯度消失
  • 1.下面哪些方法有助于解决深度网络的梯度消失问题
  • 激活函数
  • 1.Sigmoid、tanh和Relu
  • 机器学习算法
  • 1.k-means
  • EM算法
  • SVM
  • 决策树
  • 1.决策树有哪些常用的启发函数
  • 卷积
  • 优化算法
  • NLP相关
  • 1.LSTM
  • 2.Word2vec
  • Word2vec是**无监督**学习
  • word2vec两种类型:
  • 3.数据平滑
  • 4.数据预处理
  • 下面哪些技术跟中文分词有关
  • 句子结构
  • 相关性
  • 1.确定相关性的方法
  • 依存分析和句法分析
  • 命名实体识别
  • 知识图谱
  • 1.三元组表达形式
  • 文本相似度计算
  • 1.内积法
  • 遗传算法
  • 其他


过拟合与欠拟合

1.有助于解决模型训练过程中的过拟合问题的方法

正则化 Dropout Batch_Normalization 提前终止训练

Dropout作用于每份小批量训练数据,由于其随机丢弃部分神经元的机制,相当于每次迭代都在训练不同结构的神经网络

2.解决欠拟合的方法

添加新特征 减少正则化系数
(×)正则化方法 (×)集成学习方法:处理过拟合

梯度消失

1.下面哪些方法有助于解决深度网络的梯度消失问题

控制网络深度 预训练+微调 使用ReLU激活函数 采用Batch_Normalization 使用残差结构 使用LSTM

激活函数

1.Sigmoid、tanh和Relu

从计算的角度,Sigmoid 和 tanh 激活函数均需要计算指数,复杂度高,而Relu 只需要一个阈值就可得到激活值。
Relu 的非饱和性可以有效的解决梯度消失问题,提供相对宽的激活边界
Relu 的单侧抑制提供了网络的稀疏表达能力

机器学习算法

1.k-means

不能自动识别类的个数,随机挑选初始点为中心点计算。

EM算法

EM是一种迭代算法,用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计。最大优点是简单和稳定,但与梯度下降一样,容易陷入局部最优
EM算法

SVM

SVM对缺失数据敏感,所以噪声鲁棒性不是很好。噪声鲁棒性好要数神经网络。

决策树

1.决策树有哪些常用的启发函数

最大信息增益 最大信息增益率 最大基尼系数
决策树都有哪些算法?

  • 决策树通过预剪枝后剪枝提升模型的泛化能力
  • 决策树是一种混合算法,它综合了多种不同的创建树的方法。
  • 决策树算法对离散属性和连续属性进行建模。(×)

卷积

  1. 卷积操作的本质特性包括稀疏交互参数共享

优化算法

  1. 梯度下降法 牛顿法 BFGS Adam 中 BFGS 最快

NLP相关

1.LSTM

LSTM的遗忘门使用的是什么激活函数? Sigmoid
【译】理解LSTM(通俗易懂版)

  1. Seq2Seq模型在解码时可以使用贪心法或Beam Search方法。

2.Word2vec

Word2vec是无监督学习

严格意义上来讲,Word2Vec并不是无监督学习。应该叫半监督学习(semi-supervised),因为虽然人类不用手工标注,但是本质上模型还是有类别学习,有反向传播的过程的。

无监督与监督学习的区别在于一个无教学值,一个有教学值。但是,有人认为他们的区别在于一般是采用聚簇等算法来分类不同样本。而监督学习一般是利用教学值与实际输出值产生的误差,进行误差反向传播修改权值来完成网络修正的。

word2vec两种类型:

1、CBOW 2、Skig-gram 每种都有两种策略(加速优化策略):1、负采样 2、层级softmax。
层级softmax,使用了哈夫曼树,优化计算概率效率。
负采样不使用哈夫曼树,而是利用简单的随机采样,这种用少量噪声词汇来估计的方法,类似蒙特卡洛方法。这使得不需要计算完整的概率模型,只需要训练一个二元分类模型,用来区分真实的目标词汇和采样的噪声词汇。提高训练速度,改善所得词向量的质量。

  • Word2vec利用当前特征词上下文信息实现词向量编码,是语言模型的副产品
  • Word2vec能够表示词汇之间的语义相关性
  • Word2vec没有使用完全的深度神经网络模型
  • Word2vec可以采用负采样的方式来节省计算开销

3.数据平滑

在统计语言模型中,通常以概率的形式描述任意语句的可能性,利用最大相似度估计进行度量,对于一些低频词,无论如何扩大训练数据,出现的频度仍然很低,数据平滑可以解决这一问题。
自然语言处理:盘点一下数据平滑算法大数据处理平滑算法:Good-Turing估计

4.数据预处理

因为文本数据在可用的数据中是非常无结构的,它内部会包含很多不同类型的噪点,所以要做数据预处理。以下不是自然语言数据预处理过程的是:
词汇规范化 对象标准化 噪声移除 (×)词汇关系统一化
自然语言处理时,通常的文本清理流程是什么?中文文本挖掘预处理流程总结

下面哪些技术跟中文分词有关

词语消歧 未登录词识别 词性标注
(×)关系识别 (×)句法分析 (×)意图识别 (×)槽位填充

句子结构

  1. 在分析句子结构时,句子的内部组织结构用树来表示,组成的结构具有显著的特点是:
    递归 中心词 修饰语 (×)循环

相关性

1.确定相关性的方法

在大规模的语料中,挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。
互信息 卡方检验 最大似然比 (×)最大熵

最大熵原理是一种选择随机变量统计特性最符合客观情况的准则,也称为最大信息原理。随机量的概率分布是很难测定,一般只能测得其各种均值(如数学期望、方差等)或已知某些限定条件下的值(如峰值、取值个数等),符合测得这些值的分布可有多种、以至无穷多种,通常,其中有一种分布的熵最大。选用这种具有最大熵的分布作为该随机变量的分布,是一种有效的处理方法和准则。这种方法虽有一定的主观性,但可以认为是最符合客观情况的一种选择。在投资时常常讲不要把所有的鸡蛋放在一个敏感词里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理。

最大熵代表了整体分布的信息,通常具有最大熵的分布作为该随机变量的分布, 不能体现两个词的相关性,但是卡方是检验两类事物发生的相关性。

依存分析和句法分析

可以从新闻文本数据中分析出名词短语,动词短语,主语的技术是? 依存分析和句法分析

命名实体识别

1.命名实体识别是指出文本中的人名、地名等专有名词和时间等,其中有有监督的命名实体识别和无监督的命名实体识别,下列选项哪些是属于有监督的学习方法:
决策树 隐马尔可夫模型 支持向量机 (×)字典法

知识图谱

1.三元组表达形式

知识图谱中的三元组遵从一种三阶谓词逻辑的表达形式。(×)

命题逻辑和谓词逻辑是人工智能领域使用最早的知识表示方法,命题逻辑定义了具有真假值的原子命题,并通过 或 且 非 蕴含 当且仅当 等逻辑连接符将多个原子命题组合成复合命题;

一阶谓词逻辑在命题逻辑的基础上引入了 全称量词 :任何 ,和存在量词 ,使得一阶谓词逻辑可以量化实体概念,比如 对于所有的海豚 都有背鳍 ,这个 所有的 就是全称量词;
二阶谓词逻辑可以量化集合,
三阶谓词逻辑可以量化集合的集合,高阶谓词逻辑 依此类推 。 —参考 赵军《知识图谱》高等教育出版社

一阶谓词逻辑优点:
结构性,能把事物的属性以及事物的各种语义联想显式的表达出来。
严密性,有形式化的语法和语义,以及相关的逻辑推理。
可实现性,可以转化为计算机内部形式,以便使用算法实现。

一阶谓词缺点:
有限的可用性,一阶逻辑的逻辑归结只是半可判定性的。
无法表示不确定性知识。

文本相似度计算

1.内积法

文本信息检索的一个核心问题是文本相似度计算,将查询条件和文本之间的相似程度数值化,从而方便比较。当文档和查询都表示成向量时,可以利用向量的内积的大小近似地表示两个向量之间的相关程度。

设有两个文档和查询抽取特征和去除停用词后分别是:
文档d1: a、b、c、a、f、b、a、f、h
文档d2: a、c
查询q: a、c、a
特征项集合为 {a、b、c、d、e、f、g、h}

如果采用二值向量表示,那么利用内积法计算出q和d1、d2的相似度分别是( 2,2)


解释: 主要计算是否出现,并不涉及出现几次。
考察的是文本的词集表示,注意与词袋表示区别。把特征项看作字典,如果文档中的词在特征项中出现则为1,否则为0.以题目为例,将文档和查询都表示成8维的向量。具体来说,d1的表示为[1,1,1,0,0,1,0,1],也就是对应于特征项中的每一项,分别在文档1中查询,如果文档1中出现,那么该位置1,否则为0.同理,文档2的向量表示为[1,0,1,0,0,0,0,0],查询项的表示为[1,0,1,0,0,0,0,0],然后分别做内积即可。注意词集模型并不考虑词在文本中出现的频率。

遗传算法

  • 遗传算法直接以适应度作为搜索信息,无需导数等其他辅助信息。

其他

  • 《同义词词林》的词类分类体系中,将词分为大类、种类、小类,下列说法正确的是
    大类编号为大写拉丁字母,中类为小写字母,小类为阿拉伯两位数字
    大类12个, 中类94个,小类1438个,标题词3933个
  • Hapfield网络不仅有不动点吸引子,也有其它类型的吸引子。