2.重要概念

掌握几个重要的数学和机器学习的概念在日常非常有用,因为将立足于这些概念的几个实现。有些会很熟悉,但为了完整起见,将再次介绍,以便于可以重温内容。

文档

文档通常是一个包含完整文档数据的实体,包含可选的标题和其他元数据信息。语料库通常由一系列文档组成。这些文档可以是简单的句子或完整的文本信息段落。分词语料库指的是每个文档被分词化或分解成标识的语料库,其中标识通常是单词。

文本规范化

文本规范化是通过技术来清洗、规范化和标准化文本数据的过程,譬如删除特殊符号和字符、去除多余的 HTML 标签、移除停用词、拼写校正、词干提取和词形还原。

特征提取

特征提取是从原始文本数据汇总提取有意义的特征或属性,以将其提供给统计或机器学习算法的过程。这个过程也称为向量化(vectirization),因为该过程的转换结果通常是来自原始文本标识的数值向量。其原因是常规算法可以对数值向量奏效,并不能直接在原始文本数据上处理。有各种不同的特征提取方法,包括:基于词袋的二进制特征可以告诉我们文档中是否存在一个单词或一组单词,基于词袋的频率特征可以告诉我们文档中一个单词或者一组单词的出现频率,以及词频或逆文档频率或 TF-IDF 加权特征在计算每个词项权重时考虑了词频和逆文档频率。

特征矩阵

特征矩阵通常是指充文档集合到特征的映射,其中每行表示文本,每列表示具体特征,特征通常是一个单词或一组单词。将通过特征提取后的特征矩阵来表达文档或句子的集合。

奇异值分解

奇异值分解(Singular Value Decomposition,SVD)是线性代数的一种技术,它在摘要计算中经常使用。SVD 是实数或负数矩阵的因子分解的过程。正式的,可以定义 SVD 如下。考虑纬度为 m * n 的矩阵 M,其中 m 表示行数,n 表示列数。在数学上,矩阵 M 可以使用 SVD 作为因式分解,使得