数据挖掘期末复习
一、判断题
1.熵衡量的是系统的不确定性,熵值越大(接近于1)说明系统的不确定性越低。
正确
错误
二、单选题
1.在PCA变换中,应尽量把数据向什么方向投影:
数据集中的方向
数据散布大的方向
数据分组特征明显的方向
平行于原始坐标轴的方向
2.当样本个数小于数据维数的时候,LDA不能正常工作的原因是:
类间散布矩阵不满秩
类内散布矩阵不满秩
计算量过高
Fisher准则无意义
3.已知池中有两种鱼,比例为7:3,若随机捞上一条,按照70%和30%概率随机猜测其种类,则整体误差最接近于:
20%
30%
40%
50%
4.朴素贝叶斯分类器的朴素之处在于:
只能处理低维属性
只能处理离散型属性
分类效果一般
属性之间的条件独立性假设
5.决策树模型中建树的基本原则是:
取值多的属性应放在上层
取值少的属性应放在上层
信息增益大的属性应放在上层
应利用尽可能多的属性
三 、名词解释
数据:
特点:数据体量巨大(Volume),数据类型繁多(Variety),价值密度低(Value),处理速度快(Velocity),复杂性(Complexity)。
数据属性有哪些类别?不同类别的属性有哪些作用?
标称属性: 就是用来描述一类事物的, 一般用来分类。
二元属性: 就是0或者1
序数属性: 就是属性之间有顺序的 如讲师, 副教授, 教授
数值属性: 定量的, 分为区间标度属性和比例标度属性
ps. 标称, 二元, 序数是定性的, 数值是定量的
决策树:
数据质量:
正确性(Accuracy):数据是否正确体现在现实或可证实的来源。
完整性(Integrity):数据之间的参照完整性是否存在或一致。
一致性(Consistency):数据是否被一致的定义或理解。
完备性(Completeness):所有需要的数据是否都存在。
有效性(Validity):数据是否在企业定义的可接受的范围之内。
时效性(Timeliness):数据在需要的时间是否有效。
可获取性(Accessbility):数据是否易于获取、易于理解和易于使用。
支持向量机:
四、简答题
分类与聚类的概念和区别并介绍相关的算法:
分类:一种数据分析形式,它提取刻画重要数据类的模型。这种模型叫分类器,进而预测分类的(离散的、无序的)类标号。
聚类:将两个或多个属性(或对象)组合成单个属性(或对象)。
主要聚类分析的方法:划分方法;层次的方法;基于密度的方法;基于网格的方法;基于模型的方法。
监督学习 (用于分类)
即分类器的学习,是在已知每个训练元组的类别的“监督下”进行的。
无监督学习(用于聚类)
每个训练元组的类标号未知,并且学习的类的个数和集合也可能是事先未知的。
数据预处理的步骤和原因:
(1)数据清理
处理缺失的值,光滑噪声数据,识别、删除离群点,解决不一致性
(2)数据集成,抽样
集成多个数据库、数据立方体或文件,抽样
(3)数据变换和离散化
规范化,概念分层生成
(4)维数约减
维规约,数量规约,数据压缩
数据标准化:
层次聚类:
一旦作出决定合并两个簇,它不能被撤消;
没有目标函数直接最小化;
不同的方案存在一个或多个以下问题;
k-means:
算法流程
1.随机选择k个对象 ,每个对象代表一个簇的初始均值或中心
2.对剩余的每 个对象,根据它与簇均值的距离,将他指派到最相似的簇
3.计算每个簇的新均值
4.回到步骤2 ,循环,直到准则函数收敛
优点:
简单,适用于规则不相交的簇。
收敛速度相对较快。
相对有效,算法复杂度: O(t·k·n),t: 迭代次数; k: 中心点的个数; n: 样本点的数目。
缺点:
需要提前决定K的值。
可能会收敛到局部最优。
对噪声点和奇异点很敏感。
不适合的聚类 :非凸的形状。
局限性:
K-means 在聚类有大小,密度,不同时或者非球形时会存在问题 。
K-means 当数据包含离群值时会出现问题。
apriori算法:
频繁项集:
DBSCAN :
基于密度的簇是密度相连的点的集合。
主要思想:
寻找被低密度区域分离的高密度区域。
只要临近区域的密度(单位大小上对象或数据点的数目) 超过某个阈值,就继续聚类。
密度 = 指定半径(Eps)内的点的数量 。
一个点是一个核心点,如果在指定半径(Eps) 内有超过一个指定的点数 (MinPts),那这些都是在簇内部的点。
在 指定半径(Eps)内,一个边界点有少于 MinPts 的点数, 但它落在核心点的邻域内。
噪声点 既非核心点也非边界点的任意点。
置信度和支持度:
基本分类器:
决策树 Decision Tree;
基于规则的方法 Rule-based Methods;
最近邻 Nearest-neighbor;
神经网络 Neural Networks, Deep Neural Nets;
朴素贝叶斯 Naïve Bayes;
支持向量机 Support Vector Machines;
集成分类器:
Boosting,;
随机森林 Random Forests;
集成学习:
两种主要的集成学习:平行(Bagging),顺序(Boosting)
组合模型的不同方法及其代表性算法:
1.平均 Averaging。
2.投票 Voting:
多数表决 Majority Voting:随机森林 Random Forest;
加权表决 Weighted Majority Voting:AdaBoost。
3.学习合成器Combiners:
通用合成器General Combiner:堆叠Stacking;
分段合成器Piecewise Combiner:区域推进RegionBoost。
KNN: K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
优点:精度高、对异常值不敏感、无数据输入假定。
缺点:计算复杂度高、空间复杂度高。 适用数据范围;数值型和标称型。
AdaBoost: Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。
优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整。
缺点:对离群点敏感。
适用数据类型:数值型和标称型数据。
五、综合题
朴素贝叶斯:网球例子
决策树:ID3算法,信息熵。