第二章第一节
多选1. 以下关于数据预处理的描述正确的是:
(1分)
需要借助领域知识
核心内容就是缺失数据填充
数据挖掘工作的基础性工作
主要靠标准化算法自动处理
单选2. 小张的个人信息中身份证号倒数第二位是单数,性别为女。这种情况被称为:
(1分)
Missing Data
Inconsistent Data
Noisy Data
Redundant Data
单选3. 学生小明在调查问卷中没有回答下述问题:“你去年的工资收入和前年相比是否有所增加?” 对这种情况最恰当的描述是:
(1分)
完全随机缺失
N/A
数据未提供
异常数据
单选4. 以下针对缺失值问题的阐述正确的是:
(1分)
删就一个字
用均值填充即可
用中位数填充即可
具体问题具体分析
单选5. 某大一男生体检数据中体重值缺失,相对合理的填充值是:
(1分)
40公斤
60公斤
80公斤
100公斤
单选6. 假设男生用1表示,女生用0表示,某人的性别未填,应该如何处理?
(1分)
填1
填0
填均值0.5,必须的
可根据其它信息(如身高、体重)推测
单选7. 以下关于离群点(Outlier)和异常点(Anomaly)关系的论述正确的是:
(1分)
一回事,说法不同而已
离群点一定是异常点
异常点一定是离群点
不能简单判定
第二章第二节
- 关于离群点的判定:
(1分)
主要看其与近邻的平均距离
主要看其与近邻的最大距离
需要考虑相对距离因素
主要靠感觉
单选2. 采用LOF方法进行离群点检测时:
(1分)
LOF值越小越疑似离群点
LOF值越大越疑似离群点
LOF值越接近1越疑似离群点
LOF值越接近0.5越疑似离群点
单选3. Case A:两人名字不同,身份证号相同。 Case B:两人同名同姓,身份证号不同。
(1分)
A为重复数据可能性大
B为重复数据可能性大
我读书少,看不出什么区别
单选4. 在记录手机号码的时候,相对而言:
(1分)
前三位不容易记错
末尾三位不容易记错
中间三位不容易记错
都一样
单选5. 在记录英语国家人名时:
(1分)
姓容易写错
名容易写错
没有明显区别
单选6. 对英语国家的人群而言:
(1分)
姓的区分度大
名的区分度大
没有明显区别
第二章第三节
单选1. 按A, B, C, D打分的考试成绩数据属于:
(1分)
数值型(连续)
数值型(离散)
序数型(Ordinal)
标称型(Nominal)
字符串
多选2. 在对标称型数据(如颜色、职业等)进行编码时:
(1分)
按1,2,3,4…顺序编码即可
类别较少时,可考虑采用扩维法
不同编码可能会影响数据的空间分布
不好处理,删了算了
多选3. 在大数据分析中,利用采样技术可以:
(1分)
降低获取数据的成本
减少需要处理的数据量
有助于处理不平衡数据
提高数据的稳定性
单选4. 对于极度不平衡的二分类数据集,应特别注意:
(1分)
整体的准确率
多数类样本的准确率
少数类样本的准确率
两类样本准确率的均值
单选5. SMOTE的工作原理是:
(1分)
对多数类样本进行下采样
对少数类样本进行克隆复制
对少数类样本通过插值进行上采样
对整体样本进行随机采样
第二章第四节
单选1. 很多人感觉到自己的收入与官方公布的平均收入相去甚远,最有可能的解释是:
(1分)
自己工作不够努力,怨不得别人
统计样本不具有代表性
个体收入分布极度不均衡
错觉,都是错觉
多选2. Pearson’s product moment correlation coefficient 可用来判断:
(1分)
X和Y是否正相关
X和Y是否负相关
X和Y是否不相关
X和Y之间的因果关系
单选3. 在Box Plots当中,一个盒子越扁说明在该维度上:
(1分)
25%到75%之间的数据分布较为集中
25%到75%之间的数据分布较为分散
离群点较少
离群点较多
单选4. 适合可视化高维数据的方法是:
(1分)
圆饼图
散点图
平行坐标
直方图
单选5. 数据可视化工作:
(1分)
锦上添花,可有可无
不学就懂,一看就会
主要用于展示最终结果
贯穿数据挖掘工作全过程
第二章第五节
- 熵衡量的是系统的不确定性,熵值越大(接近于1)说明系统的不确定性越低。
(1分)
正确
错误
单选2. 假设某数据集的原始熵值为0.7, 已知某属性的信息增益为0.2,那么利用该属性进行划分后数据集的熵值为:
(1分)
0.9
0.7
0.5
0.2
单选3. 以下方法中可以确保获得最优属性子集的是:
(1分)
Top K Individual Features
Sequential Forward Selection
Sequential Backward Selection
Simulated Annealing
Exhaustive Search
单选4. 关于分支定界法不正确的描述是:
(1分)
树状搜索算法
随机搜索算法
依赖属性的单调性假设
能够减少搜索空间
多选5. 进行属性选择的原因是:
(1分)
属性可能存在冗余
属性可能存在噪声
降低问题复杂度
个人喜好
第二章第六节
- 特征选择与特征提取的关系是:
(1分)
特征提取包含特征选择
特征选择包含特征提取
一码事,说法不同而已
It is like comparing apples and oranges.
单选2. 平面图中的老鹰能够被人们识别的原因是:
(1分)
体积大
为人所熟知
长得有个性
观察角度合适
单选3. 在PCA变换中,应尽量把数据向什么方向投影:
(1分)
数据集中的方向
数据散布大的方向
数据分组特征明显的方向
平行于原始坐标轴的方向
单选4. PCA变换中不包含以下哪一种操作:
(1分)
去均值
矩阵特征值分解
属性值标准化
坐标变换
单选5. 假设样本数大于维数,利用PCA技术,可以把N维数据降到:
(1分)
只能到1维
只能到N-1维
1到N-1维
取决于样本的类别数
第二章第七节
- 如果将PCA应用于带标签的分类数据:
(1分)
程序直接崩溃
效果杠杠的
驴唇不对马嘴
视情况而定
单选2. LDA与PCA最本质的区别是:
(1分)
能够降到的维数不同
计算效率不同
降维的目标不同
我读书少,看不出来
单选3. 当样本个数小于数据维数的时候,LDA不能正常工作的原因是:
(1分)
类间散布矩阵不满秩
类内散布矩阵不满秩
计算量过高
Fisher准则无意义
单选4. 当类中心重合的时候,LDA不能正常工作的原因是:
(1分)
Fisher准则函数分母为零
类内散布矩阵奇异
Fisher准则函数恒等于零
类间散布矩阵满秩
单选5. 对于二分类问题,LDA只能将原始数据降到1维的原因是:
(1分)
类间散布矩阵秩为1
类内散布矩阵秩为1
原始数据维度过高
原始数据维度过低
单选6. 关于LDA和PCA投影方向描述正确的是:
(1分)
必然相同
必然不同
LDA总是优于PCA
世事难料