- 通过数据挖掘过程所推倒出的关系和摘要经常被称为:(A B)
A. 模型
B. 模式
C. 模范
D. 模具 - 寻找数据集中的关系是为了寻找精确、方便并且有价值地总结了数据的某一特征的表示,这个过程包括了以下哪些步骤? (A B C D)
A. 决定要使用的表示的特征和结构
B. 决定如何量化和比较不同表示拟合数据的好坏
C. 选择一个算法过程使评分函数最优
D. 决定用什么样的数据管理原则以高效地实现算法。 - 数据挖掘的预测建模任务主要包括哪几大类问题? (A B)
A. 分类
B. 回归
C. 模式发现
D. 模式匹配 - 数据挖掘算法的组件包括:(A B C D)
A. 模型或模型结构
B. 评分函数
C. 优化和搜索方法
D. 数据管理策略 - 以下哪些学科和数据挖掘有密切联系?(A D)
A. 统计
B. 计算机组成原理
C. 矿产挖掘
D. 人工智能 - 在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法有: (ABCDE)
A忽略元组
B使用属性的平均值填充空缺值
C使用一个全局常量填充空缺值
D使用与给定元组属同一类的所有样本的平均值
E使用最可能的值填充空缺值 - 下面哪些属于可视化高维数据技术 (ABCE)
A 矩阵
B 平行坐标系
C星形坐标 D散布图
E Chernoff脸 - 对于数据挖掘中的原始数据,存在的问题有: (ABCDE)
A 不一致
B重复
C不完整
D 含噪声
E 维度高 - 下列属于不同的有序数据的有:(ABCE)
A 时序数据
B 序列数据
C时间序列数据
D事务数据
E空间数据 - 下面属于数据集的一般特性的有:( B C D)
A 连续性
B 维度
C 稀疏性
D 分辨率
E 相异性 - 下面属于维归约常用的线性代数技术的有: (A C)
A 主成分分析
B 特征提取
C 奇异值分解
D 特征加权
E 离散化 - 下面列出的条目中,哪些是数据仓库的基本特征: (ACD)
A. 数据仓库是面向主题的
B. 数据仓库的数据是集成的
C. 数据仓库的数据是相对稳定的
D. 数据仓库的数据是反映历史变化的
E. 数据仓库是面向事务的 - 以下各项均是针对数据仓库的不同说法,你认为正确的有(BCDE )。
A.数据仓库就是数据库
B.数据仓库是一切商业智能系统的基础
C.数据仓库是面向业务的,支持联机事务处理(OLTP)
D.数据仓库支持决策而非事务处理
E.数据仓库的主要目标就是帮助分析,做长期性的战略制定 - 数据仓库在技术上的工作过程是: (ABCD)
A. 数据的抽取
B. 存储和管理
C. 数据的表现
D. 数据仓库设计
E. 数据的表现 - 联机分析处理包括以下哪些基本分析功能? (BCD)
A. 聚类
B. 切片
C. 转轴
D. 切块
E. 分类 - 利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是(BD)
ID 项集
1 面包、牛奶
2 面包、尿布、啤酒、鸡蛋
3 牛奶、尿布、啤酒、可乐
4 面包、牛奶、尿布、啤酒
5 面包、牛奶、尿布、可乐
A、啤酒、尿布
B、啤酒、面包
C、面包、尿布
D、啤酒、牛奶 - 下表是一个购物篮,假定支持度阈值为40%,其中(A D)是频繁闭项集。
TID 项
1 abc
2 abcd
3 bce
4 acde
5 de
A、abc
B、ad
C、cd
D、de - Apriori算法的计算复杂度受(ABCD)?影响。
A、支持度阀值
B、项数(维度)
C、事务数
D、事务平均宽度 - 非频繁模式(AD)
A、其支持度小于阈值
B、都是不让人感兴趣的
C、包含负模式和负相关模式
D、对异常数据项敏感 - 以下属于分类器评价或比较尺度的有: (ACD)
A,预测准确度
B,召回率
C,模型描述的简洁度
D,计算复杂度 - 在评价不平衡类问题分类的度量方法有如下几种,(ABCD)
A,F1度量
B,召回率(recall)
C,精度(precision)
D,真正率(ture positive rate,TPR) - 贝叶斯信念网络(BBN)有如下哪些特点, (AB)
A,构造网络费时费力
B,对模型的过分问题非常鲁棒
C,贝叶斯网络不适合处理不完整的数据
D,网络结构确定后,添加变量相当麻烦 - 如下哪些不是最近邻分类器的特点, (C)
A,它使用具体的训练实例进行预测,不必维护源自数据的模型
B,分类一个测试样例开销很大
C,最近邻分类器基于全局信息进行预测
D,可以生产任意形状的决策边界 - 如下那些不是基于规则分类器的特点,(AC)
A,规则集的表达能力远不如决策树好
B,基于规则的分类器都对属性空间进行直线划分,并将类指派到每个划分
C,无法被用来产生更易于解释的描述性模型
D,非常适合处理类分布不平衡的数据集 - 以下属于聚类算法的是( ABD )。
A、K均值
B、DBSCAN
C、Apriori
D、Jarvis-Patrick(JP) - ( CD )都属于簇有效性的监督度量。
A、轮廓系数
B、共性分类相关系数
C、熵
D、F度量 - 簇有效性的面向相似性的度量包括( BC )。
A、精度
B、Rand统计量
C、Jaccard系数
D、召回率 - ( ABCD )这些数据特性都是对聚类分析具有很强影响的。
A、高维性
B、规模
C、稀疏性
D、噪声和离群点 - 在聚类分析当中,( AD )等技术可以处理任意形状的簇。
A、MIN(单链)
B、MAX(全链)
C、组平均
D、Chameleon - ( AB )都属于分裂的层次聚类算法。
A、二分K均值
B、MST
C、Chameleon
D、组平均