文章目录
- 第一章 数据仓库与数据挖掘概述
- 第二章 数据仓库概述
- 第三章 联机分析处理(OLAP)
- 第四章 数据挖掘的基本概念
- 第五章 数据预处理
- 第六章 概念描述:特征化和比较
- 习题答案
第一章 数据仓库与数据挖掘概述
无习题
第二章 数据仓库概述
一. 判断题
- 在分析型处理产生后,数据处理的环境由原来的以单一数据库为中心的数据环境发展为以数据仓库为基础的体系化环境。
- 在事务型(操作型)数据处理下,数据处理的环境主要是以单一数据库为中心的数据环境。
- 数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术.
- 面向应用,是数据仓库区别于传统的操作型数据库的关键特征。
- 一个数据仓库是通过集成多个异种数据源来构造的。
- 由于在数据仓库中只进行数据的初始装载和查询操作,所以,数据一旦进入数据仓库,就是稳定的,基本上不会被更新。
- 数据立方体必须是3维的。
- 在数据仓库中,概念分层定义了一个映射序列,可以将低层概念映射到更一般的高层概念。
- 方体的格,是在单个维上定义的映射序列,可以将低层概念映射到更一般的高层概念。
- 雪花模型通过在每个维表基础上,增加附加维表的方式来降低星型模型中可能会存在的冗余现象。
- 在事实星座模型中,有且仅能有一个事实表。
- 在数据仓库的设计过程中,要坚持“数据驱动和需求驱动双驱动,且以需求驱动为中心”的原则。
二.单选题
- 在以下人员中,被誉为“数据仓库之父”的是:( ) (知识点:数据仓库的基本概念; 易)
A. H.Inmon B. E.F.Codd C. Simon D. Pawlak - 以下关于数据仓库的说法正确的是:( ) (知识点:数据仓库的基本概念; 难)
A. 数据仓库中的数据只能来源于组织内部的操作型数据库
B. 数据仓库是为应对事务型数据处理的需要而产生的
C. 数据仓库是面向主题的,这是其区别于操作型数据库的关键特征
D. 数据仓库必须是面向企业全局的,不能以部门为单位建立数据仓库 - 以下哪项不是“信息包图”中的元素? ( ) (知识点:数据仓库的三级模型; 难)
A. 维度 B. 维的概念层次及相应层次上的数量
C. 度量 D. 方体的格 - 以下哪项不属于数据仓库的逻辑模型? ( ) (知识点:数据仓库的三级模型; 中)
A. 星型模型 B. 雪花模型
C. 度量模型 D. 事实星座模型 - 在数据仓库的设计过程中,下列描述正确的是( ) (知识点:数据仓库的设计; 难)
A. 数据仓库是“数据驱动+需求驱动”双驱动,但必须以需求驱动为中心
B. 数据仓库主要面向分析型处理环境,在设计时很难完全明确用户的需求
C. 数据仓库与数据库一样,其数据主要来自于企业的业务流程
D. 数据仓库的设计目标是要提高事务处理的性能 - 下面哪项关于星型模型的说法是不正确的:( ) (知识点:数据仓库的三级模型; 难)
A. 有一个事实表,且事实表中的属性由指向各个维表的外键和一些相应的度量数据组成
B. 有一组小的附属表,称为维表,且每维一个维表
C. 事实表的每个字段都是事实度量字段
D. 由于每维只能建立一个维表,使得维表中有些信息会产生冗余 - 在数据仓库的概念模型中,通过( )来实现数据从客观世界到主观认识的映射。 (知识点:数据仓库的三级模型; 易)
A. E-R模型 B. 信息包图
C. 星型模型 D. 雪花模型
四.填空题
- 数据仓库的关键特征有:面向( )、( )、稳定的和( )的。 (知识点:数据仓库的基本概念; 易)
- 数据仓库的三级模型包括:概念模型、( )模型和物理模型。 (知识点:数据仓库的三级模型; 易)
- 设计数据仓库时,常见的逻辑模型包括:( )模型、雪花模型和( )模型;其中,针对多个数据仓库应用的是( )模型。 (知识点:数据仓库的三级模型; 中)
- 随着计算机应用的深入,其所执行的数据处理类型也相应的分成:事务型数据处理和 ( )。其中,数据仓库是为迎合( )的需要而产生的一种新的数据存储机制。 (知识点:数据仓库的基本概念; 中)
- 数据仓库与数据库的设计方法不同,数据库的设计遵循SDLC方法,而数据仓库的设计遵循 ( )方法。 (知识点:数据仓库的设计; 中)
第三章 联机分析处理(OLAP)
一.判断题
- OLTP是一种多维数据分析技术。
- OLTP是关系型数据库的主要应用。
- 相对于OLAP技术的验证性分析过程,数据挖掘技术表现出更高的自动学习能力。
- OLAP的上钻操作是在某一维上从汇总数据深入到细节数据进行观察。
二.单选题
- OLAP技术的核心是:( ) (知识点:OLAP的基本概念;中)
A. 在线性 B对用户的快速响应
C. 互操作性 D. 多维分析 - 关于OLAP和OLTP的区别描述,不正确的是:( ) (知识点:OLAP的基本概念;难)
A. OLAP主要面向企业的高层管理人员,用以辅助决策;而OLTP主要面向企业的基层管理人员,用以辅助日常业务
B. 与OLAP技术不同,OLTP需要处理大量相对简单的任务
C. OLAP的特点在于一次性处理的事务量大,但事务内容比较简单且重复率高 D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样,大都来自底层的数据库系统
三、填空题
- 常见的OLAP的分析方法包括:( )、切块、钻取和( )。(知识点:OLAP的基本概念;中)
- OLAP的数据组织方式有如下几种:ROLAP、( )和 ( )。(知识点:OLAP的基本概念;中)
四、多选题
- 以下哪些属于OLAP的常见操作?( ) (知识点:OLAP的基本概念;易)
A. 切片 B 切块 C 钻取 D 旋转
第四章 数据挖掘的基本概念
一. 单选题
- 某超市研究销售记录数据后发现,买面包的人很大概率也会购买牛奶,这种属于数据挖掘的哪类问题?( ) (知识点:数据挖掘的基本概念; 中)
A. 关联规则发现 B. 聚类
C. 分类 D. 孤立点检测 - 对没有类标签属性的数据集,使用哪种技术可以使得同类数据与其他类数据相分离:( ) (知识点:数据挖掘的基本概念; 难)
A. 关联规则发现 B. 聚类
C. 分类 D. 孤立点检测 - 假设现在的数据挖掘任务是识别垃圾邮件的典型特征,通常所使用的数据挖掘功能是: ( ) (知识点:数据挖掘的基本概念; 中)
A. 关联分析 B. 分类预测
C. 概念描述 D. 聚类分析
二. 判断题 - 在聚类分析中,类(簇)内的相似性越大,类(簇)间的差别越大,聚类的效果就越好。
- “啤酒与尿布”的案例是聚类分析的典型案例。
第五章 数据预处理
一. 单选题
- 对于区间 [240,460],按照自然划分的3-4-5规则,可以划分为: ( ) (知识点:数据预处理; 中)
A. [200,300), [300,400), [400,500]
B. [300,350), [350,400), [400,450), [450,500]
C. [200,250), [250,300), [300,350), [350,400]
D. [200,300), [300,400] - 已知一组价格数据:15,21,24,21,25,4,8,34,28,按照等宽(宽度为10)分箱方法对其进行平滑,可以划分为几个箱子? ( ) (知识点:数据预处理; 易)
A. 3 B. 4 C. 5 D. 6 - 假定属性income的平均值与标准差分别为$54000和$16000,使用z-score规范化,则属性值$73600将变换为:( ) (知识点:数据预处理; 中)
A. 0.736 B. 0.716 C. 1.225 D. 1 - 在数据归约的如下描述中,错误的是:( ) (知识点:数据预处理; 难)
A. 数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近保持原数据的完整性
B. 对归约后的数据集进行挖掘可提高挖掘的效率,并产生相同(或几乎相同)的结果
C. 用于数据归约的时间可以超过或“抵消”在归约后的数据集上挖掘节省的时间
D. 维归约可以检测并删除不相关、弱相关或冗余的属性维。 - 将原始数据进行集成、变换、维度归约、数值归约是在以下哪个步骤进行的?( ) (知识点:数据预处理; 中)
A. 频繁模式挖掘 B. 分类和预测
C. 数据预处理 D. 数据流挖掘
二. 多选题
- 在现实世界的数据中,元组在某些属性上缺少值是常有的,处理该问题的常用方法包括: ( ) (知识点:数据预处理; 中)
A. 忽略元组 B. 使用一个全局变量填充空缺值
C. 使用属性的平均值填充空缺值 D. 使用最可能的值进行填充
E.使用与给定元组属同一类的所有样本的平均值 - 以下方法中,哪些属于数据规范化的方法?( ) (知识点:数据预处理; 难)
A. 最大最小规范化 B. 小数定标规范化
C. 3-4-5规则 D. Z-score规范化 - 在维归约方法中,常见的用于属性子集选择的启发式方法有:( ) (知识点:数据预处理; 难)
A. 逐步向前选择 B. 逐步向后删除
C. 向前选择和向后删除相结合 D. 判定树归纳
三. 填空题
- 商务智能的三大支撑技术有:( )、( )和 数据挖掘。 (知识点:商务智能的基本概念;易)
- 常见的数据规范化的方法有:( )、零均值规范化,和( )。 (知识点:数据预处理;中)
第六章 概念描述:特征化和比较
一. 单选题
- 以下操作中不属于数据概化操作是:( ) (知识点:概念描述;中)
A. 将n维数据立方体聚集为n-1维数据立方体
B. 利用OLAP进行数据的上卷操作
C. 考察任务相关数据中每个属性的不同取值的个数,对数据进行概化操作
D. 利用最大最小规范化方法,将数据按比例缩放到一个小的特定区间 - 什么是AOI:( ) (知识点:概念描述;易)
A. 面向属性归纳 B. 属性相关分析
C. 数据库中的知识发现 D. 属性子集选择 - 以下关于面向属性归纳的描述中,正确的是:( ) (知识点:概念描述;难)
A. 属性概化阈值是用来控制数据集中属性个数的参数
B. 在面向属性归纳过程中,绝对不能生成相同的行
C. 概化关系阈值是用来控制广义元组个数的参数
D. 面向属性归纳是根据属性与决策任务间的相关性来选择属性的方法 - 什么是DW:( ) (知识点:数据仓库的基本概念;易)
A. 领域知识发现 B. 机器学习
C.数据挖掘 D. 数据仓库 - 对某商场2016年的销售数据执行面向属性归纳操作后,得到如下数据表。设目标集合为“电冰箱”,则在数据表基础上可得到如下定量描述规则:
∀X,item(X)= “电冰箱”(location(X)=“东北”)[t1:( )]∨(location(X)=“华北”)[t2:( )]
其中,t1和t2分别为定量描述规则的t权,则, t1、 t2的值为:( )。 (知识点:概念描述;难) - A. 0.43 0.57; B. 0.5 0.5;
C. 0.33 0.67; D. 0.4 0.6;
二. 多选题
- 常见的度量数据集中趋势的指标有:( ) (知识点:概念描述;中)
A. 均值 B. 中位数
C. 众数 D. 四分位数
E. 方差
三. 填空题
- 对某商场2002年的销售数据执行面向属性归纳操作后,得到如下数据表。
设目标集合为“电视”,则在数据表基础上可得到如下定量描述规则:
∀X,item(X)= “TV”(location(X)=“Asia”)[t1:( )]∨(location(X)=“Europe”)[t2:( )]
其中,t1和t2分别为定量描述规则的t权,则:t1=( ), t2=( )。
(知识点:概念描述;中)
习题答案
【第二章】
1.(对; 知识点:数据仓库的基本概念; 易)
2.(对; 知识点:数据仓库的基本概念;易)
3.(对; 知识点:数据仓库的基本概念;易)
4.(错; 知识点:数据仓库的基本概念; 中)
5.(对; 知识点:数据仓库的基本概念; 中)
6.(对; 知识点:数据仓库的基本概念; 难)
7.(错; 知识点:数据立方体; 易)
8.(对; 知识点:数据立方体;中)
9.(错; 知识点:数据立方体; 难)
10.(对; 知识点:数据仓库的三级模型; 中)
11.(错; 知识点:数据仓库的三级模型; 难)
12.(错; 知识点:数据仓库的基本概念; 中)
A C D C B C B
1.主题、集成的、反映历史变化(知识点:数据仓库的基本概念; 易)
2.逻辑模型(知识点:数据仓库的三级模型; 易)
3.星型、事实星座、事实星座(知识点:数据仓库的三级模型; 中)
4.分析型数据处理、分析型数据处理(知识点:数据仓库的基本概念; 中)
5. CLDS(知识点:数据仓库的设计; 中)
【第三章】
1.(错;知识点:OLAP的基本概念;易)
2.(对;知识点:OLAP的基本概念;易)
3.(对;知识点:OLAP的基本概念;难)
4.(错;知识点:OLAP的基本概念;中)
D C
1.常见的OLAP的分析方法包括:( 切片)、切块、钻取和( 旋转 )。(知识点:OLAP的基本概念;中)
2.OLAP的数据组织方式有如下几种:ROLAP、 ( MOLAP )和 ( HOLAP )。 (知识点:OLAP的基本概念;中)
ABCD
【第四章】
A B B
1.(对; 知识点:数据挖掘的基本概念; 中)
2.(错; 知识点:数据挖掘的基本概念; 易)
【第五章】
A A C C C
ABCDE ABD ABCD
1.商务智能的三大支撑技术有:( 数据仓库 )、( OLAP)和 数据挖掘。 (知识点:商务智能的基本概念;易)
2.常见的数据规范化的方法有:( 最小最大规范化 )、零均值规范化,和( 小数定标规范化 )。 (知识点:数据预处理;中)
【第六章】
D A C D C ABC
0.4 0.6