未来教育第十四章题目笔记_数据仓库与数据挖掘
1、关联规则挖掘是发现交易数据库中不同商品之间的联系;无监督学习算法对类别并没有规定明确的前提条件。
2、数据仓库是为了构建新的分析处理环境而出现的一种数据存储和组织的新技术。
数据仓库有若干特征,包括不可更新性和随时间变化性。
不可更新性:用户在提取仓库中的数据进行分析时,并不会同时对仓库中的数据进行更新操作
数据变化性:数据每隔一段时间进行数据的更新和处理
3、数据仓库是一个面向对象的、集成的、非易失的、且随时间变化的数据集合。
4、粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高、粒度级越小。
5、
OLTP(微观分析)【全局型】是对数据库联机的日常操作,通常是对一条记录的查询和修改,要求快速响应用户的请求,对数据的安全性、完整性及实物吞吐量要求很高。【面向企业的中下层业务人员】
OLAP(宏观分析)【即时】是对数据的查询和分析操作,通常是对海量历史数据的查询和分析,要访问的数据量非常大,查询和分析操作十分复杂。【面向中上层和决策者使用】
7、由于有样本集和测试集之分,又有已有的类别标签
分类:通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y;【属于监督学习】
聚类:根据在数据中发现的描述对象及其关系的信息,将数据对象分类,组内的对象互相之间是相似的,而不同组中的对象则不同。组内的相似性越大,组间差别越大,聚类就越好;【属于无监督学习】
关联规则挖掘:发现隐藏在大型数据集中的有意义的联系。
多维分析:指各级管理决策人员从不同的角度、快速灵活的对数据仓库中的数据进行复杂查询多维分析处理。
10、关联规则是形如X->Y的蕴含表达式。强度可以用他的支持度(s)和置信度©度量。
支持度确定规则可以用于给定数据集的频繁程度;置信度确定Y在包含X的事务中出现的频繁程度.
11、元数据是关于数据的数据,或者叫做描述数据的数据。元数据描述了数据的结构、内容、链和索引等项内容。
在关系数据中,这种描述就是对数据库、表、列等其他对象的定义。
12、常用的OLAP多维分析操作有切片、切块、旋转、钻取和卷起。
卷起:是在数据立方体中执行聚集操作,通过在级别中上升或通过消除某个或某维来观察更概括的数据
钻取:通过在维级别中下降或通过引入某个或某些维来细致的观察数据。【年->月】
切片和切块实现局部数据的显示,帮助用户从众多混杂的数据中进行选择
旋转就是改变维的方向
13、在数据仓库中,元数据主要分为技术元数据和业务元数据。
16、MOLAP成为多维数据库的OLAP,这种OLAP的核心是多维数据库技术。
20、OLAP是联系分析处理的英文缩写,他仍然使用DBMS存取数据
21、数据仓库的四个特点:
①面向主题:数据仓库的数据按照一定的主题域进行组织
②集成的:面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间互相独立,往往是异构的;而数据仓库中的数据是在原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的。
③稳定的
④反映历史变化
22、数据仓库的数据来自多种数据源。源数据在被装载到数据仓库之前,需要进行一定的数据转换。转换的主要任务是对数据粒度以及不一致的数据进行转换。
27、面向主题的设计方法
28、OLAP主要用于支持复杂的分析操作,实现方式主要有三种:MOLAP【Relation 基于关系型数据库】、ROLAP【Multi-Dimensional 基于多维数据库】、HOLAP【Hybrid 混合型】
29、ODS(Operational Data Store)是数据库仓库体系结构中的一个可选部分,具备数据仓库的部分特征和OLTP系统的部分特征
①第一类ODS数据更新频率是秒级
②第二类ODS数据更新频率是小时级
③第三类ODS数据更新频率是天级
④第四类ODS是根据数据来源方向和类型划分的
30、知识发现主要由三个步骤组成,是数据准备、数据挖掘、结果的解释评估。
32、数据仓库不会实时更新
33、粒度越小,详细程度越高,综合程度就越低,数据量越大
34、数据仓库的结构采用三级数据模型的方式:
①概念模型:也就是业务模型,由企业决策者、商务领域知识专家和IT专家共同分析的结果
②逻辑模型:关联着上下
③物理模型:主要包含数据仓库的软硬件配置、资源情况以及数据仓库模式。
41、数据从操作性环境转移到数据仓库过程中所用到的ETL工具通常需要完成的处理操作包括抽取、转换和装载,
43、决策支持系统一般指企业中以数据为基础对重要业务或事务实施辅助决策的信息系统。
44、K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象距离越近,其相似度越大。
45、聚类算法所处理的对象一般都没有标记,因此聚类一般也被称为无监督的学习方法。
50、为了进行数据分析,将OLTP系统中数据利用【利用ETL】抽取程序抽取出来的最主要原因是解决OLTP应用与分析性应用之间的性能冲突问题
51、给定一个销售交易数据库,从中找出这些交易中的某些物品和其他物品之间的关系,这种数据挖掘称为关联挖掘。
56、在分类预测任务中,需要用到的数据一般包括训练集、测试集、验证集
57、快照是关于数据集合的一个完全可用拷贝,该拷贝包括相应数据在某个时间点的映像。快照可以是其所表示的数据的一个副本。它反映的是某个时间点内的数据,具有不可改变性。
64、维护策略中,只有用户查询时发现数据已经过期才进行更新的策略称为延时维护策略
77、在进行粒度设计时,在可用的存储空间中保存粗细程度不同的主题数据,以尽可能满足各种应用的多角度、多层次数据查询要求,同时在主体上提高查询的设计效率。
粒度越小、综合程度越低、细节程度越高、回答查询的类型越多、数据量越大、空间代价越大、事务并发程度越大。
80、在数据仓库中,根据数据源的变化量在维护对象原有数据的基础上对数据进行维护的方法称为增量维护法
81、从高粒度级数据视图切换到低粒度级数据视图的分析操作称为钻取操作
84、用户查询所涉及的数据的最低细节程度、用户查询的平均性能需求、系统的可用存储空间、低粒度级数据的规模都是主要考虑的因素
思维导图