名词解释:

  1. Data Mining

答:数据挖掘。简单地说就是从大型数据中挖掘所需要的知识。

  1. Artificial Intelligence

答:简单地说就是研究如何应用机器来模拟人类某些智能行为的基本理论方法和技术的一门科学。

  1. Machine Learning

答:简单地说就是研究如何使用机器来模拟人类学习活动的一门学科。

  1. Knowledge Engineering

答:简单地说就是研究知识信息处理并探讨开发知识系统的技术。

  1. Information Retrieval

答:简单地说就是研究合适的信息组织并根据用户需求快速而准确地查找信息的技术。通常指的是计算机信息检索,它以计算机技术为手段,完成电子信息的汇集、存储和查找等的相关技术。

  1. Data Visualization

答:简单地说就是运用计算机图形学和图像处理等技术,将数据换为图形或图像在屏幕上显示出来。它是进行人机交互处理、数据解释以及提高系统可用性的重要手段。

  1. KDD(Knowledge Discovery in Database)

答:是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程。

(8)OLTP(On-LineTransaction Processing)

联机事务处理 传统的关系型数据库的主要应用,主要是基本的、日常的事务处理(增删改查),例如银行交易。

(9)OLAP(On-LineAnalytic Processing)

联机分析处理 数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

(10)决策支持(Decision Support)

决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策。

(11)事务数据库(TransactionDatabase)

一个事务数据库是对事务型数据的收集。

(12)分布式数据库(DistributedDatabase)

物理上分散而逻辑上集中的数据库系统

 

为什么说数据挖掘是未来信息处理的骨干技术之一?

答:数据挖掘之所以被称为未来信息处理的骨干技术之一,主要在于它以一种全新的概念改变着人类利用数据的方式。数据挖掘和知识发现使数据处理技术进入了一个更高级的阶段。它不仅能对过去的数据进行简单的查询,并且能够找出过去数据之间的潜在联系进行更高层次的分析,以便更好地做出理想的决策、预测未来的发展趋势等。

 

支撑数据挖掘技术的主要研究基础学科有哪些?说明数据挖掘产生的技术背景

答:任何技术的产生总是有它的技术背景的。数据挖掘技术的提出和普遍接受是由于计算机及其相关技术的发展为其提供了研究和应用的技术基础。普遍认为,对数据挖掘产生决定性作用的三个主要技术:数据库技术、统计学和包括机器学习在内的人工智能技术。

 

数据(Data)、信息(Information)和知识(Knowledge)是人们认识和利用数据的三个不同阶段,数据挖掘技术是如何把它们有机地结合在一起的?

参考答案:从数据、信息和知识三个层面上看,数据是最原始的未经组织和处理的信息源。信息或称有效信息是指对人们在某些方面有价值的东西。知识是一种现实世界信息的抽象和浓缩,是一种概念、规则、模式和规律等。数据挖掘技术通过对原始数据进行微观、中观乃至宏观的统计、分析、综合和推理,发现数据间的关联性、未来趋势以及一般性的概括知识等.转变成可以用来指导人们某些高级商务活动的有用信息。

 

你认为应该如何来理解KDD与DataMining的关系?说明你的理由。

答:关于KDD与DataMining的关系有以下儿种说法。

(1)把KDD看成数据挖掘的一个特例。这是早期比较流行的观点,在许多文献可以看到这种说法。因此,从这个意义上说,数据挖掘就是从数据库、数据仓库以及其他数据存储方式中挖掘有用知识的过程。这种描述强调了数据挖掘在源数据形式上的多样性。

(2)数据挖掘是KDD过程的一个步骤(从狭义角度考虑)。这种观点得到大多数学者认同,有它的合理性。KDD是一个广义的范畴、它包括数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式生成及评估等一系列步骤。这样,可以把 KDD看成是一些基本功能构件的系统化协同工作系统,而数据挖掘则是这个系统中的一个关键的部分。

(3)KDD与DataMining 含义相同(从广义角度考虑)。有些人认为,KDD与DataMining只是叫法不一样,它们的含义基本相同。事实上,在现今的许多文献中,这两个术语仍然不加区分地使用着。

 

根据挖掘数据的对象不同,可以将数据挖掘技术进行分类,简述这此分类类型。

答:根据挖掘数据的对象不同,数据挖掘技术可以分为关系型数据库挖掘、面向对象数据库挖掘、空间数据库挖掘、时态数据库挖掘、文本数据库挖掘、多媒体数据库挖掘、异质数据库挖掘、遗产数据库挖掘Web数据挖掘等。

 

完成从大型数据中发现有价值知识的过程可以简单地概括为:首先从数据源中抽取感兴趣地数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。

 

KDD是一个多步骤的处理过程,它一般包含哪些基本阶段?简述各阶段的功能。

答:KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理

数据挖掘以及模式评估等基本阶段。

(1)问题定义阶段的功能:用于在大量数据中发现感兴趣的信息。数据挖掘人员和领域专家以及最终用户紧密协作,一方面了解相关领域的有关情况,熟悉背景知识,弄清用户要求,确定挖掘的目标等要求;另一方面通过对各种学习算法的对比进而确定可用的学习算法。

(2)数据抽取阶段的功能:选取相应的源数据库,并根据要求从数据库中提取相关的数据。

(3)数据预处理阶段的功能:对前一阶段抽取的数据进行再加工,检查数据的完整性及数据的一致性。

(4)数据挖掘阶段的功能:运用选定的数据挖掘算法,从数据中提取出用户所需要的知识。

(5)模式评估阶段的功能:将KDD系统发现的知识以用户能了解的方式呈现并且根据需要进行知识评价。如果发现知识和用户挖掘目标不一致,则重复以上阶段以最终获得可用的知识。

 

k-平均算法

优:

1.是解决聚类问题的一种经典算法,简单、快速。

2.对处理大数据集,该算法是相对可伸缩和高效率的。

3.当结果簇是密集的,它的效果较好。

缺:

1.在簇的平均值被定义的情况下才能使用,可能不适用于某些应用。

2.必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。

3.不适合于发现非凸面形状的簇或者大小差别很大的簇。

4.对于“噪声”和孤立点数据是敏感的

 

算法原理(必考):

AGNES(AGglomerative NESting):自底向上凝聚的算法,先将每个对象作为一个簇,然后这些簇根据某些准则(类间距离最近的两个点)被一步步地合并,直到某个终结条件被满足(达到定义的簇的数目)。

 

DIANA(Divisive ANAlysis):自顶向下分裂的算法,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件(达到了某个希望的簇数目,或两个最近簇之间的距离超过了某个阈值)。

 

DBSCAN(Density-Based SpatialClustering of Applications with Noise)噪声环境下的密度聚类算法,将密度相连的点的最大集合聚成簇,并可在有“噪声”的空间数据库中发现任意形状的聚类。