数据挖掘:又称从数据中发现知识,简称KDD
1、为什么进行数据挖掘?
迈向信息时代
数据挖掘把大型数据集转换成知识。
数据挖掘是信息技术的进化
数据收集和数据库创建—>数据库管理系统—>1.高级数据库系统 2.高级数据分析
2、什么是数据挖掘?
许多人把数据挖掘视为数据中的知识发现(KDD)的同义词,其实更准确地来说数据挖掘是一个知识发现过程的步骤。
广义上的定义:数据挖掘是从大量数据中挖掘有趣模式和知识的过程。其数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据
知识发现过程的步骤:
1)数据清理
2)数据集成
3)数据选择
4)数据变换
5)数据挖掘
6)模式评估
7)知识表示
3、数据库数据
数据库系统,也称数据库管理系统(DBMS),由一组内部相关的数据(数据库)和一组管理和存取数据的软件程序组成。
4、数据仓库
数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。(类似于总公司的总账)
数据仓库用称做数据立方体的多维数据结构建模。其中,每个维对应于模式中的一个或一组属性,而每个单元存放某种聚集度量值,如count或sum。数据立方体提供数据的多维视图,并允许预计计算和快速访问汇总数据。
5、可以挖掘什么类型的模式
类/概念描述:特征与区分
数据特征化是目标类数据的一般特性或特征的汇总。数据特征化的输出可以用多种形式提供,例如饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述也可以用广义关系或规则(称做特征规则)形式提供。
数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
挖掘频繁模式、关联和相关性:
频繁模式(frequent pattern)是在数据中频繁出现的模式。存在多种类型的频繁模式,包括频繁项集、频繁子序列(又称序列模式)和频繁子结构。频繁项集一般是指频繁地在事务数据集中一起出现的商品的集合。频繁出现的子序列,如顾客倾向于先购买便携机,再购买数码相机,然后再购买内存卡,这样的模式就是一个(频繁)序列模式。子结构可能涉及不同的结构形式,可以与项集或子序列组合在一起。如果一个子结构频繁地出现,则称它为(频繁)结构模式。挖掘频繁模式导致发现数据中有趣的关联和相关性。
频繁项集挖掘是频繁模式挖掘的基础
用于预测分析的分类与回归
分类(classification)是这样的过程,它找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象的类标号。导出模型是基于对训练数据集(即,类标号已知的数据对象)的分析。该模型用来预测类标号未知的对象的类标号。
回归用于建立连续值函数模型,用来预测缺失的或难以获得的数值数据值,而不是(离散的)类标号。术语预测可以指数值预测和类标号预测。
聚类分析
不像分类和回归分析标记类的(训练)数据集,聚类(clustering)分析数据对象,而不考虑类标号。在许多情况下,开始并不存在标记类的数据。可以使用聚类产生数据组群的类标号。对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组。也就是说,对象的簇(cluster)这样形成,使得相比之下在同一簇中的对象具有很高的相似性,而与其他簇中的对象很不相似。所形成的每个簇都可以看做一个对象类,由它可以到处规则。聚类也便于分类法形成(taxonomy formation),即将观测组织成类分层结构,把相似的事件组织在一起。
离群点分析
数据集中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象是离群点(outlier)。大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。然而,在一些应用中,罕见的事件可能比正常出现的事件更令人感兴趣。离群点数据分析称做离群点分析或异常挖掘。6、使用什么技术
统计学
统计学研究书记的收集、分析、解释和表示。统计模型是一组数学函数,它们用随机变量及其概率分布刻画目标类对象的行为。统计模型广泛用于对数据和数据类建模。
统计学方法可以用来汇总或描述数据集、也可以用来验证数据挖掘的结果
- List item
7、机器学习
supervised learning基本上是分类的同义词。学习中的监督来自训练数据集中标记的实例。
unsupervised learning本质上是聚类的同义词。学习过程是无监督的,因为输入实例没有类标记。
semi-supervised learning是一类机器学习技术,在学习模型时,它使用标记的和未标记的实例。在一种方法中,标记的实例用来学习类模型,而未标记的实例用来进一步改进类的边界。
active learning是一种机器学习方法,它让用户在学习过程中扮演主动角色。主动学习方法可能要求用户(例如领域专家)对一个可能来自未标记的实例集或由学习程序合成的实例进行标记。
- List item
数据库系统和数据仓库
信息检索
信息检索是搜索文档或文档中信息的科学。文档可以是文本或多媒体,并且可以驻留在web上。传统的信息检索与数据库系统之间的差别有两点:信息检索假定所搜索的数据是无结构的;信息检索查询主要用关键词,没有复杂的结构(不同于数据库系统中的SQL查询)。 信息检索的典型方法采用概率模型。
面向什么类型的应用
商务智能(BI) power BI
Web搜索引擎
8、数据挖掘的主要问题
挖掘方法(挖掘方法应该考虑数据的不确定性、噪声和不完全性等问题。)
挖掘各种新的知识类型:数据挖掘广泛涵盖数据分析和知识发现的任务,从数据特征化与区分到关联与相关性分析、分类、回归、聚类、离群点分析、序列分析以及趋势和演变分析。
挖掘多维空间中的知识:在数据仓库中进行数据挖掘
数据挖掘--跨学科的努力:通过集成来自多学科的新方法可以显著增强数据挖掘的能力。把其他方法与数据挖掘相融合
提升网络环境下的发现能力:大部分数据对象驻留在链接或互连的环境中,无论是Web、数据库关系、文件还是文档。
处理不确定性、噪声或不完全数据:数据常常包含噪声、错误、异常、不确定性,或者是不完全的。
模式评估和模式或约束指导的挖掘:数据挖掘过程产生的所用模式并非都是有趣的。
用户界面
交互挖掘
结合背景知识
特定的数据挖掘和数据挖掘查询语言
数据挖掘结果的表示和可视化
有效性和可伸缩性
数据挖掘算法的有效性和可伸缩性:为了有效地从多个数据库或冬天数据流的海量数据中提取信息,数据挖掘算法必须是有效的和可伸缩的。
并行、分布式和增量挖掘算法:
数据库类型的多样性
处理复杂的数据类型
挖掘动态的、网络的、全球的数据库
数据挖掘与社会
数据挖掘的社会影响
保护隐私的数据挖掘
无形的数据挖掘
习题
1.1 什么是数据挖掘?在你的回答中,强调以下问题:
1) 它是又一种广告宣传吗?
数据挖掘指从大量数据中挖掘出有趣模式和知识的过程或方法。
数据挖掘不是另一种噱头,数据挖掘的兴起是由于海量数据及其转化为有效信息和知识的需求。因此,数据挖掘作为信息技术的自然革命的一个结果。
2) 它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?
数据挖掘比从数据库、统计学等简单转换或应用更复杂。数据挖掘是数据库、神经网络、机器学习、高性能计算、模式识别、数据可视化等的集成和综合。
3) 我们提出了一种观点,说数据挖掘是数据库技术进化的结果。你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这一观点吗?针对统计学和模式识别领域,做相同的事情。
机器学习与数据挖掘高度相关,机器学习模型通常非常强调准确性,而数据挖掘则强调挖掘方法在大型数据集上的有效性和可收缩性,以及处理复杂数据类型的方法,开发新的非传统方法;统计学研究数据的收集、分析、解释和表示,与数据挖掘具有天然联系;统计学方法可以用来验证数据挖掘结果等。因此可以说数据挖掘是统计学技术进步的结果;模式识别重在认识事物,数据挖掘重在发现知识,因此可以说数据挖掘是一种方法,用于模式识别。
4) 当把数据挖掘当做知识发现过程时,描述数据挖掘所涉及的步骤。
数据挖掘作为知识发现过程时,步骤有:1)数据清理;2)数据集成;3)数据选择;4)数据转换;5)数据挖掘;6)模式评估;7)知识表示。
1.2 数据仓库与数据库有何不同?它们有哪些相似之处?
数据库是由一组内部相关的数据和一组管理和存取数据的软件程序组成;数据仓库是一个从多个数据源收集的信息存储库。不同点是数据库由表组成,数据仓库是由数据立方体的多维数据结构建模。相似点在于数据库和数据仓库都可以存储数据,都是数据分析和挖掘的信息源。
1.3 定义以下数据挖掘功能:特征化、区分、关联和相关性分析、分类、回归、聚类、离群点分析。使用你熟悉的现实生活中的数据库,给出每种数据挖掘功能的例子。
数据特征化是目标类数据的一般特性或者特征的汇总。例如可以通过收集销量在前10%的物品的信息,再进行特征汇总。
数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如将销量增加10%和销量减少30%的物品放在一起进行比较。
数据分类是找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号位置的对象的类标号。例如找出描述销量增加30%和销量减少30%的物品,通过对其特征进行描述和建模,再对一个新的物品根据其特征将其分类。
回归建立连续值函数模型,用于预测缺失的难以确定的数据值。例如补全未采样的数据。
聚类根据最大化类内相似性、最小化类间相似性的原则分析数据对象,但不进行类标号。例如可以对客户数据进行分析,以簇形式表示每个购物目标群。
离群点分析指研究那些与数据的一般行为或模型不一致的数据离散点,可以从中挖掘某种模式。例如使用离群点分析发现信用卡诈骗使用活动。
1.4 给出一个例子,其中数据挖掘对于工商企业的成功是至关重要的。该工商企业需要什么数据挖掘功能?这种模式能够通过简单的查询处理或统计分析得到吗?
以百货商店为例,可以使用数据挖掘去开展商业目标邮件活动,可以使用聚类方法去找出商品的特定消费人群的特征,进而给与该类人群相似的顾客发送该商品促销邮件。此时简单的查询处理不能找出特定人群特征,同样,统计分析不能处理该百货商店里大量的顾客数据记录。
1.5 解释区分和分类、特征化和聚类、分类和回归之间的区别和相似之处。
区分指的是将目标类数据的一般特性和一个或多个对比类对象的一般特性进行比较,即找出两者之间的特征区别;分类指的是找出一种模型来描述和区分数据类型或概念,并预测类标号未知的对象的类标号。两者的相似性在于他们都要对目标类数据对象进行处理和分析,输出结果都是类别特征,这些类别是预先指定的。
特征化是对目标类数据的的一般特性或特征的汇总;聚类是指对数据对象在不考虑明确标签分类下的情况下进行分析。两者的相似处在于他们都刻画目标的总体特征。
分类用于找出一种模型来描述和区分数据类型或概念,并预测类标号未知的对象的类标号;而回归则是建立一个连续值函数模型,而不是离散、无序的标号。相似点在于两者都是用函数进行预测。
1.6 根据你的观察,描述一个可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出,他需要一种不同于本章列举的数据挖掘技术吗?
建立一个周期性的知识类型,在不同时间段内数据会更新和修改,但是会发生重复性动作。此时要从时间出发,使用一种新的数据挖掘技术。
1.7 以欺诈检测为例,提出两种可以用来检测离群点的方法,并讨论哪种方法更可靠。
1) 使用聚类方法,在进行聚类分析之后,不同的簇代表着不同的数据类型,离散点不在簇的范围内。聚类分析是最有效的检测离群点的方法。
2) 使用回归方法,基于全体数据建立一个可能的数据预测模型,如果一个值极大偏离回归值,可以认为该数据是一个离散点。
1.8 描述三个关于数据挖掘方法和用户交互问题的数据挖掘挑战。
1) 处理不同的知识类型:不同的用户对不同的知识类型感兴趣,可能以不同的方式使用同一个数据库,并且需要不同的数据挖掘技术。
2) 挖掘多维空间中的知识:我们需要通过返回的结果给出和定义数据挖掘的要求,并在多维数据立方体中从不同角度和组合搜索有趣的知识模式。
3) 跨学科的背景知识:背景知识能能够有助于帮助人们去分析、发现和表达发现的模式对于多学科的作用。
1.9 与挖掘少量数据相比,挖掘海量数据的主要挑战是什么?
一方面是数据挖掘算法的有效性和可伸缩性,即数据挖掘算法的运行时间必须是可预计的、短的和可以被应用接受的。
另一方面是并行、分布式和增量挖掘算法,即海量数据引起的计算复杂性促进了并行和分布式数据密集型挖掘算法。
1.10 概述在诸如流/传感器数据分析、时空数据分析或生物信息学某个特定引用领域中的数据挖掘的主要挑战?
在生物信息学中,由于对某些生物对象、染色体序列、生物学网络和染色体的数据结构可能同时存在,对数据的清理和集成、一种数据的多个数据源之间的复杂相互作用给数据挖掘带来了巨大挑战。