数据挖掘引论
为什么进行数据挖掘
简单的说就是信息化时代,数据量太大,仅仅靠人自己来发现信息中的可用信息代价太高,所以数据挖掘崛起。
随着数据挖掘崛起,出现了一个名词,数据仓库,它是一种多个异构数据源在但个站点以统一的模式组织的存储,数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。
下图是数据仓库技术的演变。
什么是数据挖掘
许多人把数据挖掘视为另一个流行术语数据中的知识发现(KDD),另一些人把数据挖掘视为知识发现的一个基本步骤。
知识发现的步骤:
- 数据清理(消除噪声和删除不一致数据)
- 数据集成(多种数据源可以组合在一起)
- 数据选择(从数据库中提取与分析任务相关的数据)
- 数据变换(通过汇总或者聚集操作,把数据变换和统一成适合挖掘的形式)
- 数据挖掘(基本步骤,使用智能方法提取数据模式)
- 模式评估(根绝某种兴趣度量,识别代表知识的真正有趣的模式)
- 知识发现(使用可视化和知识表示技术,向用户提供挖掘的知识)
可以挖掘什么类型的数据
数据库数据
如下,数据库是表的集合
数据仓库
- 数据仓库是一个从多个数据源收集的信息存储库,存放在一直的模式下。
- 数据仓库不是存在每个销售事务的细节,而是存放每个商店、每类商品的销售事务的汇总。
- 数据仓库被称作数据立方体的多维数据结构建模。
数据仓库非常适合联机分析处理,OLAP的操作包括下钻和上卷
事务数据
事务数据库的每个记录代表一个事务,如顾客的一次购物、一个航班订票或者一个用户的网页点击。
其他类型的数据
- 时间相关和序列数据(例如历史纪录、股票交易数据、时间序列和生物学序列数据)
- 数据流(视频监控和传感器数据)
- 空间数据(如地图)
- 工程设计数据(如建筑数据、系统部件或集成电路)
- 超文本和多媒体数据(包括文本、图像、视频和音频数据)
- 图和网状数据(如社会和信息网络)
- 万维网(由Internet提供的巨型、广泛分布的信息存储库)
可以挖掘什么类型的模式
存在大量的数据挖掘功能。数据挖掘功能用于制定数据挖掘任务发现的模式。
特征化和区分
- 数据特征化是目标类数据的一般特征或者特性的汇总,通常通过查询来收集对应于用户制定类的数据。也可以哟i给你上卷操作。
- 数据区分是将目标类数据对象的一般特性与一个或者多个对比类对象的一般特性进行比较。
挖掘频繁模式、关联和相关性
- 频繁模式是在数据中频繁出现的模式。
- 关联分析(置信度和支持度)
用于预测分析的分类与回归
- 分类预测类别标号
- 回归建立连续值函数模型
聚类分析
- 不考虑标号,根据最大化类内相似性、最小化类间相似性原则聚类
离群点分析
- 一些数据对象与数据的一般行为或者模型不一致,这些数据就是离群点。
- 大部分数据挖掘方法都将离群点视为噪声或者异常丢弃,然而在一些应用中,罕见的事件可能比正常出现的事件更令人感兴趣。
使用什么技术
面向什么类型的应用
比较成功和流行的例子:
- 商务智能
- 搜索引擎