数据挖掘:课程内容核心概述

  • 一、概述
  • 二、数据预处理
  • 2.1处理什么数据
  • 2.2数据处理的主要任务
  • 2.2.1数据清洗(清洗)
  • 2.2.2数据集成和数据变换
  • 2.2.3数据规约(消减)
  • 三、分类与预测
  • 3.1分类
  • 3.1.1 决策树算法-ID3
  • 3.1.2 决策树算法C4.5
  • 3.2回归
  • 四、聚类
  • 五、关联规则挖掘
  • 六、序列模式挖掘



参考资料:

  1. 数据挖掘导论(原书第二版),陈封能等著,段磊等译

一、概述

数据挖掘是什么?数据挖掘是在大型数据库中自动地发现有用信息的过程。数据挖掘技术用来勘察大型数据库,发现先前未知的有用模式。数据挖掘还可以预测未来的观测结果

数据挖掘中主要任务分类:
1. 预测任务
	1.1 分类任务
	1.2 回归任务
2. 描述任务:其目标是导出概述数据中潜在的模式(相关、趋势、聚类、轨迹和异常)
	2.1 聚类分析
	2.2 关联分析
	2.3 异常检测

二、数据预处理

2.1处理什么数据

数据集:数据集由数据对象组成,一个对象代表一个实体。每个数据对象包含一个或多个属性。(属性又可以称之为维度、特征或变量)属性具有不同的类型(标称属性、二元属性、序数属性、数值属性、离散属性、字符串属性),不同类型的属性常常用不同类型的属性值来表示。

数据集“Table”

ID

attribute1 属性1

attribute2 属性2

1

属性值

属性值

2

属性值

属性值

3

属性值

属性值

2.2数据处理的主要任务

2.2.1数据清洗(清洗)

2.2.2数据集成和数据变换

2.2.3数据规约(消减)

三、分类与预测

分类回归是两种数据分析形式,是可以用于描述重要数据类的模型预测未来的数据趋势。然而分类是预测分类标号(或离散值),而**(回归)预测是建立连续值函数模型**。

3.1分类

预测是使用模型评估无标号(无标注)样本类,或评估给定样本可能具有的属性值或值区间。
分类和回归都可用于预测,预测的目的是从历史记录数据中自动推导出给定数据的推广描述。

3.1.1 决策树算法-ID3

3.1.2 决策树算法C4.5

3.2回归

四、聚类

五、关联规则挖掘

六、序列模式挖掘