数据挖掘:课程内容核心概述
- 一、概述
- 二、数据预处理
- 2.1处理什么数据
- 2.2数据处理的主要任务
- 2.2.1数据清洗(清洗)
- 2.2.2数据集成和数据变换
- 2.2.3数据规约(消减)
- 三、分类与预测
- 3.1分类
- 3.1.1 决策树算法-ID3
- 3.1.2 决策树算法C4.5
- 3.2回归
- 四、聚类
- 五、关联规则挖掘
- 六、序列模式挖掘
参考资料:
- 数据挖掘导论(原书第二版),陈封能等著,段磊等译
一、概述
数据挖掘是什么?数据挖掘是在大型数据库中自动地发现有用信息的过程。数据挖掘技术用来勘察大型数据库,发现先前未知的有用模式。数据挖掘还可以预测未来的观测结果。
数据挖掘中主要任务分类:
1. 预测任务
1.1 分类任务
1.2 回归任务
2. 描述任务:其目标是导出概述数据中潜在的模式(相关、趋势、聚类、轨迹和异常)
2.1 聚类分析
2.2 关联分析
2.3 异常检测
二、数据预处理
2.1处理什么数据
数据集:数据集由数据对象组成,一个对象代表一个实体。每个数据对象包含一个或多个属性。(属性又可以称之为维度、特征或变量)属性具有不同的类型(标称属性、二元属性、序数属性、数值属性、离散属性、字符串属性),不同类型的属性常常用不同类型的属性值来表示。
数据集“Table”
ID | attribute1 属性1 | attribute2 属性2 |
1 | 属性值 | 属性值 |
2 | 属性值 | 属性值 |
3 | 属性值 | 属性值 |
2.2数据处理的主要任务
2.2.1数据清洗(清洗)
2.2.2数据集成和数据变换
2.2.3数据规约(消减)
三、分类与预测
分类和回归是两种数据分析形式,是可以用于描述重要数据类的模型或预测未来的数据趋势。然而分类是预测分类标号(或离散值),而**(回归)预测是建立连续值函数模型**。
3.1分类
预测是使用模型评估无标号(无标注)样本类,或评估给定样本可能具有的属性值或值区间。
分类和回归都可用于预测,预测的目的是从历史记录数据中自动推导出给定数据的推广描述。
3.1.1 决策树算法-ID3
3.1.2 决策树算法C4.5
3.2回归
四、聚类
五、关联规则挖掘
六、序列模式挖掘