一:数据挖掘的基本知识
数据挖掘(Data Mining,简称DM)简单的讲就是从大量数据中挖掘或抽取出知识,数据挖掘,又称为数据库中知识的发现(Knowledge Discovery from DataBase,简称KDD),它是一个从大量数据中抽取挖掘未知的,有价值的模式或规律等知识的复杂过程。
KDD就是利用机器学习的方法从数据库中提取有价值知识的过程,他是数据库技术和机器学习两个学科的交叉领域,数据库技术侧重于对数据存储处理的高效率方法的研究,而机器学习侧重于设计新的方法从数据中提取知识。
数据挖掘的功能总结:(1)概念描述:定性与对比(2)关联分析(association analysis)就是从给定的数据集发现频繁出现的项集模式知识(3)分类与预测(4)聚类分析(clustering analysis)(5)异类分析(oulter)(6)演化分析
数据挖掘,就是一个从大量有噪声、不完整的数据中挖掘出有意义模式知识的过程。
二:数据预处理
数据预处理主要包括:数据清洗(data clearing)、数据集成(data integration)、数据转换(data transformation)、数据消减(data reduction)。
三:数据定性与归纳
四:数据分类与预测
五:数据的关联挖掘
六:数据的聚类分析

Data Mining : Concepts and Techniques 第八章 分类
1:分类和数值预测是预测问题的两种基本类型。 数据分类包含两个阶段:学习阶段和分类阶段。
先使用一些训练数据构造分类器,即找到分类的规则。然后使用一些测试数据对构造的分类器进行检验,测试所构造的分类器的准确率是否可以接受。如果可以的话,就使用所构造的分类器对新的数据进行分类。
2:决策树算法又称为迭代二分器(Iterative Dichotomiser,ID3),后来扩展出了C4.5和CART算法。
在构造决策树的时候,选择属性放在根节点的三个衡量标准是:信息增益,增益率和基尼指数(Gini指数)。
(1)ID3使用信息增益作为属性选择度量。该度量基于香农(Claude Shannon)在研究消息的值或“信息内容”的信息轮方面的先驱工作。在使用ID3进行构造决策树的时候我们选择具有最高信息增益的属性做为节点N的分裂属性。该属性使得结果分区中对元组分类所需要的信息量最小,并反映这些分区中的最小随机性或“不纯性”。

=============================================================
1.2什么是数据挖掘
数据挖掘就是从大量数据中挖掘出有趣的模式和知识的过程。数据源包括数据库,数据仓库,Web,其他信息存储库或动态的流入系统的数据库。
1.4可挖掘什么类型的模式
(1)类/概念描述:特征化和区分(2)挖掘频繁模式、关联和相关性(3)用于预测分析的分类与回归(4)聚类分析(5)离群点分析
1.5数据挖掘使用什么技术
(1)统计学(2)机器学习(3)模式识别(4)信息检索(5)算法(6)可视化(7)数据库和数据仓库

2认识数据
2.2数据的中心趋势度量:均值,中位数,众数
2.3数据的分散趋势度量:方差,极差,标准差,四分位数,四分位数极差
3度量数据的相似性和相异性

===========================================================
Chapter3:数据预处理

1.为了要提高数据质量因此要进行数据预处理,衡量数据质量的因素如下:准确性,完整性,一致性,时效性,可信性和可解释性。
2.数据预处理的主要任务是进行:数据清理,数据集成,数据归约和数据变换。
2.1:由于现实世界的数据一是不完整的,有噪声的和不一致的。数据清理例程试图填充缺失的值,光滑噪声并识别离群点,纠正数据中的不一致。
3.数据集成将来自多个数据源的数据整合成一致的数据存储。语义异种性的解决,元数据,相关分析,元组重复检测和数据冲突检测都有助于数据的顺利集成。
4.数据归约的方法包含,维数归约,数量归约和数据压缩,其中:
4.1:维数归约减少所考虑的随机变量或维的个数,方法包含小波变换,主成分分析,属性子集选择和属性创建.
4.2:数量归约方法使用参数或非参数模型,得到原始数据的最小表示。参数模型只存放模型参数,而非实际数据。例如回归和对数线性模型。非参数方法包括直方图,聚类,抽样和数据立方体聚集。
4.3:数据压缩方法使用变换,得到原始数据的归约或“压缩”表示,如果原始数据可以由压缩后的数据重构,而不损失任何数据,则数据压缩是无损的;否则,它是有损的。
5.数据变换例程将数据变换成适于挖掘的形式。例如,在规范化中,属2性数据可以缩放,使得他们可以落在较小的区间,如0.0到1.0。其他例子包括数据离散化和概念分层产生。
6.数据离散化通过把值映射到区间或概念标号变换数值数据。这种方法可以用来自动的产生数据的概念分层,而概念分层允许在多个粒度层进行挖掘,离散化技术包括分箱,直方图分析,聚类分析,决策树分析和相关分析。对于标称数据,概念分层可以基于模式定义以及每个属性的不同值的个数产生。