说来惭愧,开始写这篇博客的动力是由于我数据挖掘考试挂了......自己在寒假重新学习这一科,顺带着写写自己的感悟,希望能与大家一起学习。我有什么错漏或者大家什么好的建议都可以在评论区留言,我会认真回复的。我在这里使用的教材是电子工业出版社出版的《数据挖掘原理与实践学习》。
什么是数据挖掘?
数据挖掘顾名思义,就是在众多数据之中进行挖掘,找到有用的信息。
从技术层面上说,即从大量数据中提取有用的信息的过程;从商业层面来说,则是一种商业信息处理技术,主要是对大量业务数据进行抽取、转换、分析和建模处理,从中提取腐竹商业决策的关键性数据。
数据挖掘的对象是什么?
(1)关系数据库。
(2)数据仓库:一个从多个数据源收集的信息存储库,存放在一个一致的模式下。
(3)事物数据库。
(4)空间数据库:指在关系数据库内部对地理信息进行物理存储(如地理信息系统、遥感图像数据)。
(5)时态数据库和时间序列数据库:两者都存放与时间相关的数据。时间数据库通常存放时间相关的属性值,如与时间相关的职务、工资等个人信息及个人简历信息等;时间序列数据库存放时间变化的值序列,如零售行业的产品销售数据、股票数据、气象观测数据等。
(6)流数据。
(7)多媒体数据库。
(8)文本数据库。
(9)万维网数据(Word Wide Web):被认为是最大的文本数据库。
数据挖掘任务
通常,数据挖掘任务可以分为预测型任务和描述型任务。预测型任务就是根据其他属性的值预测特定属性的值,如回归、分类、离群点检测。描述型任务就是寻找概括数据中潜在联系的模式,如聚类分析、关联分析、演化分析、序列模式挖掘。
- 分类(Classificantion)分析:通过分析示例数据库中的数据,为每个类别做出准确的描述,或建立分析模型,或挖掘出分类规则,然后用这个分类模型或规则对数据库中的其他记录进行分类。
- 聚类(Clustering)分析:聚类分析技术试图找出数据集中数据的共性和差异,并将具有共性的对象聚合在相应的簇中。
- 回归(Regression)分析:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种分析方法。
- 关联(Association)分析:关联分析是发现特征之间的相互依赖关系,通常是在给定的数据集中发现频繁出现的模式知识(又称为关联规则)。
- 离群点(Outlier)检测:离群点检测就是发现与众不同的数据。
- 演化(Evolving)分析:演化分析就是对随时间变化的数据对象的变化规律和趋势进行建模描述。
- 序列模式(Sequential Pattern)挖掘:序列模式挖掘是指分析数据间的前后序列关系,包括相似模式发现、周期模式发现等。
如何挖掘数据?
课本在此处提到了数据挖掘与知识发现,并将两者的步骤都列了出来:
知识发现:
- 数据清洗(data cleaning),其作用是清除数据噪声和与挖掘主题明显无关的数据。
- 数据集成(dara integration),其作用就是将来自多个数据源中的相关数据组合到一起。
- 数据选择(data selection),其作用就是根据数据挖掘的目标选取待处理的数据。
- 数据转换(data transformation),其作用就是将数据转换为易于进行数据挖掘的数据存储形式。
- 数据挖掘(data mining),其作用是利用智能方法挖掘数据模式或规律知识。
- 模式评估(pattern evaluation),其作用是根据一定评估标准,从挖掘结果中筛选出有意义的相关知识。
- 知识表示(knowledge representation),其作用是利用可视化和知识表达技术,向用户展示所挖掘的相关知识。
数据挖掘:
而数据挖掘则基本可以归纳为下面三个步骤:
数据收集→知识提取→辅助决策
从上面可以看到,数据挖掘只是属于知识发现的一部分,其侧重点还是挖掘数据的内在联系或者相应表现出来的客观规律。
习题:
(我会相应的挑出课本里的一些具有代表性的习题发在下面,并自己做出相应的解答,有兴趣的朋友可以看看)
1.数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。
数据挖掘处理的对象非常之多,几乎存在于各行各业之中。比如全球连锁商店的各种售货信息、某城市各路段各个时段的交通情况、天文台记录的各种天文数据、气象局存储的温度湿度等各种信息。
2.讨论下列每项活动是否是数据挖掘任务。
(1)根据性别划分公司的顾客。
不是,这是将全部的数据进行分类,并非寻找有用的信息。
(2)根据可盈利性划分公司的顾客。
不是,理由同(1)。
(3)计算公司的总销售额。
不是,数据挖掘要是只要算个总数的话我也不会挂了。
(4)按学生的标识号对学生数据库排序。
不是,这属于数据库的查询操作,并非数据挖掘。
(5)预测掷一对骰子的结果。
不是,表面上这个预测是要建模统计分析,但是如果仅看摇出骰子的组合,而不是看两个骰子之和,那么所有概率是一样的。
(6)使用历史记录预测某公司未来的股票价格。
是。属于演化分析,需要从数据中找寻规律建模分析。
(7)监测病人心率的异常变化。
是。属于离群点检测,寻找与众不同的数据。
(8)监测地震活动的地震波。
是,同样需要寻找与众不同的数据。
(9)提取声波的频率。
不是,题目意思是计算声波频率。
以上就是《数据挖掘原理与实践》第一章的知识要点,我将在下一篇博客中叙述数据处理的基础,包括数据和数据集的类型以及分箱算法。