一、定义:
数据挖掘是指从大量的数据中搜索隐藏于其中的有着特殊关系性的信息的过程。
二、挖掘对象:
概括为:关系数据库、文本、图像与视频数据、Web数据等。
三、挖掘过程:
主要分为:数据收集、数据清洗转换、模型建立与评估、应用集成、模型管理。
四、数据挖掘任务:
1、关联分析:分析两个或两个以上变量取值之间存在的某种规律
2、聚类分析:将数据按照相似性划分为若干类
3、分类分析:在训练数据集基础上创建分类模型,对没有分类的数据进行分类
4、预测分析:在已有模型基础上对未来数据进行预测
5、时序模式分析:在时间、序列上分析重复出现的模式
6、误差分析:对数据挖掘中常出现异常情况进行分析
五、方法技术:
聚类、回归、关联规则、神经网络、遗传算法、粗糙集等。