1.1 什么是数据挖掘
从大量数据中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,这就是数据挖掘。
是统计学、数据库技术、人工智能技术的结合。
1.2 数据挖掘的基本任务
利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。
1.3 数据挖掘建模过程
定义挖掘目标
数据取样
数据探索
数据质量分析
检查是否存在脏数据——不符合要求,以及不能直接进行相应分析的数据
缺失值、异常值、不一致的值、重复数据、含特殊符号的数据
数据特征分析
分布分析、对比分析、统计量分析、周期性分析、贡献度分析、相关性分析
统计量分析
集中趋势:均值、中位数
离中趋势:方差、四分位间距
贡献度分析
帕累托法则/28定律:同样的投入放在不同的地方会产生不同的效益,一个企业80%的利润通常来自20%最畅销的产品。
数据预处理
数据清洗:删除原始数据集中的无关数据、重复数据,平滑噪音数据,筛选掉与挖掘主题无关的数据,
数据集成:将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程,在数据集成时,
数据变换:简单函数变换、规范化、连续属性离散化、属性构造、小波变换。
数据规约:属性规约—列角度—减少维度、数值规约—行角度—减少数据量。
挖掘建模
分类、聚类、关联规则、时序模式、智能推荐?
模型评价