1.数据分析和数据挖掘的定义和概念
2.数据分析及数据挖掘的层次
3.数据分析及数据挖掘的模型框架
1.1数据分析及数据挖掘的定义:
数据分析
数据分析是指用适当的统计方法对收集来的大量数据进行分析,提取有用信息
和形成结论而对数据加以详细研究和概括总结的过程。
数据挖掘
数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。是KKD(数据库中知识发现)不可缺少的一部分。
数据库中知识发现
输入数据➡数据预处理➡数据挖掘➡后处理➡信息
- 数据预处理:
特征选取
维归约
规范化
选取数据子集 - 后处理
模式过滤
可视化
模式表现
1.2数据分析与数据挖掘的差异:
数据挖掘及数据挖掘都是“投入数据,产出信息”的过程,有很多相同之处。
数据分析 | 数据挖掘 | |
理论基础 | 基于统计推断的知识 (统计学、概率论和数理统计、多元统计分析、 时间序列、数据挖掘) | 需要更多的计算机工程能力 (统计学、概率论和数据库、数据挖掘、JAVA基础、Linux基础) |
数据量级 | 基于抽样或相对较小的数据量 | 大数据 |
业务理解 | 较强 | 较弱 |
工具 | 关注应用 Excel、SQL 可选:SPSS、R、Python、SAS等 | 更关注算力、储存、算法 Python、R、SQL、Hadoop、HDFS、Mapreduce、 Hive、Spark等 |
2.1数据分析与挖掘的层次
报表与查询 | 多维分析与警报 | 统计分析 | 预测及建模 | 优化 |
问题:发生了什么? | 问题:问题出在哪里? 我们应该怎么做? | 问题:为什么会出 现这种状况? | 问题:将来会怎样? | 问题:如何把事情 做的更好? |
定期生成报表(日报、 周报等)或即席查询。能 够提供一定的决策依据, 单对于原因的解释和长期 指导是有限的 | 通过钻取,可以层层剥笋 发现部分原因,并且通过 警报,指出问题预防问题 | 通过频数、回归、相 关、聚类、因子分析 等方法、对历史数据 进行进一步分析,挖 掘原因,总结规律 | 通过趋势性分析(如时间 序列、面板数据),理解 未来趋势及其业务的影响 | 综合考虑资源及需 求,对业务进行 优化 |
3.1数据分析及挖掘三要素
- 数据处理工具
- 数据获取:
Mysql、ORACLE、HIVE - 数据预处理:
Excle、PPT - 数据分析或挖掘:
Python、SPSS、R - 可视化:
Spark、Tableau
- 思维
数据分析两种逻辑:“树,田”
MECE分析法
MECE(相互独立、完全穷尽)是麦肯锡思维过程的一条基本准则。
“相互独立”意味着问题的细分是在同一维度上并有明确区分、不可重叠的,
“完全穷尽”则意味着全面、周密。
SWOT矩阵分析
SWOT分析,即态势分析,
就是将与研究对象密切相关的各种主要内部优势、劣势和外部的机会和威胁等,
通过调查列举出来,并依照矩阵形式排列,然后用系统分析的思想,把各种因素相互匹配起来加以分析,
从中得出一系列相应的结论,而结论通常带有一定的决策性。 - 理论
数据分析及挖掘的理论框架—总、分、总