1.数据分析和数据挖掘的定义和概念
2.数据分析及数据挖掘的层次
3.数据分析及数据挖掘的模型框架

1.1数据分析及数据挖掘的定义:

数据分析

数据分析是指用适当的统计方法对收集来的大量数据进行分析,提取有用信息
和形成结论而对数据加以详细研究和概括总结的过程。

数据挖掘

数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。是KKD(数据库中知识发现)不可缺少的一部分。

数据库中知识发现

输入数据➡数据预处理数据挖掘后处理➡信息

  • 数据预处理
    特征选取
    维归约
    规范化
    选取数据子集
  • 后处理
    模式过滤
    可视化
    模式表现

1.2数据分析与数据挖掘的差异:

数据挖掘及数据挖掘都是“投入数据,产出信息”的过程,有很多相同之处。

数据分析

数据挖掘

理论基础

基于统计推断的知识

(统计学、概率论和数理统计、多元统计分析、

时间序列、数据挖掘)

需要更多的计算机工程能力

(统计学、概率论和数据库、数据挖掘、JAVA基础、Linux基础)

数据量级

基于抽样或相对较小的数据量

大数据

业务理解

较强

较弱

工具

关注应用

Excel、SQL

可选:SPSS、R、Python、SAS等

更关注算力、储存、算法

Python、R、SQL、Hadoop、HDFS、Mapreduce、

Hive、Spark等



2.1数据分析与挖掘的层次

报表与查询

多维分析与警报

统计分析

预测及建模

优化

问题:发生了什么?

问题:问题出在哪里?

我们应该怎么做?

问题:为什么会出

现这种状况?

问题:将来会怎样?

问题:如何把事情

做的更好?

定期生成报表(日报、

周报等)或即席查询。能

够提供一定的决策依据,

单对于原因的解释和长期

指导是有限的

通过钻取,可以层层剥笋

发现部分原因,并且通过

警报,指出问题预防问题

通过频数、回归、相

关、聚类、因子分析

等方法、对历史数据

进行进一步分析,挖

掘原因,总结规律

通过趋势性分析(如时间

序列、面板数据),理解

未来趋势及其业务的影响

综合考虑资源及需

求,对业务进行

优化



3.1数据分析及挖掘三要素

  • 数据处理工具
  1. 数据获取:
    Mysql、ORACLE、HIVE
  2. 数据预处理:
    Excle、PPT
  3. 数据分析或挖掘:
    Python、SPSS、R
  4. 可视化:
    Spark、Tableau
  • 思维
    数据分析两种逻辑:“树,田”
    MECE分析法
    MECE(相互独立、完全穷尽)是麦肯锡思维过程的一条基本准则。
    “相互独立”意味着问题的细分是在同一维度上并有明确区分、不可重叠的,
    “完全穷尽”则意味着全面、周密。
    SWOT矩阵分析
    SWOT分析,即态势分析,
    就是将与研究对象密切相关的各种主要内部优势、劣势和外部的机会和威胁等,
    通过调查列举出来,并依照矩阵形式排列,然后用系统分析的思想,把各种因素相互匹配起来加以分析,
    从中得出一系列相应的结论,而结论通常带有一定的决策性。
  • 理论

数据分析及挖掘的理论框架—总、分、总

数据挖掘与分析系统 数据与挖掘数据分析_数据