Python数据分析与数据挖掘

1.什么是Python

百度百科:Python是一种计算机程序设计语言。是一种面向对象的动态类型语言

:计算机程序设计语言 面向对象 动态

2.什么是数据分析

百度百科: 用适当的统计分析方法对收集来的大量数据进行分析,为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程

:用统计分析方法研究数据并概括总结的过程

3.什么是数据挖掘

书: 从海量数据中利用相关算法挖掘出隐含的,先前未知的,对决策者有潜在价值的关系,模式和趋势,这些也称为知识,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法,工具和过程

百度百科: 一般是指从大量的数据中通过算法搜索隐藏于其中信息过程

:挖掘数据隐藏的知识建立模型,提供支持带有预测性质决定的策略的方法和工具的过程

==============================================================

数据分析

数据分析能力分级?(8级数据分析能力最高)

  1. 标准报表(报告:发生了什么事 ……着火)
  2. 即席查询(当场就问:随机的自定义的问题 ……着火地点)
  3. 多维分析(多维思考:此事发生原因……本次着火原因多种角度分析)
  4. 警报(行动:采取什么办法?……拉响警报召集救火/用灭火器处理)
  5. 统计分析(统计原因:此事发生原因……着火原因根据数据进行分析)
  6. 预报(趋势预报:持续此趋势未来怎么?……着火的火势会变大还是小)
  7. 预测型建模(建设模型:接下来会发生什么?……利用模型预测火势)
  8. 优化(优化结果:最好的结果如何达到?……到底使用召集还是灭火器)

结论:信息增速>>分析能力>执行能力

==============================================================

数据挖掘

数据挖掘做什么?

基本: 利用方法帮助提取数据中蕴含的商业价值、提高企业竞争力。
方法{
分类与预测(有目标的进行分类预测,根据要得到的目标内容,通过该属性分类即可)
聚类分析(数据本身结构特点分类,使一类中的差异值最小)
关联规则(相互的关联关系,有这个的前提下大概率出现那个)
时序模式(事物的延续性和随机性预测事物发展)
偏差检测
智能推荐…
}

数据挖掘建模过程

0定义挖掘目标
1-2数据取样
2-3数据探索
3-4数据预处理
4-5挖掘建模
5-1模型评价

1目标定义(任务理解 目标确定)
2数据采集(建模抽样 质量把控 实时采集)
3数据整理(探索、清洗、变换)
4构建模型(模式发现 构建模型 验证模型)
5模型评价(设定评价标准 多模型对比 模型优化)
6模型发布(模型部署、模型重构)

定义挖掘目标

弄清用户需求,定好挖掘目标

数据取样

与目标相关的样本数据子集
1.抽取标准:相关性 可靠性 有效性 ※质量关:完整性 有效性
1.抽样方法

  • 随机:在采用随机抽样方式时,数据集中的每一组观测值都有相同被抽样的概率
  • 等距:如按 5%的比例对一个有100 组观测值的数据集进行等距抽样,则有:100 / 5 = 20,等距抽样方式是取第20、40、60、80 和第100 五组观测值。即:分成x组,总/x=y 抽 取第y个数据 取第2y个数据 3y …x 组数据 ??忘了待修改处#####
  • 分层:在这种抽样操作时,首先将样本总体分成若干个子集。在每个层次中的观测值都具有相同的被选用的概率,但对不同的层次可设定不同的概率。这样的抽样结果通常具有更好的代表性,进而使模型具有更好的拟合精度。
  • 顺序:这种抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给定一个百分比,或者直接给定选取观测值的组数。
  • 分类:在前述几种抽样方式中,并不考虑抽取样本的具体取值。分类抽样则依据某种属性的取值来选择数据子集。,如按客户名称分类、按地址区域分类等。分类抽样的选取方式就是前面所述的几种方式,只是抽样以类为单位。

数据探索

探索数据是否达到了要求 有没有规律 可否分类 等 (需要进行哪些预处理)

数据挖掘的质量不会超过抽取样本的

  • 探索分类:
    异常值分析
    缺失值分析
    相关性分析
    周期性分析

数据预处理

噪声不完整不一致数据进行处理

  • 如何预处理?
  • 筛选
  • 变量转换
  • 缺失值处理
  • 坏数据处理
  • 数据标准化
  • 主成分分析
  • 属性选择
  • 数据规约

挖掘建模

考虑本次建模属于哪类问题
选用哪种算法进行建模

  • 概念
  • 模型的具体化:预测公式
  • 预测值:与观察值有相似结构的输出
  • 模型构建:对各种数据轨迹的概括

模型评价

  • 目的
  • 找出最好模型
  • 对模型进行解释和应用
  • 提示
  • 分类与预测算法模型 和聚类分析模型 评价方法不同

数据挖掘: 目标 取 分析 处理 选择建模 评价