《大数据挖掘及应用》学习笔记。

第2章 数据认知与预处理

数据分析系统的数据预处理流程图 数据分析处理与预测_数据分析系统的数据预处理流程图

2.1 数据分析的定义和流程
数据分析(data analysis)是指用适当的统计分析方法对收集来的大量数据进行分析和解释,提取出有用的信息形成结论,从而对数据加以详细研究和概括总结的过程。

2.1.1 如何理解和描述数据分析的问题
理解和抽象出一个待分析的数据分析问题模型步骤:

  1. 理解待分析的问题。
  2. 考察待分析问题的当前形势。
  3. 确定待分析问题的数据分析模型。
  4. 制定实施该问题的数据分析步骤。

2.1.2 数据获取与准备
获取数据的主要途径:

  1. 数据库
  2. 数据仓库
  3. 文件

2.1.3 数据质量评估

  1. 准确性
  2. 完整性
  3. 一致性
  4. 时效性

2.2 数据类型
我们获取的数据集都由一个一个数据对象组成,每一个对象都代表一个实例。

2.2.1 属性的定义

属性(attribute)是一个字段,表示数据对象的一个特征。对象与属性是不可分的,没有属性的对象是不存在的,因为对象不用属性来进行描述就不能称之为对象了,而属性如果不用来描述对象,也就没有意义。

属性的取值范围决定了属性的类型:

数据分析系统的数据预处理流程图 数据分析处理与预测_数据分析_02


2.2.2 标称属性(nominal attribute)

指一些不同的符号或事物的名称,每个值提供了足够的信息以区分对象。

例如:描述水果类的数据对象,名称值可能是梨、苹果、桃子等,种类值可能是浆果类、核果类、柑橘类等,而颜色的值可能是红色、青色、黄色等。

如(苹果、核果类、红色)表明了其所描述的对象苹果的属性。

当然也可以用数字来表示标称属性,如定义1表示苹果,2表示梨等,一般情况下,不能求这些值的均值、中位数,但可以求出该属性下最常出现的值,这个值称为众数(mode),是一种中心趋势度量。

2.2.3 二元属性(binary attribute)
只有两个可选值的属性,只有0和1或值True和False两个状态。

2.2.4 序值属性(ordinal attribute)
提供足够的信息确定数据对象之间的序,但是值之间的差是未知的。序值属性可以定义众数、中位数或百分位数,但不能定义均值。

2.2.5 数值属性(numeric attribute)
最常用的一种数据类型,它是可度量的,用整数或实数值表示,它定量地描述对象。

2.3 数据的统计描述方法
在对数据进行分析之前,把握数据的全貌是至关重要的。基本的统计描述方法不仅可以用来识别整个数据集的性质和特点,发现数据集中的噪声或离群点,还能够对缺失的数据值进行补全。

基本统计描述:

数据分析系统的数据预处理流程图 数据分析处理与预测_数据_03

…持续修改完善中