大家好,我又回来啦!在本文中,我将对《数据挖掘原理与实践》的第二章《数据处理基础》进行总结和归纳,希望大家多多支持,谢谢!


什么是数据?

数据是数据库存储的基本对象。并非说单纯的1、2、3等数字才是数据,数据的内涵随着时间的推移而扩展。

广义地,可以把数据理解为记录在介质中的信息,是数据对象及其属性的集合,其表现形式可以是数字、符号、文字、图像或计算机代码等。

理解数据不仅要了解数据的表现形式,还需要了解数据的语义。数据的语义是指对数据含义的说明,是数据对象所有属性的集合。而数据集则是具有相同属性的数据对象的集合。属性(也称为特征、维或字段)是指一个对象的某方面性质或者特性。一个对象通过若干属性来刻画。

相应的,根据属性具有的不同性质,属性可以分为4种:标称(Nominal)、序数(Ordinal)、区间(Interval)和比率(Ratio)。

  1. 标称属性:其属性值只提供足够的信息以区分对象,这类属性值没有实际意义,如三个对象可以用甲乙丙,也可以用ABC来区分。
  2. 序数属性:其属性值提供足够的信息,以区分对象的序,如成绩等级(优、良、中、及格、不及格)。
  3. 区间属性:起属性值之间的差是有意义的,如日历日期、摄氏温度。
  4. 比率属性:其属性值之间的差和比率都是有意义的,如长度、时间、速度等。

而属性可以进一步归类为两种:

①标称和序数属性:统称为分类的(Categorical)或定性的(Qualitative)属性,取值为集合。

②区间和比率属性:统称为数值的(Numeric)或定量的(Quantitative)属性,取值为区间。*定量属性可以是整数值或者连续值。

数据集的类型

先说一下数据集的三大特性,接着总结数据集的类型。

数据集三大特性:

  1. 维度(Dimensionality):指数据集中的对象具有的属性个数总和。根据数据集的维度大小,数据集可以分为高、中、低维数据集。
  2. 稀疏性(Sparsity):指在某些数据集中,有意义的数据非常少,对象在大部分属性上的取值为0,非零项不到1%。
  3. 分辨率(Resolution):可以在不同的分辨率或者粒度下得到数据,而且在不同的分辨率下对象的性质也不同。数据的模式依赖于分辨率,分辨率过高或者过低,都得不到有效的模式,针对具体应用,需要选择合适的分辨率或粒度。

为了方便起见,我们将数据集分为三类:记录数据、基于图形的数据和有序的数据集。

(1)记录数据

一般的数据挖掘任务都是假定数据集是记录(数据对象)的集合,每个记录都由相等数目的属性构成。记录之间或属性之间没有明显的联系。记录数据通常存放在平面文件或关系数据库中。根据数据挖掘任务的不同要求,记录数据可以有不同种类的变体。

①事物数据(购物篮数据)

事物数据是一种特殊类型的记录数据,其中每个记录涉及一个项的集合。典型的事务数据如超市零售数据,顾客一次购物所购买的商品的集合就构成一个事务,而购买的商品就是项。

②数据矩阵(Data Matrix)

如果一个数据集中的所有数据对象都具有相同的数值属性集,则该数据对象可以看做多维空间的点(向量),其中每一维代表描述对象的不同属性。这样的数据对象集可以用一个n×m的矩阵来表示,其中n表示行数,一个对象一行,m表示列数,一个属性一行(当然可以反过来)。数据矩阵是记录数据的变体,可以使用标准的矩阵操作对数据进行变换和操纵。

(2)基于图形的数据

有时,图形可以方便而有效地表示对象之间的关系。我们考虑两种特殊情况:图形捕获数据对象之间的联系,数据对象本身用图形表示。

①带有对象之间联系的数据:对象之间的联系常常携带重要的信息。

②具有图形对象的数据:如果对象具有结构,即对象包含具有联系的子对象,则这样的对象常常用图表示。

(3)有序数据

对于某些数据类型,属性具有涉及时间或空间序的联系。

①时序数据(sequential data)或时态数据(temporal data),可以看做记录数据的扩充,其中每个记录包含一个与之相关的时间,通常存放包含时间相关属性的关系数据。这些数据可能涉及若干时间标签,每个都有不同意义。

②序列数据(sequence data),是一个数据集合,是个体项的序列,如词或字母的序列,用来存放具有或者不具有具体时间概念的有序时间的序列。

③时间序列数据(time series data),是一种特殊的时序数据,其中每个记录都是一个时间序列,即一段时间的测量序列,如股票交易,库存控制和自然现象等。在分析事假序列数据时,重要的是考虑时间自相关,即如果两个测量的时间很接近,侧这些测量的值非常相似。

④空间数据(spatial data),包含涉及空间的数据,如地理信息系统、医学图像等。

⑤流数据(stream data),是一种可以动态地从观测台流进和流出的数据,具有如下特点:海量甚至是无限的,动态变化的,以固定的次序流进和流出,只允许一遍或少数几遍扫描,要求快速响应时间。

数据统计特性

对于许多数据预处理任务,人们希望知道关于数据的中心趋势和离散程度特征。中心趋势度量包括均值、中位数、众数和中列数(midrange),数据离散程度度量包括四分位数(quartiles)、四分位数极差(interquartiles,IQR)和方差(variance)等。

数据的中心度量

均值:设

是N个值的集合,则该值集的均值定义为:                             

数据挖掘的数据 数据挖掘的数据的_个人学习

有时,集合中每个值

数据挖掘的数据 数据挖掘的数据的_数据_02

与一个权值

数据挖掘的数据 数据挖掘的数据的_数据集_03

相关联,i=1,......,N。权值反映对应值的显著性、重要性或者出现频率。这时就应当使用加权平均数(weighted arithmetic mean):

尽管均值是描述数据集的最常用的单个度量方法,但是均值的主要问题是对极端值(如离群值)很敏感,即使少量极端值也可能影响均值。在这里推荐大家使用截断均值:

截断均值:指定0~100间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得结果即是截断均值。标准均值是对应于p=0%的截断均值。

中列数(midrange)也可以用来评估数据集的中心趋势,是数据集的最大和最小值的平均值。

而百分位数(percentile)则有如下性质:

在数值序下,数据集合的第k个百分位数是具有如下性质的

数据挖掘的数据 数据挖掘的数据的_数据_02

:百分之k的数据项位于或低于

数据挖掘的数据 数据挖掘的数据的_数据_02

。中位数是第50个百分位数。除中位数外,最常用的百分位数是四分位数(quartile)。第一个四分位数记为

数据挖掘的数据 数据挖掘的数据的_数据集_06

,是第25个百分位数;第三个四分位数记为

数据挖掘的数据 数据挖掘的数据的_数据挖掘的数据_07

,是第75个百分位数。四份位数(包括中位数)给出分布的中心、离散和形状的某种指示。第一个和第三个四分位数之间的距离是分布的一种简单度量,给出被数据的中间一半所覆盖的范围。该距离被称为中间四分位数极差IQR,定义为

数据挖掘的数据 数据挖掘的数据的_数据集_08

数据散布程度度量

最简单的散布度量是极差(range),其定义为最大值和最小值之间的差异。给定一个属性x,它具有m个值{

数据挖掘的数据 数据挖掘的数据的_数据挖掘的数据_09

},x的极差定义为:         

数据挖掘的数据 数据挖掘的数据的_数据挖掘的数据_10

。尽管极差标识极大散布,但是如果大部分值都击中在一个较窄的范围内,极端值的个数相对较少,则可能引起误解。此时采用方差作为方差作为散布的度量更可取。属性x的方差记为

数据挖掘的数据 数据挖掘的数据的_数据_11

,其定义如下:       

数据挖掘的数据 数据挖掘的数据的_个人学习_12


以上就是第二章的前面的内容,在数据结构(3)会讲解数据预处理、相似性度量这两个重头大戏,并且会有习题,希望大家能够多多支持。