一、数据预处理
总结数据预处理的主要作用:提高数据计算的效果和效率,数据预处理需要考虑数据的质量要求和计算要求,
质量要求:数据预处理可以把对最终分析结果影响较大的不一致数据、虚假数据、错误数据等等数据排除在外,保证了数据分析结果具有较大的准确性,大数据分析分析出来的结果是作为决策方面的依据,故结果的正确性对决策方面具有巨大的影响,必须认真对待。
计算要求:数据预处理不仅仅要求数据的准确性,也要保证分析数据所得的结果具有时效性,因此,分析所用到的数据应具有一定的要求,使其符合分析算法的结构、标注等有关方面,缩短分析所用时间,便于决策。
总结数据预处理的方法:
在质量要求上,可能会出现:
1
不一致数据 →数据审计(具体方法)
1.1
预定义审计:当来源数据具有自描述性验证规则时:
可以依据以下四种方法或数据:
a)
数据字典
b)
用户自定义的完整性约束条件,如字段“年龄”的取值范围为20~40
c)
数据的自描述性信息,如数字指纹(数字摘要)、校检码、XML、Schema定义
d)
属性的定义域与值域
e)
数据自包含的关联信息
1.2
自定义审计:当来源数据缺乏自描述性验证规则或自描述性验证规则无法满足数据预处理,需要数据预处理者自定义验证规则来判断是否为“问题数据”。
a)
变量规则:在单个(多个)变量上直接定义的验证规则;
i.
一个有效值(或无效值)的取值范围
ii.
列举所有的有效值(或无效值)
b)
函数规则:相对于简单变量规则,函数规则更为复杂需要对变量进行函数计算。
1.3
可视化审计:利用图表的形式能够很容易发现问题数据。
2
错误\虚假数据、无效数据、数据缺失、重复数据→数据清洗
2.1
缺失数据的处理:完全随机缺失、随机缺失、非随机缺失
a)
识别缺失数据:主要采用数据审计的方法发现缺失数据
b)
缺失数据的分析:特征分析、影响分析以及原因分析→需要利用数据所属领域知识进一步分析其背后原因,为应对策略的选择提供依据
c)
缺失数据的处理:忽略、删除处理或插值处理
2.2
冗余数据的处理:重复出现的数据以及与特定数据分析任务无关的数据识别、分析和过滤
a)
重复过滤:重复记录是相对概念,根据数据分析需求来决定是否为重复数据
i.
直接过滤:选择其中的任何代表数据项保留,过滤其他冗余数据
ii.
间接过滤:对重复数据进行一定的校检、调整、合并操作后,形成一条新的记录
b)
条件过滤:根据某种条件进行过滤,对一个或多个属性设置过滤条件
2.3
噪声数据(数据平滑:去噪声)的处理:测量变量中的随机错误或偏差→错误数据、虚假数据以及异常数据(对数据分析结果具有重要影响:离群数据或孤立数据)
a)
分箱:将数据集放入若干个“箱子”,用均值(或边界值)替换该箱内部每个数据成员
i.
对原始数据集的分箱策略:等深分箱(成员个数相等)、等宽分箱(取值范围相等)
ii.
箱内成员数据的替换方法:均值平滑技术(均值替换)、中值平滑技术(中值替换)、边界值(每个值被最近的边界值替换)
b)
聚类:聚类分析方法找出离群点/孤立点替换/删除处理
c)
回归:回归分析法进行平滑处理
3
数据的变换:当原始数据的形态不符合目标算法的要求
3.1
数据变换策略:
a)
平滑处理:噪声处理方法
b)
特征构造(属性构造):采用一直的特征(属性)构造出新的属性用于描述客观事实
c)
聚集:对数据进行汇总或聚合处理,进而进行粗粒度计算
d)
标准化(规范化):将特征(属性)值按比列缩放,使之落入一个特定的区间→0.0~1.0、Min-Max标准化和z-score标准化
e)
离散化:将数值类型的属性值用区间标签或概念标签表示
3.2
大小类型 :数据标准化处理是将数据按比列缩放,使之落入一个特定区间
a)
0-1标准化:x*=(x-min)/max(max-min) max和min是样本数据最大最小值;x与x*标准化处理前的值和处理后的值(存在缺陷:当有新数据加入时,可能导致最大最小值的变化,需要重新定义min和max的取值)
b)
Z-scoer标准化:经过处理的数据符合标准正态分布,即均值为0,标准差为1,:z=(x-µ)/σ µ是平均数 σ是标准差 x与z代表处理前的值和处理后的值
3.3
类型变换:来源数据类型转换为目标数据集类型
a)
一对一转换:将变量数据类型直接转换为目标数据集,存在一对一的对应关系
b)
多对一转换:变量数据类型映射为另一数据类型时进行多对一的映射
4
数据集成:对来自不同数据源的数据进行集成处理,集成后进行数据处理(可以在物理上实现或逻辑上实现)
4.1
基本类型:
a)
内容集成:目标数据集与来源数据集结构相同时,对来源数据集中的内容进行合并处理,实现前提是:来源数据集中存在相同结构或可通过变量映射等方式视为相同结构
b)
结构集成:目标数据集与来源数据集结构不同时,对各来源数据集的结构进行合并处理的结果,因此,还分为两个阶段:结构层次的集成和内容层次的集成,在结构集成过程中可以进行属性选择操作,不一定是简单合并
4.2
主要问题:
a)
模式集成:如何使来自多个数据源的现实世界的实体相互匹配,即是实体识别问题→数据库与数据仓库以元数据为依据进行实体识别
b)
数据冗余:一个属性可以从其他属性中推演出来,利用相关分析来分析它们之间的相关度(详细内容见课本)
c)
冲突检测与消除:被集成数据的语义差异的存在是数据提成的主要挑战之一
5
其他预处理办法
5.1
数据脱敏:在不影响数据分析结果的准确性的前提下,对原始数据进行一定的变换操作,对其中的个人(或组织)敏感数据进行替换、过滤或删除操作,降低信息的敏感性,减少相关主体的信息安全隐患和个人隐私风险数据脱敏处理不能停留在简单地将敏感信息屏蔽掉或匿名处理,必须满足以下三个要求:
a)
单向性:无法从脱敏数据推导出原始数据
b)
无残留:保证用户无法通过其他途径还原敏感信息
c)
易于实现:需要利用易于计算的简单方法
d)
需要三个基本活动:识别敏感信息、脱敏处理【可以用替换(hash函数的方法进行单向映射)和过滤】和脱敏处理的评价
5.2
数据归约:不影响数据的完整性和数据分析结果的正确性的前提下,通过减少数据规模的方式达到提升数据分析的效果与效率的目的,因此,数据归约不应对后续数据分析结果产生影响
a)
维归约:避免维灾难的发生(指随着根据维度的增加,数据分析变得困难)减少所考虑的随机变量或属性的个数,采用线性代数的方式
b)
值归约:在不影响数据的完整性和数据分析结果的正确性的前提下,使用参数模型或非参数模型近似表示数据分布
c)
数据压缩:通过数据重构方法得到原始数据的压缩表现方法
5.3
数据标注:通过对目标数据补充必要的词性、颜色、纹理、形状、关键字或予以信息等标签类元数据,提高其检索、洞察、分析和挖掘的效果与效率
a)
自动化程度:分为手工标注、自动化标注和半自动化标注
b)
标注的实现层次:
c)
语法标注:主要采用语法层次上的数据计算技术,特点在于标签内容的生成过程并不建立在语义层次的分析处理技术上,且标签信息的利用过程并不支持语义层次的分析推理
例如:文本数据的词性、句法、局势等语法标签;图像数据的颜色、纹理和形状等视觉标签
d)
主要采用语义层次上的数据计算技术,语义标注的过程及标注内容应均建立在语义Wed和关联数据技术上,例如对数据对出其主体、情感倾向、意见选择等语义信息