数据分析准备
介绍
章节内容
数据分析前关于数据的收集、存储以及预处理等准备工作
考试内容
- 数据收集
(1) ⼆⼿资料数据的收集
(2) 样本数据的收集
(3) ⼤数据的收集 - 数据存储
(1) 数据规模的度量
(2) 数据存储系统
(3) 数据存储与管理
(4) ⼤数据存储 - 数据预处理
(1) 数据预处理的含义
(2) 数据预处理的基本原则
(3) 数据预处理的基本流程
(4) 数据预处理的⽅法
(5) 常⽤的数据分析软件 - 数据预处理的R软件实现
(1) 数据读⼊与存储
(2) 随机抽样
(3) 缺失数据处理
(4) 数据集成
(5) 数据转换
考核内容
- 数据收集
- 识记:⼆⼿资料数据收集的途径、样本数据收集的途径、⼤数据收集的途径。
- 领会:⼆⼿资料数据收集的具体⽅法、样本数据收集的具体⽅法、⼤数据收集的⽅法。
- 数据存储
- 识记:数据规模常⽤的度量单位、数据存储系统的种类、数据存储与管理的三个阶段、常⻅的⼤数据存储系统
- 领会:数据存储系统的构成、⼤数据存储技术的发展与存储模式。
- 数据预处理
- 识记:数据预处理的基本原则、基本流程。
- 领会:数据预处理的含义、数据预处理的常⽤⽅法。
- 数据预处理的R软件实现
- 识记:利⽤R进⾏数据读⼊与存储、随机抽样、缺失数据处理、数据集成、数据转换的常⽤函数。
- 领会:利⽤R软件实现数据预处理的主要⽅法。
- 简单应⽤:利⽤R软件对具有实际应⽤背景单⼀变量的数据进⾏简单的预处理。
- 综合应⽤:利⽤R软件对⾏业领域中某些实际问题的多变量数据进⾏常规的数据预处理⼯作。
数据收集
数据收集概念:所谓数据收集,就是围绕研究的目标和任务,选择合适的技术路线,运用科学有效的方式和方法,有针对性地收集能够反映客观事实情况数据的活动。
二手资料数据的收集
二手资料数据是因其他目的而已经收集好的数据资源。它具有获取速度快、费用相对低、时间比较短等优点。
- 内部二手资料数据的收集
- 企业自身二手资料数据
- 公开资料数据
- 非公开资料数据
- 机密资料数据
- 非机密资料数据
- 企业掌握的自身之外其他相关资料数据
- 外部二手资料数据的收集
- 从传统的出版物或印刷资料中获取数据
- 从计算机数据库存储的资料中收集数据
- 从专业数据服务机构提供的资料中收集数据
- 利用互联网的搜索引擎收集数据
样本数据的收集
样本数据是在对总体进行抽样的基础上,通过对样本的调查、观察与试验而获取的。下面介绍常用的抽样方法和收集样本数据的三种途径。
常用的抽样方法
- 随机抽样
- 非随机抽样
样本数据的获取方法
- 调查法
- 观察法
- 试验法
大数据的收集
大数据主要来源于人们在社交网络、互联网、各种社会活动过程产生的文字、图片、音频、视频各种数据,计算机模拟现实世界生成的数据,以及通过感知设备获得数据,等等。
- 基于传感器的大数据收集
- 基于系统日志的大数据收集
- 基于网络爬虫的大数据收集
- 基于众包平台的大数据收集
数据存储
数据量的度量
KB MB GB TB PB EB ZB YB NB DB CB
数据存储系统
数据存储的目的不只为了存储,同时主要为了后期的查询、分析与应用。
数据存储系统就是计算机中由存放程序和数据的各种存储设备、控制部件及管理信息调度的设备(硬件)和算法(软件)所组成的系统。由于计算机的主存储器不能同时满足存取速度快、存储容量大和成本低的要求,因此在计算机中必须有速度由慢到快、容量由大到小的多级层次存储器。
数据存储与管理
数据管理的三个阶段:
- 人工管理阶段
- 文件系统阶段
- 数据库管理系统
大数据存储
在大数据时代,面对结构化、半结构化和非结构化等海量数据,数据容量超过了存储空间的极限,传统的关系型数据库已无法适应对其进行有效存储,容易发生数据管理失控问题。因此,需要借助以下方法应对大数据的存储问题:
1 分布式系统
在分布式系统中,数据的存取是通过分布式存储技术来实现的。分布式存储技术将数据存储在了虚拟的网络空间中,而非特定的节点上。具体来说,分布式存储技术充分利用了网络的优势,把网络上相对比较零散的存储空间虚拟为一个整体,进而将这一空间作为数据存储的主体。
2 NoSQL数据库
用于半关系型和非关系型数据的存储管理。
与关系型数据库相比:
- 强调数据的高并发读写和存储大数据
- 在存储方式上,以数据集的方式将大量的数据集中存储在一起
- 在存储结构上,采用动态结构,对于数据类型和结构的改变非常的适应
- 在扩展方式上,由于NoSQL数据库的存储方式是分布式的,克服了纵向扩展能力的不足,可以添加更多数据库服务器到资源池,实现横向方式扩展数据库的功能
- 在读写性能上,由于NoSQL是按key-value类型进行存储的,并以数据库的方式存储的,因此无论是扩展还是读写都非常容易;且NoSQL不需要关系型数据库繁琐的解析
NoSQL的主要存储类别:
- 键值对存储数据库
- 列存储数据库
- 文档型数据库
- 图形结构数据库
3 云数据库
云数据库是基于云计算技术发展的一种共享基础架构的存储方法,是部署在云计算环境中的虚拟化数据库。
- 租用云数据库可以实现质优价廉的大数据管理需求,免去手动安装配置数据库的繁琐步骤。
- 具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点,还有较低的使用代价、高性能、免维护、安全等特征
数据预处理
数据预处理的含义
数据预处理就是根据研究的目的与任务,运用科学的处理方法将获得的原始数据进行审核汇总与初步加工,使之系统化和条理化,从而进一步提高数据质量。
- 全面地检查了所收集数据的质量,提高了数据的应用价值
- 将为后续的数据分析与应用奠定良好的基础
- 是积累和保存资料的客观要求
数据预处理的基本原则
- 真实性原则
- 准确性原则
- 科学性原则
- 目的性原则
数据预处理的基本流程
没有固定的统一模式,针对不同研究目的、不同技术路线收集到的不同类型数据,需要采用不同流程进行预处理。
以下是基于问卷调查/观察样本数据 或 二手资料数据/大数据的预处理流程:
数据预处理的方法
上面两种是实际应用中的两种典型数据预处理方法。下面分别讨论。
(一)基于问卷的调查或观察的形式所收集数据的预处理方法
流程:复查审核、编辑整理、编码、数据录入、再编码以及排序等环节进行预处理。
1 复查审核
目的是为了确保每份将要用于数据录入分析的调查问卷的有效性,其衡量标准主要是看访谈是否按规定的方式进行,访员有无作假。
2 编辑整理
对访员和采访者的疏忽、遗漏、错误进行检查。
3 编码
是对一个问题的不同答案确定相应的数字代码以便于后期数据分析的过程。
4 数据录入
将数据从书面形式转到计算机足以识别的电子或数字形式。
5 再编码
为了方便处理,有时是对原编码的补充,有时则是对原编码的调整修改。(合理性原则:能用自然数就绝不用小数编码…;经济性原则:很多调查项目可借用现成编码)
6 排序
将一定顺序将顺序进行排列,便于研究者通过浏览数据发现某些明显的特征趋势或解决问题的线索。除此之外,排序还有助于对数据检查纠错,并能为重新归类、分组以及再编码提供依据。
7 变量转换与数据选择
变量转换的两种方法:
- 变量类型转换:例如,出入录入需要有些数值型数据被定义为字符型数据,待进行数据处理时则要将这些字符型数据还原为数值型数据
- 变量代换:要用原有数据变量做自变量,利用常规运算和数据分析软件中的函数库构造新的变量
数据选择的两种方法:
- 将诸如明显错误或不合理的数据、缺失数据或“野值”等不合格的数据剔除
- 将某些符合特定条件的数据筛选出来进行计算,而把不符合条件的数据排除在外
8 数据清理
在图表化和数据分析之前,需要从有效性审核、一致性审核和分布审核等方面进一步审核。
通常有两种途径:
- 错误检验查序。例如,如果记录受访者性别的代码只有“1”或“2”,那么逻辑描述可以检查这个字段是否存在其他代码。
- 汇总报告。通过一份简单的汇总表,可以列出各变量值的频数、频率、有效频率和累积频率。
(二)基于二手资料数据或大数据的预处理方法
这些数据最初的目的往往不是为当前特定项目研究的目的而设计的,因此需要进行清洗、集成、规约、变换与脱敏等预处理操作。
1 数据清洗
将“脏数据”(缺失数据、冗余数据、噪声数据)清洗成“干净数据”
- 缺失数据的处理。涉及三个环节:识别缺失数据、分析导致缺失数据的原因以及删除或填充缺失数据。
- 冗余数据的处理。通常表现为重复数据、或与数据分析任务无关的数据。前者主要采用重复过滤的方法处理,后者一般采用条件过滤的方法处理。
- 噪声数据的处理。噪声是指测量变量中的随机错误或偏差,主要表现为错误数据、虚假数据和异常数据。常用的处理方法有分组、回归和离群点分析。
2 数据集成
是将两个或多个数据源中的数据存放在一个数据存储设备中。
包括内容集成和结构集成两种。
- 内容集成:目标数据集的结构与来源数据集的结构相同,集成过程对来源数据集中的内容(个案)进行合并处理
- 结构集成:目标数据集的结构与来源数据集的结构不同,目标数据集的结构是在对各来源数据集的结构进行合并处理后的基础上形成的
在数据集成时,以下需要注意:
- 模式集成。主要涉及实体识别问题,即如何使来自多个数据源的现实世界的实体相互匹配。
- 冗余与相关分析。如果一个变量可以从其他变量中推演出来,那这个变量就是冗余变量。通常利用相关分析的方法判断数据冗余问题。
- 数据的冲突检测与消除。对于一个现实世界实体,来自不同数据源的同一变量,其值出现差异,产生这种现象的原因可能是比例尺度不同或编码的差异等。
3 数据规约
是指在不影响数据完整性和数据分析结果正确性的前提下,通过减少数据规模的方式达到减少数据量,进而提升数据分析的效果与效率的目的。
通常有两种方法:
- 维度规约:通过减少所考虑的变量的个数来实现的。
- 数量规约:使用回归分析、对数线性等参数模型或直方图、聚类、抽样和数据立方体聚类等非参数模型的方法近似表示数据,并且只存储数据生成方法与参数(不存储实际数据),最终实现数据规约的目的。
4 数据变换
原始数据往往具有不同量纲,或其形式不符合建模的要求,因此在数据分析前,需要先对原始数据进行适当的变换。
常见有5种方法:
- 数据平滑处理。去掉数据中的噪声波动使得数据分布平滑。常用有分组、回归和聚类
- 数据的标准化(规范化)。将数据按比例缩放,使之落入一个特定的区间。常用有Max-Min标准化(最大值归一化)、Z-score标准化和小数定标标准化(标准差归一化)等
- 简单函数变换。可以将不具有正态分布的数据变换成具有正态分布的数据,常用有平方、开方、对数变换与差分运算等。有时简单的对数变换和差分运算就可以将时间序列分析中的非平稳序列转换成平稳序列
- 数据编码。研究、制定和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程
5 数据脱敏
对原始数据中的个人(或组织)敏感数据进行替换或删除操作,降低信息的敏感性,避免相关主体的信息安全隐患和个人隐私问题。
数据预处理的R软件实现(暂略)