第1章
使用R内置数据进行数据处理
本书主要介绍在R语言平台上实现数据挖掘的方法和步骤。因为R是一种开源工具,所以对各层次的学习者而言,学习使用R语言进行数据挖掘都会很有意思。本书的设计宗旨是,读者可以从数据管理技术着手,从探索性数据分析、数据可视化和建模开始,直至建立高级预测模型,如推荐系统、神经网络模型等。本章将概述数据挖掘的原理及其与数据科学、分析学和统计建模的交叉。在本章,读者将初识R编程语言基础,并通过一个真实的案例,了解怎样读取和写入数据,熟悉编程符号和理解句法。本章还包含了R语言脚本,可供读者动手实践,以加深对原理和术语的理解,领会数据挖掘任务的来龙去脉。本章之所以这样设计,是为了让那些编程基础薄弱的读者也可以通过执行R语言命令来完成一些数据挖掘任务。
本章将简述数据挖掘的意义以及它与其他领域(如数据科学、分析学和统计建模)的关系,还会就使用R进行数据管理的话题展开讨论。通过学习本章的内容,读者应掌握以下知识点:
了解R语言中所使用的各种数据类型,包括向量和向量运算。
数据框的索引及因子序列。
数据框的排序与合并以及数据类型的转换。
字符串操作以及数据对象格式化。
缺失值(NA)的处理方法。
流控制、循环构建以及apply函数的应用。

1.1 什么是数据挖掘
数据挖掘可以定义为这样的过程:从现有数据库中“解读”出有意义的信息,然后加以分析,并将结果提供给业务人员。从不同数据源分析数据,进而归纳出有意义的信息和洞见——这属于统计知识的探索,不仅有助于业务人员,也有助于多个群体,如统计分析员、咨询师和数据科学家。通常,数据库中的知识探索过程是不可预知的,对探索结果也可以从多个角度进行解读。
硬件设备、平板、智能手机、计算机、传感器等电子设备的大规模增长促使数据以超前的速度产生与收集。随着现代计算机处理能力的提升,可以对增长的数据进行预处理和模型化,以解决与商业决策过程相关的各种问题。数据挖掘也可以定义为利用统计方法、机器学习技术、可视化和模式匹配技术从离散的数据库和信息资源库中进行知识密集型搜索。
零售商店内所有物品的条形码、制造业所有货物的射频识别标签、推特简讯、Facebook上的贴子、遍布城市用于监控天气变化的传感器、录像分析、基于观看信息统计的视频推荐……这些结构化和非结构化数据的增长创造了一个催生各种各样的工具、技术和方法的生态系统。前文提到应用于各种数据的数据挖掘技术,不仅提供了有用的数据结构信息,也就企业未来可采取的决策提出了建议。
数据挖掘包括以下几个步骤:
1)从数据库和数据仓库中抽取需要的数据。
2)检查数据,删除冗余特征和无关信息。
3)有时需要与其他未关联数据库中的数据相合并。所以,需要找到各个数据库的共同属性。
4)应用数据转换技术。有时,一些属性和特征需要包含在一个模型中。
5)对输入的特征值进行模式识别。这里可能会用到任何模式识别技术。
6)知识表达。其中包括把从数据库中提炼出来的知识通过可视化方式展示给利益相关者。
在讨论了数据挖掘的流程和核心组成之后,我们也需注意到实施数据挖掘时可能遇到的挑战,比如运算效率、数据库的非结构化以及怎样将其与结构化数据结合、高维数据的可视化问题,等等。这些问题可以通过创新的方法来解决。本书在项目实践中会涉及一些解决方法。
它是怎么与数据科学、分析和统计建模关联的
数据科学是个很宽泛的话题,其中也包含了一些数据挖掘的概念。根据之前对数据挖掘的定义,即它是从数据中发现隐藏模式,找出有意思的关联并能提供有用的决策支持的过程,可知数据挖掘是数据科学项目的子集,涉及模式识别、特征提取、聚类以及监督分类等技术。分析学和统计建模包含了很多预测模型——基于分类的模型,通过应用这些方法解决实际业务问题。数据科学、分析学和统计建模、数据挖掘这些术语之间明显是有重叠的,所以不应该把它们看作完全独立的术语。根据项目要求和特定的业务问题,它们重叠的部分可能有所不同。但总的来说,所有概念都是相关联的。数据挖掘过程也包括基于统计和机器学习方法来提取数据,提取自动化规则,也需要利用好的可视化方法来展示数据。