R语言课程纲要
- 数据分析与可视化流程
- · 数据分析与可视化是与从数据中提取信息相关的一系列过程。
- · 具体流程
- · 数据:个体(+ 时间)*变量结构
- · 信息:
- 学习安排
- · 总体框架
- · 课程纲要
- R语言基础知识
- R语言数据处理
- R语言数据分析
- R语言数据可视化
数据分析与可视化流程
· 数据分析与可视化是与从数据中提取信息相关的一系列过程。
· 具体流程
数据收集
数据整理
探索性分析
建模性分析
结果输出
细化一点,我们可以从数据和信息两个角度去了解:
· 数据:个体(+ 时间)*变量结构
数据分析与可视化所研究的对象就是数据。数据一般用到的结构就是个体、变量与时间维度的结构。
个体 | 时间 | 变量i |
个体1 | 时间1 | 89 |
个体1 | 时间2 | 99 |
个体2 | 时间1 | 56 |
个体2 | 时间2 | 64 |
每一行对应的是一个个体或是个体在某一时间上的一个情况,具有每一个变量或者属性的一些信息。
这个数据在统计学中可以接触到,它属于面板数据,它对应的是多个个体在不同时间上的数据。如果我们去掉时间维度这一列,只保留个体与变量两列,这样就是一个截面数据,它对应的是多个个体在某一时间节点上的数据。
· 信息:
数据分析与可视化是从数据中提取信息的一个过程,信息主要分为三类:
- 变量分布(交通意外与损失的分布)
- 变量关系(烟龄与是否患肺癌之间的关系)
- 个体关系(两个省份在消费上是否存在相似—聚类)
(超市内货架排布,商品之间是否存在联动—关联规则)
数据分析要与业务相结合,不要忽略数据背后的系统与机制
不要忘记数据从何而来,我们数据分析与可视化的工作最后要落实到何处,不能为了分析而分析,分析的结果要回到业务与系统相关联。
产生数据
解释预测
系统
数据分析
学习安排
· 总体框架
基于R语言的数据分析和可视化入门
R语言基础知识
数据整理
数据分析
数据可视化
第一部分的内容就是R语言基础知识的介绍,从第二部分开始就是具体的数据分析工作怎么去展开,包括从数据的整理到数据分析,再到最后的数据可视化。
· 课程纲要
R语言基础知识
数据分析与可视化,对象是数据,对数据的认识不够深,不够了解数据,接下来的分析与可视化的工作无法展开
- R中的数据
- 赋值
- 数据类型
- 数据对象类型(数据结构)
- 数据对象属性
- 特殊值
- R基础操作
- 数学运算
- 字符运算
- 逻辑运算
- 条件与循环语句
- 自定义函数
- 包管理
- R语言一个最大的优势之一就是丰富多样的包,包的的使用与管理也是我们需要学习的
- 帮助、代码书写风格
- 获取帮助
- 来自Google的R语言编码风格指南
良好的代码书写风格有助于以后的工作中便于与他人交流
- Rmarkdown
在做数据分析与可视化的过程中会得到很多结果需要呈现给大家,与大家交流,Rmarkdown就提供了一个非常良好的报告方式
就像这篇文章使用的富文本编辑器,以及有道云笔记都是基于Rmarkdown的语法来完成的,从呈现的结果来看,层次感比较清晰,便于阅读
R语言数据处理
在了解了R语言的基础知识,对于数据有了足够的认识之后,我们就会进入到具体的数据处理和数据分析与可视化的内容中,首先我们需要进行的就是数据处理,并不是任意拿到的数据都可以用来进行分析与可视化的。在数据分析与可视化的过程中,数据处理是最基础的环节,60%~80%的时间都会用在数据处理上。
- 数据生成函数
- 随机数生成
- seq和rep函数
- 抽样
- 数据导入与导出
- 外源格式数据导入
- 批量数据导入导出
- 数据导出
- 数据整理
- 样本筛选、变量筛选、生成新变量
- 长宽数据转换
- 数据合并
R语言数据分析
数据处理之后就是具体的数据分析,这一部分的内容借鉴了一个比较传统的统计学的范式,主要内容包括假设分析、方差分析、普通线性回归、logistic回归等等,在这一部分对于没有统计学基础的,建议单独学习一下,我这边也是自己买了统计学的教材与习题可以同步学习。
- 描述性统计分析
- 假设检验
- 均值检验
- 方差检验
- 方差分析
- 因子
- 汇总
- 方差分析
- 一般线性回归
应用于因变量是连续型变量的情况
- 建立模型
- 模型解释
- 模型诊断与优化
- logistic回归
应用于因变量是二分类变量的情况
- 建立模型
- 模型解释
- 模型评价
- 分析结果格式化:broom包
在R语言中进行数据分析之后,最后得到的R结果可能不是我们理想的结果,应用到相关的papper或者报告中去格式需要一定的调整,好在R中提供了一个格式化分析结果的工具broom包,便于对分析结果的格式化。
R语言数据可视化
数据分析完之后,最后一大块就是数据的可视化,分为两条学习路径,一条是图形路径,一条是内容路径:图形路径就是去学习每种图形的画法,内容路径是根据要展现的内容来进行学习,这里是以内容路径来学习,主要是单变量分析图示和多变量关系图式,其他图示也会有介绍和学习。
- 单变量分布图示
- 连续型变量分布:直方图、密度图
- 分类型变量分布:条形图
- 多变量关系图示
- 两个连续型变量间关系
- 两个分类型变量间关系
- 分类型变量与连续型变量间关系
- 其他图示
- 散点图附加变量分布
- 变量相关图
- 图形细节调整
- 标题
- 坐标轴
- 图例
- 背景