R语言课程纲要

  • 数据分析与可视化流程
  • · 数据分析与可视化是与从数据中提取信息相关的一系列过程。
  • · 具体流程
  • · 数据:个体(+ 时间)*变量结构
  • · 信息:
  • 学习安排
  • · 总体框架
  • · 课程纲要
  • R语言基础知识
  • R语言数据处理
  • R语言数据分析
  • R语言数据可视化


数据分析与可视化流程

· 数据分析与可视化是与从数据中提取信息相关的一系列过程。

· 具体流程






数据收集

数据整理

探索性分析

建模性分析

结果输出


细化一点,我们可以从数据和信息两个角度去了解:

· 数据:个体(+ 时间)*变量结构

数据分析与可视化所研究的对象就是数据。数据一般用到的结构就是个体、变量与时间维度的结构。

个体

时间

变量i

个体1

时间1

89

个体1

时间2

99

个体2

时间1

56

个体2

时间2

64

每一行对应的是一个个体或是个体在某一时间上的一个情况,具有每一个变量或者属性的一些信息。
这个数据在统计学中可以接触到,它属于面板数据,它对应的是多个个体在不同时间上的数据。如果我们去掉时间维度这一列,只保留个体与变量两列,这样就是一个截面数据,它对应的是多个个体在某一时间节点上的数据。

· 信息:

数据分析与可视化是从数据中提取信息的一个过程,信息主要分为三类:

  • 变量分布(交通意外与损失的分布)
  • 变量关系(烟龄与是否患肺癌之间的关系)
  • 个体关系(两个省份在消费上是否存在相似—聚类)
    (超市内货架排布,商品之间是否存在联动—关联规则)

数据分析要与业务相结合,不要忽略数据背后的系统与机制
不要忘记数据从何而来,我们数据分析与可视化的工作最后要落实到何处,不能为了分析而分析,分析的结果要回到业务与系统相关联。


产生数据

解释预测

系统

数据分析


学习安排

· 总体框架






基于R语言的数据分析和可视化入门

R语言基础知识

数据整理

数据分析

数据可视化


第一部分的内容就是R语言基础知识的介绍,从第二部分开始就是具体的数据分析工作怎么去展开,包括从数据的整理到数据分析,再到最后的数据可视化。

· 课程纲要

R语言基础知识

数据分析与可视化,对象是数据,对数据的认识不够深,不够了解数据,接下来的分析与可视化的工作无法展开

  • R中的数据
  • 赋值
  • 数据类型
  • 数据对象类型(数据结构)
  • 数据对象属性
  • 特殊值
  • R基础操作
  • 数学运算
  • 字符运算
  • 逻辑运算
  • 条件与循环语句
  • 自定义函数
  • 包管理
  • R语言一个最大的优势之一就是丰富多样的包,包的的使用与管理也是我们需要学习的
  • 帮助、代码书写风格
  • 获取帮助
  • 来自Google的R语言编码风格指南
    良好的代码书写风格有助于以后的工作中便于与他人交流
  • Rmarkdown
    在做数据分析与可视化的过程中会得到很多结果需要呈现给大家,与大家交流,Rmarkdown就提供了一个非常良好的报告方式
    就像这篇文章使用的富文本编辑器,以及有道云笔记都是基于Rmarkdown的语法来完成的,从呈现的结果来看,层次感比较清晰,便于阅读
R语言数据处理

在了解了R语言的基础知识,对于数据有了足够的认识之后,我们就会进入到具体的数据处理和数据分析与可视化的内容中,首先我们需要进行的就是数据处理,并不是任意拿到的数据都可以用来进行分析与可视化的。在数据分析与可视化的过程中,数据处理是最基础的环节,60%~80%的时间都会用在数据处理上。

  • 数据生成函数
  • 随机数生成
  • seq和rep函数
  • 抽样
  • 数据导入与导出
  • 外源格式数据导入
  • 批量数据导入导出
  • 数据导出
  • 数据整理
  • 样本筛选、变量筛选、生成新变量
  • 长宽数据转换
  • 数据合并
R语言数据分析

数据处理之后就是具体的数据分析,这一部分的内容借鉴了一个比较传统的统计学的范式,主要内容包括假设分析、方差分析、普通线性回归、logistic回归等等,在这一部分对于没有统计学基础的,建议单独学习一下,我这边也是自己买了统计学的教材与习题可以同步学习。

  • 描述性统计分析
  • 假设检验
  • 均值检验
  • 方差检验
  • 方差分析
  • 因子
  • 汇总
  • 方差分析
  • 一般线性回归
    应用于因变量是连续型变量的情况
  • 建立模型
  • 模型解释
  • 模型诊断与优化
  • logistic回归
    应用于因变量是二分类变量的情况
  • 建立模型
  • 模型解释
  • 模型评价
  • 分析结果格式化:broom包
    在R语言中进行数据分析之后,最后得到的R结果可能不是我们理想的结果,应用到相关的papper或者报告中去格式需要一定的调整,好在R中提供了一个格式化分析结果的工具broom包,便于对分析结果的格式化。
R语言数据可视化

数据分析完之后,最后一大块就是数据的可视化,分为两条学习路径,一条是图形路径,一条是内容路径:图形路径就是去学习每种图形的画法,内容路径是根据要展现的内容来进行学习,这里是以内容路径来学习,主要是单变量分析图示和多变量关系图式,其他图示也会有介绍和学习。

  • 单变量分布图示
  • 连续型变量分布:直方图、密度图
  • 分类型变量分布:条形图
  • 多变量关系图示
  • 两个连续型变量间关系
  • 两个分类型变量间关系
  • 分类型变量与连续型变量间关系
  • 其他图示
  • 散点图附加变量分布
  • 变量相关图
  • 图形细节调整
  • 标题
  • 坐标轴
  • 图例
  • 背景