什么是数据分析?

顾名思义,数据分析就是对数据进行分析。
可是,数据分析的真正定义是什么呢?
数据分析是指利用适当的统计分析方法对收集来的大量数据进行分析,将他们加以汇总消化并理解,以最大化地开发数据功能,发挥数据的作用。

数据分析有哪几类?

数据分析可分为:
* 描述性数据分析
* 探索性数据分析
* 验证性数据分析
下面简单介绍一下,描述性数据分析属于初级数据分析,常用的数据分析方法有对比分析、平均分析、交叉分析等。
探索性数据分析侧重于在数据发现未知的新的特征;验证性分析侧重于验证已有假设的真伪证明。
后两者属于高级数据分析,常用的分析方法有相关性分析、因子分析、回归分析等。

数据分析有什么作用?

* 现状分析
* 原因分析
* 预测分析

数据分析六部曲

* 明确分析目的和思路
* 数据收集
* 数据处理
* 数据分析
* 数据展现
* 报告撰写

明确数据分析目的以及确定分析思路,是确保数据分析过程有效进行的先决条件,可以为数据收集、处理以及分析提供清晰的指引方向。
在明确数据分析目的后,就要梳理分析思路,搭建分析框架,并把分析目的分解成若干个不同的分析要点,及如何开展数据分析,需要从那几个角度进行分析,采用哪些分析指标。其中框架确定后还需要确保框架的体系化,体系化即整体分析思路框架的逻辑性。

数据挖掘与数据分析的关系

两者的本质其实是一致的,都是从大量的数据中发现规律,实现自己的目的。
简单来说,数据挖掘是数据分析的进阶。数据分析只是用到统计分析方法,而数据挖掘不仅用到数据分析阶段的数学知识,还需要用到计算机语言进行编程对数据进行处理。
一般来说,数据挖掘侧重于解决四种数据分析问题:分类、聚类、关联和预测

字段、记录、数据类型

字段是事物或现象的某种特征。简单来说,就是数据库中的列,一列为一个字段,对应着spss(统计学)中的变量。
记录是事物或现象的具体表现。简单来说,就是数据库中的一行,一行为一条记录,对应着spss(统计学)中的个案。
数据类型分为数值、文本、日期、货币、时间、分析、百分比等。
总的可以分为字符型、数值型、日期型等大类。日期型属于特殊的数值型数据。

变量尺度

在统计学中,按照对事物描述的精确程度,将采用的测量尺度从地低到高分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。

定类尺度

是对事物类别或属性的一种测度,如性别、职业。
特点:只能代表事物的类别与属性,不能比较各类别的大小。
SPSS中用“名义”来表示。
分类原则:相互独立、完全穷尽

定序尺度

对事物之间等级或顺序的一种测量,如学历、职级。
特点:只能排序,不能算数计算。
SPSS中用“有序”表示。

定距尺度

对事物次序之间间距的一种测度,如温度、时间
特点:只能加减,不能乘除,可排序,能计算次序之间差距

定比尺度

测算两个测量值之间比值的一种测度。
特点:可加减乘除,如收入、用户量等
定比尺度与定距尺度最大的区别是它有一固定的绝对“0”值。两者在绝大多数统计分析中没有本质的区别,SPSS将他们合并为一类为“标度”。

数据类型与变量尺度

数据类型是数据库用语,变量尺度是统计学用语。

两者的关系可以用下表来表示。

工作簿与工作表

在Excel中,一个sheet为一个工作表,一个Excel为一个工作簿,工作簿中可以有多个工作表。

数据处理

数据处理分为数据清洗数据加工

数据清洗

(spss中【数据】菜单栏)
数据清洗,顾名思义就是把数据洗干净,处理成自己想要的数据。
数据清洗包括:
* 删除重复数据
* 补充缺失数据
* 改正错误数据(包括内容错误和逻辑错误)
删除重复数据:【数据】-【标识重复个案】

数据加工

(spss中【转换】菜单栏)
经过数据清洗过的数据也不一定是我们想要的数据。还需要对数据进行信息提取、计算、分组、转换等,将其变成我们想要的数据表。

数据抽取

字段拆分:【转换】-【计算变量】-函数组-Substr(3),类似于excel中mid函数
随机抽样:【数据】-【选择个案】-【随机个案样本】

数据合并

字段合并:【转换】-【计算变量】-【函数组】-Concat函数
记录合并:【数据】-【合并文件】-【添加个例】

数据分组

可视化分箱:【转换】-【可视化分箱】
重新编码:【转换】-【重新编码为不同变量】

数据标准化

0-1标准化(离差标准化)、Z标准化(标准差标准化)