统计学基本概念
总体:研究的所有元素的集合。
个体:总体中的一个元素。
样本:总体中抽取的一部分个体的集合。
样本容量:样本中个体的数量。
参数:总体的某个特征。
统计量:样本的某个特征。
是否使用抽样统计不不是根据数据量的多少,而是根据总体中的个体是不是
按照表达形式划分:
有两种划分形式,一种是定性数据、定量数据。另一种是分为分类数据、顺序数据、数值数据(定量数据)。
第一种:
定性数据:刻画个体性质的数据。如男、女;高、中、低。常变现为文字形式。
定量数据:常表现为数字。可运算的。如果是用0表示女、1表示男,此时不能算定量数据。
第二种:
定量数据:分为定距数据、定比数据。定距数据考察数据之间距离的意义,比如温度30度和10度不能说30度是10度的3倍,意义不大。定比数据,可以看成倍数。
由低级到高级:分类数据、顺序数据、数值数据,数据分析中不同的分析方法,低级数据的方法高级数据可以用,反之不可以。
按照收集方式划分:
调查数据、实验数据。可以通过是否对数据对象进行干预来判断。
按照与时间关系不同划分:横截面数据、时间序列数据、混合截面数据、面板数据。
横截面数据:相同或相近时间点观测到的不同对象的数据。
时间序列数据:同一对象在不同时间观测的数据。
混合截面数据:既有横截面数据的特点又有时间序列数据的特点,但是每一时间点的样本不同。如:人行自1999年起,没季度不同地区储户的意见,不同季度构成时间序列,而每个季度调查的样本构成横截面,又因为储户人群都是流动的,所以每个季度调查的样本是不同。
面板数据:横截面数据集中每个样本的一个时间序列组成。