忙里偷闲,系统的回顾下统计学相关的知识,并将形成系列总结,第一次简单的总结下随机变量的数字特征。
随机变量的数字特征基本上分为三类:
1、度量变量分布的集中趋势:主要包括数学期望(均值),中位数,众数等。
2、度量变量分布的离散性:主要包括方差和标准差。
3、度量两个变量的相关性:主要包括协方差和相关系数。
先说第一类,因为是回顾,所以具体的每个度量的定义不再叙述,有必要的时候再简单的说一下。第一类是度量变量分布的集中趋势,但是究竟什么时候用哪个指标衡量变量的集中趋势呢,一般来说,定类变量使用众数,所谓定类变量就是说该变量表示的是类别。定序变量一般使用中位数,定序变量是指序号。定距变量一般使用均值或者中位数。
第二类是度量变量分布的离散性的数字特征,一般为:方差和标准差。方差被定义为随机变量对其均值的期望距离,通俗的说法就是距离的期望。方差较小说明变量的分布较为集中,反之则较为离散。接着就是标准差了,引出标准差是因为方差的量纲和变量不一样,刚好是变量量纲的平方,自然而然的就想到将方差开方,这就是标准差。同样是度量变量的离散程度的。
这里要多句嘴的是,衡量变量的离散程度的指标还有一些非主流的,不常用到但很重要的几个指标:
极差/全距:range=max(x)-min(x)
极差率:I=max(x)/min(x)
变异系数:CV=SD(x)/E(x)
基尼系数:该算法较复杂,但是大家应该都很熟悉,这个其实和新闻上常说的衡量贫富差距的基尼指数是一个东东。
泰尔系数:该系数的计算也较复杂,这里简单粘贴一些别处的:
泰尔熵标准(Theil’s entropy measure)或者泰尔指数(Theil index) 作为衡量个人之间或者地区间收入差距(或者称不平等度)的指标,这一指数经常被使用。泰尔熵标准是由泰尔(Theil,1967)利用信息理论中的熵概念来计算收入不平等而得名。假设U是某一特定事件A将要发生的概率,P(A)=U。这个事件发生的信息量为E(U)肯定是U的减函数。用公式表达为:E(U)=log(1/u)。当有n个可能的事件1,2,…,n时,相应的概率假设分别为U1,U2,…,Un,Ui≥0,并且∑Ui=1。 熵或期望信息量可被看作每一件的信息量与其相应概率乘积的总和: E(U)= ∑Uih(Ui)= ∑Ui log(1/Ui) 显然,n种事件的概率Ui越趋近于(1/n),熵也就越大。在物理学中,熵是衡量无序的标准。如果Ui被解释为属于第i单位的收入份额,E(U)就是一种反映收入分配差距不平等的尺度。收入越平均,E(U)就越大。如果绝对平均,也就是当每个Ui都等于(1/n)时,E(U)就达到其最大值logn。泰尔将logn—E(U)定义为不平等指数——也就是泰尔熵标准: T=logn—E(U)= ∑ui*lognui 用泰尔熵指数来衡量不平等的一个最大优点是,它可以衡量组内差距和组间差距对总差距的贡献。泰尔熵标准只是普通熵标准(generalized entropy measures)的一种特殊情况。当普通熵标准的指数C=0时,测量结果即为泰尔熵指数。取C=0的优势在于分析组内、组间差距对总差距的解释力时更加清楚。 泰尔熵指数和基尼系数之间具有一定的互补性。基尼系数对中等收入水平的变化特别敏感。泰尔熵T指数对上层收入水平的变化很明显,而泰尔熵L和V指数对底层收入水平的变化敏感。
第三类为度量两个变量相关性的指标,一般为协方差和相关系数。先说协方差,协方差定义两个变量的相关程度,其定义为:
Cov(X,Y)=E(X*Y)-E(X)*E(Y),协方差大于0表示两个变量正相关,等于0表示不相关,小于0则表示负相关。很容易可以发现,协方差表示的缺点,就是它的单位,发现协方差的值是与X,Y取值的单位有关的。使用起来很不方便,而且变量之间相关度没有办法进行比较,于是与单位无关的相关系数则应运而生,相关系数的定义为:ρ=Cov(X,Y)/(SD(X)*SD(Y))
最后说一下一个很古老的话题,相关与独立
相关是指两个随机变量之间的线性关联程度,独立是指两个变量之间的一般关联程度
若两个变量相互独立,其相关系数一定为0
若两个变量的相关系数为0,它们不一定独立