个或多个总体比例的相等性的检验

比例基于 Tessellation_统计学

比例基于 Tessellation_比例基于 Tessellation_02

比例基于 Tessellation_正态分布_03

例子:

比例基于 Tessellation_概率论_04

比例基于 Tessellation_正态分布_05

比例基于 Tessellation_概率论_06

比例基于 Tessellation_概率论_07

比例基于 Tessellation_比例基于 Tessellation_08

比例基于 Tessellation_统计学_09

比例基于 Tessellation_概率论_10


三个或多个总体比例相等性的卡方检验的一般步骤

比例基于 Tessellation_统计学_11

多重比较方法
我们使用卡方检验得到三个汽车车主总体的总体比例不全相等的结论。因此,有些总体比例之间存在差异,而且研究表明雪佛兰羚羊、福特 Fusion和本田雅阁车主中顾客品牌忠诚度不全相同。为了说明总体比例之间存在的差异,我们先计算三个样本比例。

比例基于 Tessellation_正态分布_12

由于卡方检验表明总体比例不全相等,因此,我们尝试性地确定哪些总体比例之间存在差异是合理的。为此,我们依靠用于对所有成对的总体比例进行统计检验的多重比较方法。接下来,我们讨论一种多重比较方法—著名的 Marascuilo方法( Marascuilo procedure)。对所有成对的总体比例,这是一种相对简单的方法。我们将用汽车顾客品牌忠诚度的研究来说明这种多重比较检验方法所需要的计算。

首先,我们计算研究中每一对总体的样本比例之差的绝对值。在三个汽车品牌忠诚度研究的总体中,我们比较总体1和2、总体1和3以及总体2和3的样本比例如下:

比例基于 Tessellation_概率论_13

第2步,我们选择显著性水平,并用下列表达式计算每一对比较值相对应的临界值。

比例基于 Tessellation_概率论_14

比例基于 Tessellation_数据分析_15

比例基于 Tessellation_正态分布_16


独立性检验

卡方检验的一个重要应用是利用样本数据检验两个分类变量的独立性,为了这个检验,我们从一个总体中抽取样本,并记录两个分类变量的观测值。我们通过对分类变量1和分类变量2的每一对组合统计回答的个数来汇总数据。检验的原假设是两个分类变量独立。因此,这种检验被称为独立性检验( test of independence)。例子:

比例基于 Tessellation_概率论_17

比例基于 Tessellation_比例基于 Tessellation_18

比例基于 Tessellation_数据分析_19

比例基于 Tessellation_数据分析_20

比例基于 Tessellation_统计学_21

比例基于 Tessellation_比例基于 Tessellation_22


汇总

比例基于 Tessellation_比例基于 Tessellation_23

拟合优度检验
在本节,我们使用卡方检验来确定一个被抽样的总体是否服从某个特殊的概率分布。首先,我们考虑总体服从一个历史的多项概率分布的情形,并使用拟合优度检验来确定新的样本数据的总体分布与历史的分布相比较是否显示存在改变。然后,我们考虑假设总体服从正态概率分布的情形。在这种情况下,我们利用分布拟合检验来确定样本数据是否显示正态概率分布的假设适当还是不适当。这两个检验都被称为拟合优度检验( goodness of fit test)

多项概率分布
总体中的每一个个体被分配到三个或多个类中的一个且仅一个。作为一个例子,考虑Scott市场调查公司进行的市场份额研究。在过去的一年中,公司A的市场份额稳定在30%,公司B稳定在50%,公司C稳定在20%。因为每一名顾客可以按照购买这些公司的产品来进行分类,因此我们得到一个三种可能结果的多项概率分布。三个结果中每一种的概率如下:

比例基于 Tessellation_正态分布_24

比例基于 Tessellation_正态分布_25

比例基于 Tessellation_数据分析_26

比例基于 Tessellation_比例基于 Tessellation_27


汇总:

比例基于 Tessellation_比例基于 Tessellation_28


正态分布

正态分布的拟合优度检验也是基于卡方分布的应用,具体地,在总体服从正态分布的假设下,将样本数据的若干类别的观察频数同期望频数进行比较。因为正态分布是连续型的,我们必须修正定义类别的方式以及计算期望频数的方法。例子:

比例基于 Tessellation_正态分布_29

点估计值

比例基于 Tessellation_概率论_30

假设检验

比例基于 Tessellation_数据分析_31

由于正态分布是连续型的,我们必须采取不同的方法来定义类别。我们需要利用测验分数的区间来定义类别。
回顾以上关于每个区间或类别中期望频数至少为5的法则。我们定义测验分数的类别时,也必须使每一类的期望频数至少为5.由于样本容量为50,一种方法是将正态分布划分为10个等概率区间。由于样本容量为50,我们可以期望每个区间或类别中有5个结果,关于期望频数至少为5的法则也满足了。

比例基于 Tessellation_比例基于 Tessellation_32

我们进一步考察计算类别边界的方法。当假定为正态分布时,标准正态概率表可以用于确定这些边界。首先考虑最低10%的测验分数的分界值。根据标准正态分布表,我们得到该测验分数对应的z值为-1.28.因此,分数x=68.42-1.28×10.41=55.10是最低10%的分界值。对于最低20%的情形,我们得到z=-0.84,于是x=68.42-0.84×10.41=59.68.用这种方法处理整个正态分布,得到下列测验分数值。

比例基于 Tessellation_概率论_33

得到期望频数与观察频数

比例基于 Tessellation_比例基于 Tessellation_34

计算卡方得到卡方 = 7.2

比例基于 Tessellation_统计学_35

利用拟合优度检验中计算自由度的法则,我们得到自由度为k-p-1=10-
2-1=7,这里有k=10个类别以及由样本估计的p=2个参数(均值与标准差)。

汇总:

比例基于 Tessellation_统计学_36

比例基于 Tessellation_正态分布_37