最近在做重复测量方差分析,真的是走了很多弯路,足足花费了我两周的时间,因此在此写一篇博文,希望能给其他人提供一些参考。

先说建议:

建议使用SPSS,不要使用R,会省很多精力,我用R做了3天,失败了,然后改用SPSS,花了1天就搞定,一方面是因为SPSS确实对用户很友好,而且很简单,另一方面也是因为SPSS有很多的教程,照着用就行了,很方便。

接下来,我首先介绍我的项目背景吧,我是获得了某月一个城市的车辆数随时间的变化情况,然后我希望比较各天的车辆数有没有显著性差异,所以就做了方差分析。

数据类似于下面这样(部分):

spss如何配置R语言 spss与r语言_spss如何配置R语言


其中‘周x’是一个组间因素,因为每个样本只会做一个处理(这边的样本就是该城市运行的车辆),然后时间(7:00-7:15这些)就是组内因素,因为每个样本都在两个或两个以上的处理下进行了测量,这就是一个十分典型的重复测量方差分析了,然后我这边各个处理的样例数目是不一样的,因此说,我做的是非均衡重复测量方差分析。

前期介绍就到这里啦,如果对重复测量方差分析还有疑问的可以网上查一下,其中对于组间因素和组内因素我参考的是这篇文章:https://wenku.baidu.com/view/d17dc3130b4e767f5acfce33.html 然后结合R语言实战中的方差分析一章节基本搞懂了。

先说明下重复测量方差分析要满足的假设:

使用两因素重复测量方差分析(Two-way Repeated Measures Anova)进行分析时,需要考虑5个假设。

假设1:因变量唯一,且为连续变量;
假设2:有两个受试者内因素(Within-Subject Factor),每个受试者内因素有2个或以上的水平。
注:在重复测量的方差分析模型中,对同一个体相同变量的不同次观测结果被视为一组,用于区分重复测量次数的变量被称为受试者内因素,受试者内因素实际上是自变量。
对数据的假设:
假设3:受试者内因素的各个水平,因变量没有极端异常值;
假设4:受试者内因素的各个水平,因变量需服从近似正态分布;
假设5:对于受试者内因素的各个水平组合而言,因变量的方差协方差矩阵相等,也称为球形假设。

然后说一下用R做的过程中踩过的一些吭吧:

1、R语言的资料真的很少,所以我基本上都是参考R语言实战来做的,在重复测量方差分析一节直接讲了怎么做重复测量方差分析,但是并没有对数据进行检验,重复测量方差分析一下子就成功做出来了,很简单,但是我看方差分析都是要做检验的,所以我就去网上搜检验的方法。(详见前述的5个假设)

2、知道了要做这些假设后,基本也就明白了最关键的就是球形假设了,而球形假设最常见的就是使用mauchly test,但是网上搜啊搜,就是没搜到这方面的资料,非常尴尬,没办法,只好直接上R的官方文档了,网址如下:

https://www.rdocumentation.org/packages/stats/versions/3.4.1/topics/mauchly.test

然后要看懂这个还需要以下一些文档:

https://www.rdocumentation.org/packages/stats/versions/3.4.1/topics/SSD

https://www.rdocumentation.org/packages/stats/versions/3.4.1/topics/mauchly.test

由于不是学统计的,对立面的一些术语也不是很理解,所以只有依靠官方给的例子了:

# Lifted from Baron+Li:
# "Notes on the use of R for psychology experiments and questionnaires"
# Maxwell and Delaney, p. 497
reacttime <- matrix(c(
420, 420, 480, 480, 600, 780,
420, 480, 480, 360, 480, 600,
480, 480, 540, 660, 780, 780,
420, 540, 540, 480, 780, 900,
540, 660, 540, 480, 660, 720,
360, 420, 360, 360, 480, 540,
480, 480, 600, 540, 720, 840,
480, 600, 660, 540, 720, 900,
540, 600, 540, 480, 720, 780,
480, 420, 540, 540, 660, 780),
ncol = 6, byrow = TRUE,
dimnames = list(subj = 1:10,
              cond = c("deg0NA", "deg4NA", "deg8NA",
                       "deg0NP", "deg4NP", "deg8NP")))

mlmfit <- lm(reacttime ~ 1)
summary(mlmfit)
SSD(mlmfit)
$SSD
        cond
cond     deg0NA deg4NA deg8NA deg0NP deg4NP deg8NP
  deg0NA  29160  30600  26640  23760  32400  25560
  deg4NA  30600  66600  32400   7200  36000  30600
  deg8NA  26640  32400  56160  41040  57600  69840
  deg0NP  23760   7200  41040  70560  72000  63360
  deg4NP  32400  36000  57600  72000 108000 100800
  deg8NP  25560  30600  69840  63360 100800 122760

$call
lm(formula = reacttime ~ 1)

$df
[1] 9

attr(,"class")
[1] "SSD"

estVar(mlmfit)
        cond
cond     deg0NA deg4NA deg8NA deg0NP deg4NP deg8NP
  deg0NA   3240   3400   2960   2640   3600   2840
  deg4NA   3400   7400   3600    800   4000   3400
  deg8NA   2960   3600   6240   4560   6400   7760
  deg0NP   2640    800   4560   7840   8000   7040
  deg4NP   3600   4000   6400   8000  12000  11200
  deg8NP   2840   3400   7760   7040  11200  13640

### traditional test of intrasubj. contrasts
mauchly.test(mlmfit, X = ~1)

    Mauchly's test of sphericity
    Contrasts orthogonal to
    ~1'


data: SSD matrix from lm(formula = reacttime ~ 1)
W = 0.031084, p-value = 0.04765

### tests using intra-subject 3x2 design
idata <- data.frame(deg = gl(3, 1, 6, labels = c(0,4,8)),
                  noise = gl(2, 3, 6, labels = c("A","P")))
mauchly.test(mlmfit, X = ~ deg + noise, idata = idata)

    Mauchly's test of sphericity
    Contrasts orthogonal to
    ~deg + noise'


data:  SSD matrix from lm(formula = reacttime ~ 1)
W = 0.89378, p-value = 0.6381
mauchly.test(mlmfit, M = ~ deg + noise, X = ~ noise, idata = idata)

    Mauchly's test of sphericity
    Contrasts orthogonal to
    ~noise

    Contrasts spanned by
    ~deg + noise'


data:  SSD matrix from lm(formula = reacttime ~ 1)
W = 0.96011, p-value = 0.8497

简单说明下其中的一些东西吧,输入一个矩阵,一列是一个sample,做一个线性回归,但是这个线性回归~1,其实就是求每一列的均值,形成一个object mlmfit,SSD()函数就是求出一个矩阵,名字叫这玩意:The residual sums of squares and products matrix,我自己翻译为“残差平方和-积和矩阵”也不知对不对,不好意思,没学过这玩意。
estVar(mlmfit)这个函数其实就是求出协方差矩阵啦!然后就可以做球形检验了。
我基本上就是做到这一步,之后就没再做下去了,因为我发现我的例子中不满足球形假设,因此实际上需要做出调整,但是R语言没有给出调整后的值,所以如果坚持要使用R,还需要花费很多时间,所以就放弃了,改用SPSS,因为SPSS可以直接给出球形检验的结果和调整值,十分简单方便。 SPSS的使用在此就不介绍了,因为网上介绍很多很多了

不过,用spss我还是遇到了一个坑,在此提醒大家注意下:
如果重复检测次数过多,也就是组内因素time设的过多时,球形检验那一项的sig会是空的,因为无法计算出来。原因是自由度太多了,但是给的样例又太少了,这样就无法计算出结果,遇到这个问题时,需要减少time的检测次数,或是增加样例数,但是一般增加样例数比较难,所以就减少重复检测次数就行啦,然后就可以成功计算出球形检验值啦!
其他应该没什么需要注意的了,希望大家一切顺利。