差异性分析原理:卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

卡方检验的计算公式为:

 

机器学习差异性度量公式 差异性分析公式_线性代数

其中,A为实际值,T为理论值;即:

机器学习差异性度量公式 差异性分析公式_机器学习差异性度量公式_02

x2用于衡量平台使用前后各指标变化的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:

1. 使用前与使用后偏差的绝对大小(由于平方的存在,差异是被放大的);

2. 差异程度与理论值的相对大小。

独立四格表资料检验

四格表资料的卡方检验用于进行两个率或两个构成比的比较。

1. 专用公式:

若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d),(或者使用拟合度公式)。

自由度v=(行数-1)(列数-1)=1

2. 应用条件:

要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但有1=<理论频数<5时,卡方值需要校正,当样本含量小于40或理论频数小于1时只能用确切概率法计算概率。

示例:


某指标阳性数

某指标阴性数

阳性率

平台使用前

a

b

a/(a+b)*100%

平台使用后

c

d

c/(c+d)*100%

这里需要用到一个自由度的概念,自由度等于V = (行数 - 1) * (列数 - 1),对四格表,自由度V = 1。对V = 1,平台使用和某指标变化情况95%概率不相关的卡方分布的临界概率是:3.84。假如,卡方值X2>3.84,说明差异具有统计学意义,平台使用和测量指标是相关的。

例如:选取VTE发生例数为测量指标,统计质控平台实施前、后VTE发生的患者数量以及当期未发生VTE的患者数量,进而计算卡方x2值,用来测算质控平台对VTE防控的有效性。


VTE阳性数

某指标阴性数

阳性率

平台使用前

55

5100

a/(a+b)*100%

平台使用后

33

5150

c/(c+d)*100%

平台使用前:VTE的阳性率P1 = 55/(55+5100)=1.07%

平台使用后:VTE的阳性率P2 = 33/(33+5150)=0.64%

经计算得卡方x2 = 5.67

经比较,卡方值X2>3.84,说明差异有统计学意义,且P1>P2,说明质控平台使用后能够有效改善VTE的发生情况。