从本篇开始,学堂将推出《生存分析(survival analysis)》系列推文,本篇的内容是生存曲线(survival curve),它描述的是生存率随时间变化的走势图,通常呈阶梯状递减趋势。生存曲线可以直接从生存数据(survival data)中计算得来,它也是进行生存分析的基础。
本系列使用的主要工具包是survival
:
library(survival)
本篇目录如下:
- 1 概念与术语
- 1.1 主体
- 1.2 事件、生存时间
- 1.3 删失
- 1.4 生存数据
- 1.5 风险集
- 2 生存曲线(Ⅰ)
- 2.1 Kaplan-Meier曲线
- 2.2 手动计算生存率
- 2.3 survfit函数计算生存率
- 2.4 绘制生存曲线
1 概念与术语
在介绍生存曲线之前,先介绍几个与生存分析相关的概念与术语,以方便后文表述。
1.1 主体
其实这个算不上专业术语,只是学堂君在阅读英文文献时在这踩了坑,所以记录一下。它对应的英文是subject,学堂君一度将它翻译成“主题”,认为类似于研究事件,但是发现有很多地方读不通,最后才反应过来应该是“主体”,也就是受访者或者说样本。
1.2 事件、生存时间
生存分析是一种时间事件分析(time to event analysis),关注的是“事件”对于“主体”所发生的“时间点”。生存时间(survival time)是指主体从进入“风险”(risk)期直至“死亡”(death)的持续时间。在这里,“死亡”只是一个具体化的描述,可以泛指一切研究事件(event)的结果,事件发生即表示主体“死亡”。由于一些事件可以重复发生,如住院等,因此主体是可以多次“死亡”的。
1.3 删失
“删失”对应的英文是censoring。删失样本是指在受试期(不等同于研究期)结束后仍未“死亡”的主体,属于不完整数据(incomplete data)或删失数据(censoring data)。删失数据是研究数据的重要组成部分,不能直接删除,它对生存率的计算有直接的影响,2.2节会具体阐述。常见的删失有下面几种情况:
- 右删失
右删失(right censored)属于正常删失,是指研究期结束了,但主体仍为“死亡”的情况。主体未中途退出受访,其受访期结束是由研究者决定结束访问导致的,符合研究者的意愿。
- 左删失
左删失(left censored)是指受访者由于自身原因,并在未“死亡”的情况下中途退出受访,导致研究者无法得到其“死亡”时间的情况。
- 区间删失
区间删失(interval censored)是指由于研究者不能连续访问,而只能在几个离散的时间点进行访问,导致只知道受试者“死亡”的时间区间范围,而不知道具体时间的情况。
1.4 生存数据
生存数据(survival data)拥有特定的格式,因事件类型和事件发生次数而异,如单类型单事件、单类型多事件、多类型单事件、多类型多事件。其中,单类型单事件是最“古典”(classic)的生存分析,它对应的生存数据常用(, )对表示,其中表示主体标识,表示时间点,为0/1变量,其中0表示主体删失,1表示主体“死亡”。
survival
工具包中的ovarian
是一个示例数据:
head(ovarian)
## futime fustat age resid.ds rx ecog.ps
## 1 59 1 72.3315 2 1 1
## 2 115 1 74.4932 2 1 1
## 3 156 1 66.4658 2 1 2
## 4 421 0 53.3644 2 2 1
## 5 431 1 50.3397 2 1 1
## 6 448 0 56.4301 1 1 2
data <- ovarian
其中,futime
对应,fustat
对应,其余为协变量。数据的第一行表示主体#1在时“死亡”;第四行表示主体#4在时删失。
1.5 风险集
风险集(risk set)是计算生存率(survival probability)的关键指标。使用表示主体在时间时仍处于受访状态,也称处于“风险”状态;当主体在时“死亡”或删失时,则为该主体受访的最后时间点(endpoint),即而。那么时处于风险状态的人数,即风险集就是,包括在时仍然存活的主体和刚好“死亡”或删失的主体。
另外,使用表示刚好在时“死亡”的人数。由于删失样本的存在,当期风险集减去当期死亡数并不一定等于下期风险集,即。