从本篇开始,学堂将推出《生存分析(survival analysis)》系列推文,本篇的内容是生存曲线(survival curve),它描述的是生存率随时间变化的走势图,通常呈阶梯状递减趋势。生存曲线可以直接从生存数据(survival data)中计算得来,它也是进行生存分析的基础。

本系列使用的主要工具包是survival

library(survival)

本篇目录如下:

  • 1 概念与术语
  • 1.1 主体
  • 1.2 事件、生存时间
  • 1.3 删失
  • 1.4 生存数据
  • 1.5 风险集
  • 2 生存曲线(Ⅰ)
  • 2.1 Kaplan-Meier曲线
  • 2.2 手动计算生存率
  • 2.3 survfit函数计算生存率
  • 2.4 绘制生存曲线

1 概念与术语

在介绍生存曲线之前,先介绍几个与生存分析相关的概念与术语,以方便后文表述。

1.1 主体

其实这个算不上专业术语,只是学堂君在阅读英文文献时在这踩了坑,所以记录一下。它对应的英文是subject,学堂君一度将它翻译成“主题”,认为类似于研究事件,但是发现有很多地方读不通,最后才反应过来应该是“主体”,也就是受访者或者说样本。

1.2 事件、生存时间

生存分析是一种时间事件分析(time to event analysis),关注的是“事件”对于“主体”所发生的“时间点”。生存时间(survival time)是指主体从进入“风险”(risk)期直至“死亡”(death)的持续时间。在这里,“死亡”只是一个具体化的描述,可以泛指一切研究事件(event)的结果,事件发生即表示主体“死亡”。由于一些事件可以重复发生,如住院等,因此主体是可以多次“死亡”的。

1.3 删失

“删失”对应的英文是censoring。删失样本是指在受试期(不等同于研究期)结束后仍未“死亡”的主体,属于不完整数据(incomplete data)或删失数据(censoring data)。删失数据是研究数据的重要组成部分,不能直接删除,它对生存率的计算有直接的影响,2.2节会具体阐述。常见的删失有下面几种情况:

  • 右删失

右删失(right censored)属于正常删失,是指研究期结束了,但主体仍为“死亡”的情况。主体未中途退出受访,其受访期结束是由研究者决定结束访问导致的,符合研究者的意愿。

  • 左删失

左删失(left censored)是指受访者由于自身原因,并在未“死亡”的情况下中途退出受访,导致研究者无法得到其“死亡”时间的情况。

  • 区间删失

区间删失(interval censored)是指由于研究者不能连续访问,而只能在几个离散的时间点进行访问,导致只知道受试者“死亡”的时间区间范围,而不知道具体时间的情况。

1.4 生存数据

生存数据(survival data)拥有特定的格式,因事件类型和事件发生次数而异,如单类型单事件、单类型多事件、多类型单事件、多类型多事件。其中,单类型单事件是最“古典”(classic)的生存分析,它对应的生存数据常用(, )对表示,其中表示主体标识,表示时间点,为0/1变量,其中0表示主体删失,1表示主体“死亡”。

survival工具包中的ovarian是一个示例数据:

head(ovarian)

##   futime fustat     age resid.ds rx ecog.ps
## 1     59      1 72.3315        2  1       1
## 2    115      1 74.4932        2  1       1
## 3    156      1 66.4658        2  1       2
## 4    421      0 53.3644        2  2       1
## 5    431      1 50.3397        2  1       1
## 6    448      0 56.4301        1  1       2

data <- ovarian

其中,futime对应,fustat对应,其余为协变量。数据的第一行表示主体#1在时“死亡”;第四行表示主体#4在时删失。

1.5 风险集

风险集(risk set)是计算生存率(survival probability)的关键指标。使用表示主体在时间时仍处于受访状态,也称处于“风险”状态;当主体在时“死亡”或删失时,则为该主体受访的最后时间点(endpoint),即而。那么时处于风险状态的人数,即风险集就是,包括在时仍然存活的主体和刚好“死亡”或删失的主体。

另外,使用表示刚好在时“死亡”的人数。由于删失样本的存在,当期风险集减去当期死亡数并不一定等于下期风险集,即。