COX比例风险模型(cox proportional-hazards model)是英国统计学家D.R.COX于1972年提出的一种半参数回归模型,它可同时研究多个风险因素和事件结局发生情况、发生时间的关系,从而克服了简单生存分析中单因素限制的不足。
01COX回归分析特点
鉴于临床数据的特殊性,COX回归比起一般的多重线性回归和Logistic回归在临床研究中具有更为广泛的应用。为了突出COX回归分析的特点,小编打算将以上三种回归分析方法作一次比较:
COX回归与另外两者的共同点:
(1)分析目的:均可用于研究自变量影响程度,校正混杂因素以及作预测分析。
(2)自变量类型:均可为连续型数值变量,或离散型分类变量,顺序变量。
(3)自变量筛选:均可采用逐步回归方法筛选变量。
COX回归与另外两者的相异点:
(1)因变量类型:COX回归因变量为生存资料(包含二分类结局变量和连续型生存时间变量),而多重线性回归因变量为数值型变量,Logistic回归因变量为分类或顺序型变量。
(2)因变量数据分布:COX回归对于数据分布不作要求,而多重线性回归,Logistic回归则要求数据分布分别近似正态分布和二项分布。
(3)模型参数解释:当自变量增大一个单位时,对于COX回归,改变了风险比HR的自然对数值。对于Logistic回归,改变了优势比OR的自然对数值。而对于多重线性回归,改变的即是Y值本身。
(4)是否允许数据删失:COX回归允许删失值,而多重线性回归,Logistic回归不允许。
知识点补充
在临床研究中,不同类型的因变量数据意味着不同的分析方法,下面是根据数据类型所汇总的常用统计分析方法:
02COX回归分析原理简介
作为生存分析的子项目,COX回归分析的掌握有赖于对生存概率,风险概率,累积风险概率等基础知识的掌握。
在简单生存分析中,由于仅考虑单个影响因素(且为分类型或顺序型变量),故采取的是直接绘制生存曲线并作 Log Rank检验来判断影响因素和生存概率的方法。
而在COX回归分析中,需要同时考虑多个影响因素(可为分类/顺序型变量,也可为数值型变量),故而绘制生存曲线的方式显然不合适,此时就需通过建模的方法来进一步分析。
01COX回归模型推导
在多因素情况下,风险概率的计算需要同时考虑生存时间T和自变量X,因此用 h(t,x) 来表示 t 时刻的风险函数,若设定自变量取值为0,则称 h(t,0) 为 t 时刻的基准风险函数。
固定时间点t,取风险函数和基准风险函数之比可得到t时刻下的风险比值HR,该HR是关于自变量X的函数,且不再依赖于时间T,故称其为比例风险模型
若对上述模型做简单变换,即得到我们常见的COX回归模型(也称COX比例风险模型),其中前半部分为非参数模型,后半部分为参数模型,故COX回归模型为一种半参数模型。
02COX回归模型系数意义
在COX回归模型中,取某一自变量系数为e的幂数,得到的值即为HR值。考虑HR值在临床研究中的实际意义,则当系数大于0(HR>1)时,该自变量为危险因素;当系数小于0(HR<1)时,该自变量为保护因素。
模型系数估计方法为偏似然估计法,本文不作过多介绍,大家感兴趣可查阅相关资料。
03COX回归模型假设条件
(1)比例风险假设:又称PH假设,指模型自变量系数为固定值,不随时间T的变化而变化。
(2)对数线性假设: 模型中对数风险比值Ln(HR)与自变量X呈线性关系。