COX回归模型,又称“比例风险回归模型(proportional hazards model,简称Cox模型)”,是由英国统计学家D.R.Cox(1972)年提出的一种半参数回归模型。该模型以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型。由于上述优良性质,该模型自问世以来,在
医学随访研究中得到广泛的应用,是迄今生存分析中应用最多的多因素分析方法。
基本概念
在介绍Cox回归模型之前,先介绍几个有关的概念。
1.生存函数具有变量的观察对象的生存时间大于某时刻的概率,
2. 死亡函数具有变量的观察对象的生存时间不大于某时刻的概率,
称为死亡函数。死亡函数的实际意义是当观察随访到时刻的累积死亡率。
3. 死亡密度函数具有变量X的观察对象在某时刻t的瞬时死亡率,称为死亡密度函数。
4. 危险率(风险)函数具有变量X,且生存时间已达到的观察对象在时刻的瞬时死亡率,
基本原理
生存分析的主要目的在于研究变量X与观察结果即
生存函数(累积生存率) 之间的关系。当 受很多因素影响,即 为向量时,传统的方法是考虑回归方程——即诸变量 对 的影响。但由于生存分析研究中的数据包含删失数据。且时间变量t通常不满足正态分布和方差齐性的要求,这就造成了用一般的回归方法研究上述关系的困难。
Cox回归模型的基本形式
D.R.Cox提出了Cox比例风险回归模型,它不是直接考察 与X的关系,而是用 作为因变量,模型的基本形式为:
式中, 为自变量的
偏回归系数,它是须从样本数据作出估计的参数; 是当X向量为0时, 的基准危险率,它是有待于从样本数据作出估计的量。公式(1)简称为Cox回归模型。
由于Cox回归模型对 未作任何假定,因此Cox回归模型在处理问题时具有较大的灵活性;另一方面,在许多情况下,我们只需估计出参数 (如因素分析等),即使在 未知的情况下,仍可估计出参数 。这就是说,Cox回归模型由于含有 ,因此它不是完全的参数模型,但仍可根据公式(1)作出参数 的估计,故Cox回归模型属于半参数模型。
公式(1)可以转化为:
Cox回归模型的假定
1. 比例风险假定 各危险因素的作用不随时间的变化而变化,即 不随时间的变化而变化。因此,公式(1)又称为比例风险率模型(PH Model)。这一假定是建立Cox回归模型的前提条件。
2.对数线性假定 模型中的协变量应与对数风险比呈线性关系,如公式(2)。
Cox回归模型中偏回归系数的意义
若 是非暴露组观察对象的各因素取值, 是暴露组观察对象的各因素取值,由公式(3)就可以求出暴露组对非暴露组的
相对危险度RR。
由公式(2)可见,模型中偏回归系数 的流行病学含义是在其他协变量不变的情况下,协变量 每增加一个测定单位时所引起的相对危险度的自然对数的改变量。即
式中, 分别表示在不同情况下的取值。当协变量 分别取1和0时,其对应的 为
从公式(1)和公式(4)可以看出有如下关系:
若 ,则各 取值越大时, 的值越大,即 为危险因素。
若 ,则各 的取值对 的值没有影响,即 为无关因素。
若 ,则各 取值越大时, 的值越小,即 为保护因素。
假设检验
Cox回归模型中的偏回归系数可以通过建立偏似然函数,利用Newton-Raphson迭代法求得。其他自变量不变的情况下,变量 每增加一个单位,相对危险度 的 可信区间为:
式中为的标准误。
对于回归模型的假设检验通常采用
似然比检验、Wald检验和记分检验,其
检验统计量均服从分布,其自由度为模型中待检验的自变量个数。一般说来,Cox回归系数的估计和模型的假设检验计算量较大,通常需利用计算机来完成相应的计算。
相关事件
提出“COX回归模型”的著名统计学家David Cox去世。