生存分析基本概念、常见方法、评价指标
本文主要介绍生存分析所需要解决的问题,常见的基本概念、解决方法,帮助快速理解
一、问题背景
生存分析(Survival analysis)是一种统计方法,专门用于研究「事件的一系列发生节点」的时间,常见的事件列表如下:
- (疾病治疗)研究某种病被治疗之后的复发情况,如果复发则被认为“死亡”,如果未复发则被认为是“生存”,在这种情况下关注“复发”的医学规律
- (职业升迁)在职业升迁的研究中,升迁可以看作是死亡、未升迁则可以认为是生存,升迁是终点事件,此时的生存分析主要介绍与升迁有关的规律
生存分析的核心是希望得到下列结果:
- 估计生存曲线,得到不同时间点下的生存结果
- 估计因果效应,包括使用Log rank 检验、广义秩和检验
- 影响因素识别,评价影响生存过程中的影响因素,cox 回归分析
生存分析中面临的困难在于,其观察数据往往具有下列特点:
- 偏态分布,生存时间通常具有明显的偏态分布,有正态分布假设的统计方法不能适用
- 删失(Censoring),研究对象在观察时间内没有事件发生,一种是中途的丢失或者退出,另一种是超过最长的随访时间时间仍然没有发生
二、基本概念
2.1 符号定义
- 生存时间 T 随机变量
- 生存函数,表示个体生存时间超过 t 的概率
- 生存时间累计分布函数,表示个体生存时间不超过 t 的概率
- 生存时间概率密度函数,为上述分布函数的导数
- 风险函数 hazard function,表示个体在活过时间 t 之后的瞬死概率,是回归模型的重要概念
- 累计风险函数 cumulative hazard function,表示累计的死亡风险
2.2 生存曲线
其横轴是时间、纵轴是生存率,核心是希望直观的展示不同时间点上生存率的变化情况,有助于对比不同组别之间的生存差异,同时也可以用于评估潜在的印象因素。常见的曲线包括:
- Kaplan-Meier 曲线,最常见的曲线
- Nelson-Aalen 曲线,非参数生存曲线,绘制的累计风险(Cumulative hazard)随时间变化,直接反映时间发生的累计风险
- Cumulative incidence function 曲线,用于描述在竞争性环境下的生存情况
- Smoothed survival curves,使用平滑的生存曲线,用于减少数据中的噪音或小样本效应引起的不稳定性,可以通过核密度估计的方式进行平滑处理
- Restricted mean survival time:用于描述特定时间段内的平均生存时间,而不是整个生存时间的曲线
2.2 生存曲线常见指标
总体生存期(Overall Survival, OS):任何原因导致的死亡,只关心是否死亡,不考虑死亡的具体原因。用于评估患者在治疗或研究中的总体生存情况,我们一般见到的5年生存率、10年生存率等都是基于OS的。
无进展生存期(Progression-Free Survival, PFS):疾病经过治疗后没有出现进一步恶化的生存期,结局指标是发生疾病进展或死亡。PFS相比OS包含了恶化这个概念,可用于评估治疗的临床效益,也就是对疾病进展的影响,要求对疾病进展的标准进行明确的定义。
无病生存期(Disease-Free Survival, DFS):从随机分组开始至疾病复发或由于疾病进展导致患者死亡的时间。不考虑因何种原因死亡,只关心疾病复发或进展。用于评估治疗对疾病复发或进展的影响,常用于根治性手术治疗或放疗后的辅助治疗,比如乳腺癌术后内分泌疗法等,要求对复发的标准进行明确的定义。
疾病进展时间(Time to Progress, TTP):从开始到肿瘤发生任意进展或者进展前死亡的时间。TTP相比PFS只包含了肿瘤的恶化,不包含死亡。
疾病特异性生存期(Disease-Specific Survival, DSS):结局指标为由特定疾病导致的死亡,只关心特定疾病引起的死亡,而不考虑其他原因。反映特定疾病的临床获益,但患者的死因可能不容易明确。
无事件生存期(Event Free Survival, EFS):指从开始到发生任何事件的时间,这里的事件包括肿瘤进展、死亡、治疗方案的改变、致死副作用等(主要用于病程较长的恶性肿瘤或该实验方案危险性高等情况下)
三、常见方法
3.1 描述性方法
KM 生存曲线获取方法
3.2 检验方法
比较不同组的生存曲线或检验变量对于生存时间的显著性影响
- 对数秩检验 log-rank test
- wilcoxon 检验,对生存时间不均匀的情况有较好的表现
3.3 建模方法
影响因素识别、预测方法
- Cox 比例风险模型
假设指标生存时间的分布模型,可以通过观察数据来估计模型的参数,最终利用假设的分布模型来计算生存率
- 参数模型,通过假设生存时间服从某种特定分布来预测生存概率
- 加速失效时间模型 AFT,研究协变量如何加速或者减缓生存时间
3.4 时间依赖性方法
用于处理协变量或者风险随时间变化的情况
$$
h(t,X) = h_0(t)exp(\beta_1 x_1+…+\beta_n x_n)
$$