生存分析
生存分析介绍
生存分析是一种将生存时间和生存结果综合起来对数据进行分析的一种统计分析方法。
例如,因为无法在短时间内评价慢性病患者的预后,所以通常情况下不会简单地采用治愈率、病死率等指标,而是对患者进行随访,分析一定的时间之后患者生存或死亡的情况,这种将事件的结果和出现这一结果所经历的时间结合起来分析的方法,称为生存分析。
生存分析的用途
生存分析的应用非常广泛,可以用在很多不同的领域。这里的“生存时间”不是专指人或动物的生命延续时间,而是泛指某个事件发生前的延续等待时间。
- 职员在公司任职的时间
- 产品的寿命
- 晋升所需时间
- 客户忠诚度研究
生存分析研究的主要内容
1.描述生存过程 :研究人群生存状态的规律、研究生存率曲线的变动趋势等。
2.生存过程影响因素分析及结局预测 :了解哪些因素会影响生存过程、对生存结局加以预测。
基本概念
- 失效事件
也被称为“死亡”事件或失败事件,表示观察到随访对象出现了我们所规定的结局。失效事件的认定是生存分析的基石,必须绝对准确。失效事件应当由研究目的而决定,并非一定是死亡(如研究灯泡寿命),而死亡也并非一定是发生了失效事件(如肺癌患者死于其他疾病)。
- 截尾值
终止随访不是由于失效事件发生,而是无法继续随访下去,常用 符号“+”表示。生存但中途失访:包括拒绝访问、失去联系或中途退出试验,或者死于其它与研究无关的原因:如肺癌患者死于心机梗塞、自杀或因车祸死亡,终止随访时间为死亡时间。
- 生存时间
随访观察持续的时间,按失效事件发生或失访前最后一次的随访时间记录,常用符号t表示。根据失效事件的定义不同,生存时间可以是各种类型的指标,甚至根本就不是“时间”。如设备从开始到失效,汽车的累积行驶里程。
- 生存概率
指某个观察对象活过t时刻的概率,常用p(x>t)表示。根据不同随访资料的失效事件,生存率可以是缓解率、有效率等。
生存分析的方法
生存分析的常用单因素(或少数因素)的分析有寿命表法、Kaplan-Meier法,对应的多因素模型则常用Cox回归模型。
寿命表分析
寿命表(Life Table) 也译生命表,据特定人群年龄组死亡率编制的一种统计表。
【案例】 某医院对114例男性胃癌患者术后生存情况进行11年随访,据此计算男性胃癌患者术后各年的生存率。
操作步骤:
①加载数据
由于数据已经进行过频数变量,形成的变量是人数,因此需要先对数据进行个案加权。
②【数据】-->【个案加权】
③选择频数变量,点击确定
④【分析】-->【生存分析】-->【寿命表】
⑤ 选择时间、状态,填写时间间隔
对患者进行11年随访,因此显示时间间隔是0~10,步长1。点击【定义事件】
单值框内输入单值1,即值为1的为完整数据,其他的为缺失数据。
⑥点击【选项】
⑦ 点击【确定】,在输出窗口查看统计结果
时间间隔开始时间:寿命表记录生存时间段的下限,例如0表示 0~1年;
进入时间间隔的数目:活到该时间段下限的人数,例如106表示有106人活过1年;
时间间隔内撤销的数目:该时间段内删失的人数,例如5表示有5人在0~1年时间内失去联系;
有风险的数目:表示有效观察人数或校正人数,等于进入该时间段的观察人数减去删失人数的一半,例如111.5=114-5/2。
终端事件数:出现所关心事件的人数,即死亡人数,例如在0~1 年内,有3人死亡。
终止比例:出现死亡的患者比例,即每个时间段内的死亡概率,例如,0.03≈3/111.5。
生存分析比例:每个时间段内的生存概率,等于1-死亡概率(终止比例),例如0.97=1-0.03。
期末累积生存分析比例:至本时间段上限的生存函数估计值,由之前时间段的生存分析比例相乘,例如0.89≈0.97*0.91。
概率密度:所有进入实验的病人在时点t后,单位时间内死亡概率的估计值。
风险率:活过时点t的癌症病人,在时点t后,单位时间内死亡概率的估计值。
从生存分析函数中可以看到:横轴是术后年数,竖轴是累积生存分析,很明显,随着术后年数增加,个体的生存率越来越低,所以是一个下降的线形走势。