【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享-3

简介: 【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享

【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享-2

https://developer.aliyun.com/article/1488339


中位生存率常常被错误估计

总结165例死亡患者的中位生存时间

##   median_surv
## 1         226
  • 当 忽略被检查患者也有助于随访的事实时, 会得出错误的估计中值生存时间226天。
  • 正确的中位生存时间估计是310天。

忽略删失对中位数生存率的影响

  • 忽略删失会造成人为降低的生存曲线,因为排除了受删失患者贡献的随访时间(紫色线)
  • 数据的真实生存曲线以lung蓝色显示,以进行比较

image.png

比较各组之间的生存时间

  • 我们可以使用对数秩检验进行组间重要性检验
  • 对数秩检验在整个随访时间内平均权衡观察结果,是比较组间生存时间的最常用方法
  • 根据研究问题,有些版本可能会更重视早期或后期的随访,可能更合适

我们使用 函数获得对数秩p值。例如,我们可以根据lung数据中的性别测试是否存在生存时间差异

## Call:
## 
##         N Observed Expected (O-E)^2/E (O-E)^2/V
## sex=1 138      112     91.6      4.55      10.3
## sex=2  90       53     73.4      5.68      10.3
## 
##  Chisq= 10.3  on 1 degrees of freedom, p= 0.001

从survdiff对象中提取信息

从 结果中提取p值

1 - pchisq(sd$chisq, length(sd$n) - 1)
## \[1\] 0.001311165

返回格式化的p值

## \[1\] 0.001

Cox回归模型

我们可能想量化单个变量的效应大小,或者将多个变量包括在回归模型中以说明多个变量的效应。

Cox回归模型是半参数模型,可用于拟合具有生存结果的单变量和多变量回归模型。

image.png

h(t)h(t):危险或事件发生的瞬时速率h0(t)h0(t):基本基准危险

该模型的一些关键假设:

  • 非信息删失
  • 比例危险

_注意_:也可以使用用于生存结果的参数回归模型,但是本培训将不涉及这些模型。

我们可以使用coxph函数拟合生存数据的回归模型,该函数Surv在左侧使用一个对象,而在右侧具有用于回归公式的标准语法R

## Call:
## 
##        coef exp(coef) se(coef)      z       p
## sex -0.5310    0.5880   0.1672 -3.176 0.00149
## 
## Likelihood ratio test=10.63  on 1 df, p=0.001111
## n= 228, number of events= 165

格式化Cox回归结果

我们可以看到输出的整洁版本broom

image.png

或使用

image.png

危险比

  • 来自Cox回归模型的关注数量是危险比(HR)。HR表示在任何特定时间点两组之间的危险比率。
  • HR被解释为感兴趣事件中那些仍处于事件风险中的事件的瞬时发生率。
  • 如果您有一个回归参数ββ(来自estimate我们的列coxph),则HR = 经验值(β)经验值⁡(β)。
  • HR <1表示死亡危险降低,而HR> 1表示死亡危险增加。
  • 因此,我们的HR = 0.59意味着在任何给定时间,女性死亡的人数大约是男性的0.6倍。

image.png

第2部分:地标分析和时间相关协变量

在第1部分中,我们介绍了使用对数秩检验和Cox回归来检验感兴趣的协变量与生存结果之间的关联。

示例:肿瘤反应

示例:从治疗开始就测量总生存期,关注的是对治疗的完全反应与生存之间的关联。

  • Anderson等人(JCO,1983)描述了在这种情况下,为什么传统方法(如对数秩检验或Cox回归)偏向于响应者,并提出了划时代的方法。
  • 界标方法中的零假设是,从界标生存的过程不依赖于界标的响应状态。
Anderson, J., Cain, K., & Gelber, R. (1983). Analysis of survival by tumor response. Journal of Clinical Oncology : Official Journal of the American Society of Clinical Oncology, 1(11), 710-9.

其他例子

癌症研究中可能尚未关注的其他一些可能的协变量包括:

  • 移植失败
  • 移植物抗宿主病
  • 第二次切除
  • 辅助治疗
  • 合规
  • 不良事件

示例数据

137例骨髓移植患者的数据。变量包括:

  • T1 死亡时间或最后一次随访时间(天)
  • delta1死亡指标;1死0活
  • TA 急性移植物抗宿主病的时间(以天为单位)
  • deltaA急性移植物抗宿主病指标;1-发展为急性移植物抗宿主病,0-从未发展为急性移植物抗宿主病

让我们加载数据以供整个示例使用

地标法

  1. 选择基线之后的固定时间作为界标时间。_注意_:应在检查数据之前根据临床信息进行操作
  2. 那些人群的子集至少跟踪到里程碑时间。_注意_:请务必在地标时间之前报告由于关注或删失事件而排除的号码。
  3. 计算具有里程碑意义的时间,并应用传统的对数秩检验或Cox回归

BMT数据感兴趣的是急性移植物抗宿主病(aGVHD)和存活之间的关联。但是aGVHD是在移植后进行评估的,这是我们的基线,也就是后续随访的开始时间。

步骤1选择地标时间

通常,aGVHD发生在移植后的前90天内,因此我们使用90天的界标。

人们对急性移植物抗宿主病(aGVHD)与生存之间的关系感兴趣。但是aGVHD是在移植后进行评估的,这是我们的基线,也就是后续随访的开始时间。

第2步:至少跟踪到里程碑时间之前的人群的子集

这将我们的样本量从137减少到122。

  • 所有15位被排除的患者均在90天里程碑之前死亡

人们对急性移植物抗宿主病(aGVHD)与生存之间的关系感兴趣。但是aGVHD是在移植后进行评估的,这是我们的基线,也就是后续随访的开始时间。

步骤3根据地标计算随访时间,并应用传统方法。

image.png

使用BMT数据的Cox回归界标示例

在Cox回归中, 可以使用中的subset选项coxph来排除那些在标志性时间内没有被随访的患者

image.png

时间相关协变量

界标分析的替代方法是合并时间相关的协变量。这可能更适合

  • 协变量的值随时间变化
  • 没有明显的里程碑时间

时间相关协变量数据设置

对时间相关协变量的分析R需要建立特殊的数据集。

BMT数据中没有ID变量,这是创建特殊数据集所必需的,因此请创建一个名为的变量my_id

tmerge函数与event和函数一起使用tdc可创建特殊数据集。

  • tmerge 为每个患者的不同协变量值创建一个具有多个时间间隔的长数据集
  • event 创建新的事件指示器,以与新创建的时间间隔一致
  • tdc 创建与时间相关的协变量指标,以与新创建的时间间隔一致

时间相关协变量-单例患者

要了解其作用,让我们看一下前5名患者的数据。

##   my_id   T1 delta1   TA deltaA
## 1     1 2081      0   67      1
## 2     2 1602      0 1602      0
## 3     3 1496      0 1496      0
## 4     4 1462      0   70      1
## 5     5 1433      0 1433      0

这些相同患者的新数据集

##   my_id   T1 delta1 id tstart tstop death agvhd
## 1     1 2081      0  1      0    67     0     0
## 2     1 2081      0  1     67  2081     0     1
## 3     2 1602      0  2      0  1602     0     0
## 4     3 1496      0  3      0  1496     0     0
## 5     4 1462      0  4      0    70     0     0
## 6     4 1462      0  4     70  1462     0     1
## 7     5 1433      0  5      0  1433     0     0

时间相关协变量-Cox回归

现在,我们可以分析这个时间依赖性协照常使用Cox回归与coxph

image.png

摘要

我们发现,使用标志性分析或时间依赖性协变量,急性移植物抗宿主病与死亡无显着相关性。

通常,人们会希望使用地标分析对单个协变量进行可视化, 使用带有时间相关协变量的Cox回归进行单变量和多变量建模。


【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享-4

https://developer.aliyun.com/article/1488344

相关文章
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
2月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
58 3
|
7月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
3月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。
|
4月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
4月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
4月前
|
机器学习/深度学习 数据采集
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证
上述介绍仅为简要概述,每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测,模型选择与调参是至关重要的步骤,并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中,可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。
91 3
|
7月前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
7月前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)