【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享-1

简介: 【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享

原文链接:http://tecdat.cn/?p=10278

生存分析(也称为工程中的可靠性分析)的目标是在协变量和事件时间之间建立联系。生存分析的名称源于临床研究,其中预测死亡时间,即生存,通常是主要目标。


生存分析是一种回归问题(人们想要预测一个连续值),但有一个转折点。它与传统回归的不同之处在于,在生存分析中,结果变量既有一个事件,也有一个与之相关的时间值,部分训练数据只能被部分观察——它们是被删失的。本文用R语言生存分析晚期肺癌患者数据查看文末了解数据获取方式)。

普通最小二乘回归方法不足,因为事件发生的时间通常不是正态分布的,并且模型无法处理删失,但这在生存数据中很常见。

image.png


为什么要做生存分析:右删失

在某些情况下,可能无法观察到事件时间:这通常称为 右删失。在以死亡为事件的临床试验中,当发生以下情况之一时,就会发生这种情况。1。当一定数量的参与者死亡时,研究结束。2。参与者退出研究。3。 研究达到预定的结束时间,并且一些参与者存活到结束。在每种情况下,幸存的参与者离开研究后,我们都不知道他们会发生什么。然后我们有一个问题:

当对于某些个体,我们只观察到他们的事件时间的下限时,我们如何对经验分布进行建模或进行非负回归?

上图说明了右删失。对于参与者 1,我们看到他们何时死亡。参与者 2 退出了,我们知道他们一直活到那时,但不知道后来发生了什么。对于参与者 3,我们知道他们活到了预定的研究结束,但又不知道之后发生了什么。

image.png



生存函数和风险函数

生存分析中的两个关键工具是生存函数和风险函数。

生存函数:它是一个函数,用于给出我们有兴趣知道的任何对象是否会在任何指定时间之后存活的概率。在数学上它可以由以下公式表示

image.png

其中 S(t) 是一个生存函数,其中 T 是一个连续随机变量,是一个事件的时间。F(t) 是区间[0,∞) 上的累积分布函数。

我们也可以用风险函数来写生存函数。假设事件尚未发生 ,风险率λ(t) 是事件在时间t发生的瞬时概率的主要值。

image.png



image.png

那么关键问题是如何估计风险和/或生存函数。


Kaplan Meier的非参数估计


在非参数生存分析中,我们要估计生存函数没有协变量,并且有删失。如果我们没有删失,我们可以从经验 CDF 开始. 这个等式简洁地表示:

有多少人随着时间的推移而死亡? 那么生存函数就是:还有多少人还活着?

但是,我们无法回答一些人被时间t删失时提出的这个问题.

虽然我们不一定知道有多少人在任意时间t幸存下来,我们知道研究中有多少人仍然处于风险之中。我们可以使用它来代替。将学习时间划分区间, 其中每个ti是参与者的事件时间或删失时间。假设参与者只能在观察到的事件时间失效。假设没有人在同一时间死去(没有关系),我们可以查看每次有人死去的时间。我们说在那个特定时间死亡的概率是,并说在任何其他时间死亡的概率是0.

在温和的假设下,包括参与者具有独立且相同分布的事件时间,并且删失和事件时间是独立的,这给出了一个一致的估计量。上图给出了一个简单案例的 Kaplan Meier 估计示例。

image.png



生存分析用于各种领域

例如:

  • 用于患者生存时间分析的癌症研究,
  • “事件历史分析”的社会学,
  • 在工程中用于“故障时间分析”。

在癌症研究中,典型的研究问题如下:

  • 某些临床特征对患者生存有何影响
  • 一个人能活3年的概率是多少?
  • 患者组之间的生存率是否存在差异?


image.png

 

 

第1部分:生存分析简介

本演示文稿将介绍生存分析 ,参考:

Clark, T., Bradburn, M., Love, S., & Altman, D. (2003). Survival analysis part I: Basic concepts and first analyses. 232-238. ISSN 0007-0920.

我们今天将使用的一些软件包包括:

  • lubridate


library(survival)

什么是生存数据?

事件时间数据由不同的开始时间和结束时间组成。

癌症的例子

  • 从手术到死亡的时间
  • 从治疗开始到进展的时间
  • 从响应到复发的时间

其他领域的例子

事件发生时间数据在许多领域都很常见,包括但不限于

  • 从艾滋病毒感染到艾滋病发展的时间
  • 心脏病发作的时间
  • 药物滥用发生的时间
  • 机器故障时间

生存分析别名

由于生存分析在许多其他领域很常见,因此也有其他名称

  • 可靠性分析
  • 持续时间分析
  • 事件历史分析
  • 事件发生时间分析

肺数据集

数据包含来自北中部癌症治疗组的晚期肺癌患者。今天我们将用来演示方法的一些变量包括

  • 时间:以天为单位的生存时间
  • 状态:删失状态1 =删失,2 =失效
  • 性别:男= 1女= 2

删失类型

某个主题可能由于以下原因而被删失:

  • 后续损失
  • 退出研究
  • 固定学习期结束前没有活动

具体来说,这些是删失的示例。

分配随访时间

  • 删失的主题仍会提供信息,因此必须适当地包含在分析中
  • 随访时间的分布存在偏差,在接受检查的患者和有事件的患者之间可能有所不同


生存数据的组成部分

对于主题ii:

  • 活动时间Ti
  • 删失时间Ci
  • 事件指标δi:
  • 1,如果观察到的事件(即  Ti≤CiTi≤Ci)
  • 如果检查,则为0(即  Ti>CiTi>Ci)
  1. 观测时间Yi=min(Ti,Ci)Yi=min(Ti,Ci)

lung数据中提供了观察时间和事件指示

  • 时间:以天为单位的生存时间(YiYi)
  • 状态:删失状态1 =删失,2 =死亡(δiδi)

image.png

在R中处理日期

数据通常带有开始日期和结束日期,而不是预先计算的生存时间。第一步是确保将这些格式设置为R中的日期。

让我们创建一个小的示例数据集,其中sx_date包含手术日期和last_fup_date上次随访日期的变量。

date_ex <- 
  tibble(
    sx_date = c("2007-06-22", "2004-02-13", "2010-10-27"), 
    last\_fup\_date = c("2017-04-15", "2018-07-04", "2016-10-31")
    )
date_ex
## # A tibble: 3 x 2
##   sx\_date    last\_fup_date
##   <chr>      <chr>        
## 1 2007-06-22 2017-04-15   
## 2 2004-02-13 2018-07-04   
## 3 2010-10-27 2016-10-31

我们看到它们都是字符变量,通常都是这种情况,但是我们需要将它们格式化为日期。

格式化日期-基数R

date_ex %>% 
  mutate(
    sx\_date = as.Date(sx\_date, format = "%Y-%m-%d"), 
    last\_fup\_date = as.Date(last\_fup\_date, format = "%Y-%m-%d") 
    )
## # A tibble: 3 x 2
##   sx\_date    last\_fup_date
##   <date>     <date>       
## 1 2007-06-22 2017-04-15   
## 2 2004-02-13 2018-07-04   
## 3 2010-10-27 2016-10-31
  • 请注意,R格式必须包含分隔符和符号。例如,如果您的日期格式为m / d / Y,则需要format = "%m/%d/%Y"


【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享-2

https://developer.aliyun.com/article/1488339

相关文章
|
21天前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
21天前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
21天前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
21天前
利用R语言进行典型相关分析实战
利用R语言进行典型相关分析实战
|
21天前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
21天前
|
机器学习/深度学习 算法
R语言分类回归分析考研热现象分析与考研意愿价值变现
R语言分类回归分析考研热现象分析与考研意愿价值变现
|
21天前
|
数据可视化 定位技术
R语言贝叶斯INLA空间自相关、混合效应、季节空间模型、SPDE、时空分析野生动物数据可视化
R语言贝叶斯INLA空间自相关、混合效应、季节空间模型、SPDE、时空分析野生动物数据可视化
|
21天前
|
机器学习/深度学习 数据可视化 算法
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为1
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
21天前
|
机器学习/深度学习 数据可视化 算法
R语言聚类分析、因子分析、主成分分析PCA农村农业相关经济指标数据可视化|数据分享
R语言聚类分析、因子分析、主成分分析PCA农村农业相关经济指标数据可视化|数据分享
|
21天前
|
机器学习/深度学习 监控 数据可视化
R语言SOM神经网络聚类、多层感知机MLP、PCA主成分分析可视化银行客户信用数据实例2
R语言SOM神经网络聚类、多层感知机MLP、PCA主成分分析可视化银行客户信用数据实例

热门文章

最新文章