指标和损失函数
上一节讨论了如何选择用于建模的图像切片。下一个挑战是为事件发生时间数据创建一个模型,其中一些患者没有观察到事件。它不像二进制分类那么简单。到研究结束时患者可能尚未死亡,或者在研究过程中可能失去了随访的机会。这些观察称为 right-censored。
让我们将Ti定义为患者i的事件发生时间,将Ei定义为事件度量。如果Ei为1,则事件(例如死亡)发生在时间Ti。如果Ei为0,那么Ti是最后一次与患者接触的时间-他们是right-censored。
Cox风险比例
最常见的生存建模方法是Cox比例风险(CPH)模型。
我们将生存函数定义为t时刻患者生存的比例:
则在时间t的瞬时死亡概率为
CPH函数对一组协变量x的效果进行建模:
其中λ₀(t)是基准风险函数,h(x)是风险函数。在线性CPH模型中,风险函数为hᵦ(x)=βᵀx,在给出这些协变量的情况下,可以预测特定患者的相对风险。通过最大化可能性(或等效地,部分对数可能性)来完成此类模型的训练。
一些将生存模型应用于组织学的早期工作使用手工制作的特征作为协变量。深度学习模型通过应用一组非线性运算来使用相同的公式,以针对一组网络权重产生输出hᵩ(x)。
深度生存模型的首次尝试使用了专家选择的少量功能,以根据临床变量预测心脏病发作的风险,并根据基因和蛋白质表达预测乳腺癌的风险[Katzman2018]。为了将此模型应用于组织学图像,将CPH损失功能放置在CNN的顶部。
CPH模型的缺点之一是它不可分离。在模型训练的每次迭代期间,通过比较当前批次中患者的相对风险来估计其值。
生存损失的替代
对于CPH丢失,有几种替代方法仍然可以保留生存数据的审查性质。Meier等人实验了基于一致性的Uno损失,以及将右偏态和失稳生存数据与非参数测试进行比较的logrank损失[Meier2020]。他们比较了CPH损失和一个二分类模型。所有三个风险评分形成了比二元分类器更好的风险热图。Uno和logrank在数量上优于CPH。
另一种利用生存时间和审查观测的方法是将数据转换为多任务模型[Li2016, Fotso2018, Vale-Silva2020]。时间轴被分成多个间隔,每个间隔应用一个二元分类器来预测患者是否存活到那个时间点。通常,会添加一些额外的约束,以确保对特定患者的预测在时间间隔内不会增加和平稳。其他离散时间生存模型已经被提出用于数据的其他形式[Gensheimer2019, Zhong2019a]。
Wulczyn等人比较了c指数的指数下界CPH和使用交叉熵的多任务分类,发现后者的效果最好[Wulczyn2020]。
Muhammad发现,将CPH缺失与二值分类术语相结合,可以更好地将患者划分为高风险和低风险患者,并且极大地改善了测试集的结果[Muhammad2021]。
Shirazi等人采用了相关的方法,将时间轴分为4类:0-6个月、6-12个月、12-24个月和>24个月[Shirazi2020]。他们的模型在治疗胶质母细胞瘤方面取得了巨大的成功,但也显示了对整个图像图像进行训练的一些挑战。每个患者的生存时间应用于玻片中的每个切片。
从切片到图像
无论选择何种损失函数,以及选择何种图像切片进行建模,它们都必须组合成对患者的单一风险预测。最简单的方法是独立地训练一个模型的图像切片,并对每个患者的所有切片产生平均分数。然而,在最终预测之前整合切片特征的模型通常会被发现更优。
本节将概述一些在整个图像的生存模型中使用的弱监督学习方法。可以采用其他监督能力较弱或多实例学习的方法。
独立的切片
对整个图像图像最简单的方法是独立地在图像切片上训练模型。Meier等人对来自组织微阵列的160 × 160像素图像块训练CNN,同时对IHC和H&E进行实验[Meier2020]。Shirazi等人也独立地对切片进行训练,但对切片预测进行了多数投票[Shirazi2020]。
切片功能聚合
Wulczyn等人并没有聚合**切片预测,而是聚合了切片特征[Wulczyn2020]。在应用生存模型之前,他们计算了每个病人所有补丁上每个特征的平均值。
Yao等人首先对每个患者的图像贴片进行聚类,然后将CNN应用到每个贴片上,并使用注意模型在集群中聚合[Yao2020]。自注意机制为每个特征向量学习一个权值,并计算一个加权和。他们在上面应用了一个完全连接的层,然后是生存模型。
作为处理同一张图片中的多个斑块的另一种方法,Bychkov等人将递归神经网络应用于从组织微阵列核心图像斑块中提取的CNN特征[Bychkov2018]。
其他模型的扩展
对于上述生存建模方法还有多种扩展。
以上用于整个图像的应用程序都在某种程度上使用了CNN来建模图像。Chen等人也使用了图卷积网络,通过连接核形成图来提取拓扑结构[Chen2020]。Li等人用图形CNN建模组织拓扑[Li2018]。
Lu等人关注的是细胞形态,而不是组织拓扑结构[Lu2020]。他们开发了一种细胞多样性的描述符,并发现它可以预测患者的预后。
多通道模型
其他模式如临床数据、基因组学和蛋白质组学也可用于生存模型。Vale-Silva等人训练了一个融合多种数据模式的模型,但发现与只使用临床特征的模型相比,组织学并没有改善该模型[Vale-Silva2020]。Zhong等人也研究了成像和基因表达特征[Zhong2019b]。他们发现,在基因表达的条件下,组织学特征对预后的影响有限;然而,它们的图像特征仅限于手工制作的形态学特征。
Hao等人还试验了整个图像和基因组数据的组合,发现该模型优于仅使用单一模式的模型[Hao2020]。Chen等人也得出了类似的结论[Chen2020]。他们测试了多种建模策略:基因组特征和整个图像,CNN和图表CNN模型的组织学。
目前的共识似乎是,以组织学为基础的特征可以促进使用基因组或临床变量的生存模式。然而,成功可能取决于所使用的图像特征、模型类型和数据集,以及其他因素。
Pan-Cancer建模
生存模式也同时适用于多种类型的癌症。wulczynn等人训练了10种癌症类型的生存模型,并评估了他们的模型在每种癌症类型中的预测能力[Wulczyn2020]。Vale-Silva等人训练了横跨33种癌症类型的泛癌症和多模态模型[Vale-Silva2020]。
总结和建议
上面的一些方法使用了一个从零开始训练的小CNN。另一些则将迁移学习应用于更大的CNN架构,如VGG、ResNet或googlenet。如果有足够的训练数据和计算能力,较大的架构通常更优越。
以上讨论的建模方法都捕捉了肿瘤形态学的不同视角。我还没有在最佳方法上达成共识。每一个对影响患者结果的因素都提供了不同的见解。
从整个图像中建模患者的结果比弱监督学习要复杂得多。解释影响结果好坏的因素对于提高我们对癌症的认识也至关重要。
可解释的模型已经揭示了一些重要的见解,而消除组织类型的歧义是成功的关键。组织类型面积比[Wang2021]和连通性[Abbet2020]会影响最终的预测结果。与肿瘤本身相比,肿瘤内基质的形态可能是更强的预后指标[Beck2011,Bhargava2020]。
Bhargava等人甚至表明,在一组患者身上成功的建模方法可能在另一组患者身上行不通[Bhargava2020]。虽然这确定了一个成功的生存模型的机会,它也证明了评估模型概括性的重要性。
在开发新模型时,了解哪些因素已经与所研究的癌症类型的结果相关可能是至关重要的。
另外,对整个图像应用弱监督模型可能会发现尚未与预后相关的组织属性。但是,要使一个成功的模型转化为新的见解,一些解释方法是必不可少的。
适应生存数据正确检查性质的损失函数的性能优于单个二进制分类器。但是,结合了多个二进制分类器或生存损失与二进制分类器的多任务方法可能会产生更好的风险分层。。
生存建模的新前沿包括多模态和泛癌症方法。
目前模型的最大局限性可能是训练数据量太小。随着向数字病理学的过渡的进展和新的合作的建立,更大的训练集将变得可用。当数据隐私是一个问题时,联邦学习可以处理位于不同中心的数据集[Andreux2020]。
基于组织学图像的预后模型刚刚开始显示其潜力。但它可能需要更大的数据集,才能在这些10亿像素的图像中找到最具有预测性的模式。