组织病理学图像的机器学习算法正变得越来越复杂。从检测和分类细胞和组织,到预测生物标志物和患者预后。任务的复杂程度依赖于病理学家对组织中特定特征的注释。但生物标记物和结果更为复杂。算法必须在没有任何组织的区域或其外观特征是重要的先验知识的情况下解码大型的整个图像图像。
使用癌症分期,分子特征或临床变量已经可以完成风险分层。然而,改善预后见解是研究的活跃领域。预后指的是患者接受标准治疗后可能发生的结果,例如患者肿瘤复发,发生远处转移或死亡的可能性。
无论目标是什么,创建这种算法的挑战都是相似的。H&E整个图像图像很大,并且组织外观也多种多样。与查找有丝分裂或分割组织类型的方法不同,病理学家无法注释组织的哪些区域与患者的预后相关-至少没有很高的确定性。
肿瘤分级是衡量细胞外观的指标,但并不总是衡量预后的良好指标。病理学家对分级的观察也具有很高的观察者间差异。
结果预测模型的目标是根据风险对患者进行分层。本文将概述使用深度学习的组织病理学图像结果预测模型的关键组成部分。我将概述为模型选择图像切片的策略,用于生存模型优化的损失函数选项,用于汇总图像切片以形成整个图像的预测的技术以及一些有趣的模型扩展。
选择图像切片
在10亿像素的完整图像上训练深度学习模型的第一个挑战是,图像太大,无法在GPU上容纳,这使得端到端的训练不可能。患者级生存时间适用于整个图像(或多个图像)。虽然病理学家可以在载玻片上标注肿瘤区域,但他们不能准确地识别哪些切片对模型有用——这是模型的工作。一些研究需要病理学家对肿瘤区域进行注释,而深度学习模型只使用这些区域。其他人训练一个CNN模型来区分肿瘤和非肿瘤,然后只使用肿瘤区域作为生存模型。还有一些包括模型中的所有组织区域。本节概述这些策略。
随机的切片
Zhu等人让病理学家对每个肿瘤内的图像区域进行注释。然后,他们从每个ROI中随机抽取一个大的切片,训练一个CNN生存模型[Zhu2016]。Wulczyn等人也随机采样贴片来训练他们的模型[Wulczyn2020]。
预测切片
其他方法识别最有预测性的切片,而不是随机的切片样本。Courtiol等人训练了CNN来预测每个图像切片的风险[Courtiol2019]。然后,该模型为每个患者选择得分最高和最低的切片来训练最终的生存模型。
检查最高和最低的生存切片是特别有见地的。Courtiol等人发现生存期较差的斑块主要位于基质区域,并且病理学家确定了它们的共同特征。
切片聚类
在随后的工作中,Zhu等人。在训练集中的所有图像上聚集图像切片[Zhu2017]。然后,他们为每个群集训练了一个单独的CNN生存模型。预测能力差的被丢弃。其余群集模型中的功能汇总在每个群集的切片程序中。然后,另一个生存模型使用线性生存模型将汇总的特征转换为风险预测。
Yue等人对切片的全局聚类采取了相同的方法,并分别为每个聚类训练生存模型[Yue2019]。只选取被确定为有判别性的聚类,他们计算出一个归一化的斑块预测直方图,并使用支持向量机学习聚类级别的预测。
Muhammad等人同时通过一个生存模型学习了图像切片的全局聚类,该生存模型用每个聚类中的一个图像切片代表每张图像[Muhammad2021]。
Yao等人将每个患者的图像切片聚类,使他们能够选择一个具有不同外观的切片子集[Yao2020]。
聚类图像切片也可以实现组织的空间排列。Abbet等人对图像切片进行聚类,计算每幅图像的特征向量作为聚类概率和聚类转移概率[Abbet2020]。根据这些特征,他们训练出了一个线性生存模型。这些可解释的特征确定了与较差或较好的结果相关的组织相互作用。
组织分割
其他技术将高级知识带入了模型训练中,尤其是图像中存在的组织类型。病理学家或机器学习模型都可以将组织划分为一组类别,以便可以对每个类别进行适当建模。
Yamashita 等人 将图像切片分类为肿瘤还是非肿瘤,并选择最有可能是肿瘤的100个切片[Yamashita2021]。然后仅在这些切片上训练他们的生存模型。
克利莫夫(Klimov)等人。还训练了CNN模型将图像分割成组织类别。癌症和间质斑块用于训练CNN以预测转移风险[Klimov2021]。
更广泛的分割任务也有助于生存预测。凯瑟等。分割了9种组织类型,并为每种组织训练了生存模型[Kather2019]。他们选择了具有较高危险比的那些,并在结合CNN功能时按此比率对其进行加权。
深度基质评分作为组织类型特征加权总和计算,最能预测患者预后[Kather2019]
另外,组织分割可以用来计算更多可解释的特征,用于生存预测。Wang等人识别了淋巴结区域和肿瘤区域,然后根据两个组织区域的比例预测患者的风险[Wang2021]。
组织分割可以让模型只关注特定的组织类型。Bhargava等人计算了手工制作的肿瘤间质特征,以捕获其形态[Bhargava2020]。其特征包括基质的结构、核的连通性、核的形状和方向。这个特征集使他们能够成功地预测非裔美国人的结果;这些特征对白种人的预后预测能力较低。可解释的特征是理解他们的模型的关键,并强调了基质形态的重要性。