联邦学习使分布式医疗机构可以共同学习具有隐私保护功能的共享预测模型。在进行临床部署时,如果将联合学习中训练的模型应用于联盟外部完全看不见的医院,仍然会遭受性能下降的困扰。在本文中,我们指出并解决了联邦域泛化(FedDG)的一种新的问题设置,其目的是从多个分布式源域中学习联邦模型,使其可以直接推广到看不见的目标域。 我们提出了一种新颖的方法,称为连续频率空间的情节学习(ELCFS),通过使每个客户端都能在数据分散的挑战性约束下利用多源数据分布来解决此问题。 我们的方法通过有效的连续频率空间插值机制以保护隐私的方式在客户端之间传输分发信息。 通过转移的多源分布,我们进一步精心设计了一个面向边界的情节学习范例,以使本地学习暴露于域分布变化,并特别满足医学图像分割场景中模型泛化的挑战。 相对于最新技术和两项医学图像分割任务的深度消融实验,我们的方法具有优越的性能,证明了其有效性。该代码位于https://github.com/liuquande/FedDG-ELCFS。
1、简介
越来越需要跨多个医疗机构的数据协作,以建立准确且健壮的数据驱动的深度网络,以进行医学图像分割[7、18、50]。 联邦学习(FL)[20]最近为有前途的隐私保护解决方案打开了大门,该解决方案允许在分布式数据集上训练模型,同时将数据保留在本地。 该范例的工作方式是每个本地客户(例如医院)从他们自己的数据中学习,并且仅在中央服务器上以一定频率汇总模型参数以生成全局模型。 在联合培训期间,所有数据样本都保存在每个本地客户端中。 尽管FL见证了医学图像分割任务的一些试验性进展[4,44,49],但是所有现有的工作都只专注于提高内部客户的模型性能,而忽略了模型可推广性到联盟外部未见域上的情况。 这是一个关键问题,阻碍了FL模型在实际中的广泛应用。 由于成像扫描仪和协议的变化,在看不见的医院中遇到的测试医学图像在数据分布方面可能与源客户有很大不同。 在这样的分布变化下如何推广联邦模型是技术上的挑战,但至今尚未探索。 在这项工作中,我们确定了联邦域泛化(FedDG)的新问题设置,其目的是从多个分散的源域中学习联邦模型,以便可以直接将其推广到完全看不见的域,如图1(a)所示。
图1.
(a)联邦域泛化(FedDG)的新问题设置,其目的是从多个分散的源域中学习联邦模型,以便可以直接推广到完全看不见的目标域。
(b)解决FedDG的主要思想是通过在每个本地客户处传递频率空间中的分布信息和情景学习。
看不见的领域一般化(DG)是一个活跃的研究主题,正在提出各种方法[3,8,11,24,25,26,29,37,43],但是具有分布式数据源的联合范式给新的挑战带来了挑战。 DG 为了提取对分布偏移具有鲁棒性的表示,现有的DG方法通常需要在学习过程中访问多源分布。 例如,对抗特征对齐方法[26,29]必须用来自不同源数据集的样本训练域鉴别器。 基于元学习的方法[8,24]需要使用不同分布的多源数据在每个小批量生产中构建虚拟训练和虚拟测试域。 而在联邦范式中,数据是分布式存储的,每个客户端的学习只能访问其本地数据。因此,当前的DG方法通常不适用于FedDG方案。 另外,局部优化将使模型偏向于其自身的数据分布,从而难以推广到新的目标域。
为了解决这个FedDG问题,我们的见解是使每个客户端都能够以保护隐私的方式访问多源数据分发。 这个想法是由以下知识所激发的:视觉心理物理学揭示了图像的低级分布(即样式)和高级语义可以分别通过频率空间中的振幅和相位频谱来捕获[13,42,57]。 我们可以考虑在客户端之间交换这些振幅频谱以传输分布信息(参见图1(b)),同时将相位频谱保持核心语义在本地进行隐私保护。 基于此,我们还设计了一种连续的频率空间插值机制,该机制可以在本地分布和已传输分布之间进行插值,以丰富每个本地客户端的已建立多域分布。 这促进了局部训练,从而受益于专用的密集分布空间,从而获得了领域不变性。 利用这些已建立的分布,我们通过情景训练范式将局部学习暴露于域分布变化,以增强局部参数的可推广性。 设计了一种新颖的元更新目标函数,以指导边界区域的跨域优化。 对于医学图像分割应用而言,这尤其重要,因为医学图像分割应用中的泛化误差通常来自解剖结构不明确边界处的不精确预测。
我们的主要贡献如下: •我们解决了联邦域泛化的新颖而实际的问题。据我们所知,这是提高联邦模型在完全看不见的域上的可推广性的第一项工作。 •我们提出了一种隐私保护解决方案,通过跨客户端的有效连续频率空间插值机制来学习去中心化数据集下的泛化FL模型。 •我们针对客户的本地培训提出了一种新颖的面向边界的情节学习方案,该方案将本地优化暴露于域移位,并提高了模棱两可的边界区域的模型可推广性。 •我们对两种典型的医学图像分割任务进行了广泛的实验,即视网膜眼底图像分割(四个数据集)和前列腺MRI分割(六个数据集)。我们取得了超越最新技术的卓越性能,并且深入的分析实验证明了我们方法的有效性。
2.相关工作
2.1、 医学影像学中的联合学习
联邦学习[15、20、36、56]为多站点数据协作提供了一种有希望的隐私保护解决方案,该解决方案通过聚合每个本地客户端的参数同时将数据保留在本地,从而从分散的数据集中开发了一个全局模型。 代表性的是,麦克马汉(McMahan)等人。 [36]提出了一种流行的联合平均算法,用于通信效率高的深度网络联合训练。 借助隐私保护的优势,FL最近在医学图像应用中引起了越来越多的兴趣[4,18,22,27,45,49,51]。 Sheller等。 [49]是一项试点研究,旨在研究协作模型训练而无需共享多部位脑肿瘤分割的患者数据。 后来,李等人。 [27]进一步比较了FL中的几种权重共享策略,以减轻不同医院之间数据不平衡的影响。但是,这些工作都集中在提高内部客户的性能上,而没有考虑到联盟外部未见域的泛化问题,这对于广泛的临床可用性至关重要。 最新文献研究了FL范式中无监督域自适应的相关问题[28,41],而这些方法通常需要来自目标域的数据才能适应模型。 实际上,在模型部署之前从每个新医院收集数据将非常耗时甚至不切实际。取而代之的是,我们解决的FedDG新问题设置旨在将联邦模型直接推广到完全看不见的域,而无需从目标域获得先验知识。
2.2、 域泛化
域泛化[5、9、12、14、43、47、58、59]旨在从多个源域学习模型,以便可以直接泛化到看不见的目标域。 在先前的努力中,一些方法旨在通过最小化多个源域之间的域差异来学习域不变表示[11、16、26、29、32、37、38、55]。 例如,Motiian等。 [37]利用对比损失来最小化来自相同类别但不同域的样本之间的距离。 其他一些DG方法基于元学习,这是一种情节式训练范例,通过在每次迭代中创建元训练和元测试拆分来刺激域移位[1、8、24、30]。 Li等。 [30]采用元学习来学习辅助损失,该损失指导特征提取器学习更通用的特征。 但是,这些方法通常需要将多域数据集中在一个地方进行学习,这违反了具有分散数据集的联合学习设置中的隐私保护。 还有其他一些方法可以通过操纵深度神经网络体系结构[19、23、35],利用自我监督信号[3、54],设计训练试探法[17、25]或进行数据扩充来应对DG。 [61],这不需要数据集中化。 代表性地,Carlucci等。 [3]通过解决拼图游戏,采用自我监督学习。张等。 [60]通过堆叠一系列转换,在每个源域上进行了广泛的数据扩充。这些方法在FL范式中应用时,可以有效地充当使用单个源域数据进行本地训练的正则化方法,但几乎不会利用跨域的丰富数据分布。 相反,我们的方法旨在在客户端之间传输分发信息,以充分利用面向FedDG的多源分发。 我们还通过实验将这些典型方法与FL条件下的这些典型方法进行了比较,并证明了其优异的性能。
3.方法
我们从联邦域泛化的公式及其在医学图像分割场景中的挑战开始。 然后,我们描述了在连续频率空间(ELCFS)中提出的情景学习法,以明确解决这些挑战。 该方法的概述如图2所示。
3.1、联合域泛化
前提:在FedDG中,我们将(X; Y)表示为任务的联合图像和标签空间,是参与联合学习的K个分布式源域的集合。 每个域包含的数据和标签对,它们是从特定于域的分布中采样的。 FedDG的目标是学习模型使用K个分布式源域,因此可以直接推广到完全看不见的高性能测试域。 标准联合学习范例涉及中央服务器和K个本地客户端之间的通信。 在每个联邦回合t,每个客户端k将从中央服务器接收相同的全局模型权重θ,并使用其本地数据更新E个历时的模型。 然后,中央服务器从所有客户端收集局部参数并将其聚合以更新全局模型。 重复此过程,直到全局模型收敛为止。 在这项工作中,我们考虑最流行的联合平均算法(FedAvg)[36],该算法将权重与每个局部数据集的大小成比例的局部参数进行聚合,以更新全局模型,即,其中。 值得注意的是,我们的方法还可以灵活地合并到其他FL主干中。 挑战:为了实现看不见的领域泛化的目标,期望建立一个模型来彻底研究多源数据分布,以追求其学习的潜在空间的领域不变性。 但是,特定医学图像分割方案中的联合设置为此带来了一些挑战。 首先,FL中的多源数据是分布式存储的,每个客户端的学习只能访问其单独的本地分布,这限制了充分利用多源分布来学习可推广的参数。 其次,尽管FL合作了多源数据,但从不同临床站点获取的医学图像可能呈现出很大的异质性。 这导致协作数据集之间出现明显的分布,这不足以确保更连续的分布空间中的域不变性,以在复杂的临床环境中获得良好的通用性。 第三,医学解剖结构的结构通常在其边界区域周围表现出高度模糊性,这给以前的DG技术带来了挑战,而DG技术通常无法保证此类歧义区域中特征的区域不变性。
3.2、连续频率空间插值
为了解决分散数据集的限制,我们解决方案的基础是在客户端之间交换分布信息,以便每个本地客户端都可以访问多源数据分布以学习通用参数。 考虑到禁止共享原始图像,我们建议利用频率空间中固有的信息,这可以将分发(即样式)信息与原始图像分开,以在客户端之间共享而不会造成隐私泄露。 具体来说,给定第k个客户端的样本(对于RGB图像,C = 3,对于灰度图像,C = 1),我们可以通过快速傅里叶变换获得其频率空间信号[39]。 ] 作为:
可以将该频率空间信号进一步分解为分别反映低电平分布(例如,风格)和振幅分布的振幅谱和相位谱。 图像的高级语义(例如,对象)。 为了在各个客户之间交换分配信息,我们首先构造一个分配银行,其中每个包含来自第k个客户端的图像的所有振幅谱,表示的分布。 然后,该银行就可以作为共享的分销知识供所有客户使用。
图2.我们在连续频率空间(ELCFS)中提出的情景学习概述。 通过连续的插值机制从频率空间跨客户端交换分布信息,使每个本地客户端都可以访问多源分布。 然后建立一个情景训练范式,以使局部优化暴露于域移位,并进行显式正则化,以促进模棱两可的边界区域的独立于域的特征凝聚和分离,以提高可推广性。
接下来,我们设计一个在频率空间内的连续插值机制,旨在将多源分布信息传输到利用分布库的本地客户端。 如图2的左侧所示,给定客户端k的局部图像xk i,我们可以用分配库A中的振幅频谱替换其振幅频谱的某些低频分量,而其相位频谱不受影响,以保持语义内容。结果,我们可以生成具有变换外观的图像,这些图像表现出其他客户的分布特征。更重要的是,我们不断在本地数据的振幅谱和其他数据的传递的振幅谱之间进行插值 域。 通过这种方式,我们可以受益于专用的密集空间和平滑的分布变化,从而为每个本地客户端丰富已建立的多域分布。 形式上,这是通过从分配库中随机采样振幅谱项(nk),然后通过在和之间进行插值来合成新的振幅谱来实现的。令为二元掩码,它控制要交换的振幅谱内的低频分量的比例,其中心区域的值为1,而0在其他地方。 将λ表示为调整由和贡献的分布信息量的内插比,生成的新振幅谱相互作用分布为 本地客户端k和外部客户端n表示为:
在获得内插的幅度谱之后,我们将其与原始相位谱组合起来,以通过傅立叶逆变换生成变换后的图像,如下所示:
4.实验
我们在两种医学图像分割任务上广泛评估了我们的方法,即在视网膜眼底图像上进行视盘和杯状分割[40],以及在T2加权MRI上进行前列腺分割[31]。 我们首先与可以纳入联邦范例中的DG方法进行比较,然后提供深入的消融研究以分析我们的方法。
4.1、数据集和评估指标
我们采用来自公共数据集[52、10、40]的4个不同临床中心的视网膜眼底图像进行视盘和杯分割。为了进行预处理,我们将这些数据均匀地裁剪为800×800的磁盘区域,然后将裁剪区域的大小调整为384×384作为网络输入。我们进一步从公共数据集[2、21、31、33]划分的6个不同数据源中收集前列腺T2加权MRI图像,以进行前列腺MRI分割任务。对所有数据进行预处理,以使前列腺区域具有相似的视野,并在轴向平面中将其大小调整为384×384。然后,我们将数据分别归一化为强度值的零均值和单位方差。请注意,对于这两个任务,由于成像条件的变化,从不同临床中心获取的数据呈现出不同的分布。每个数据源的示例情况和样本数量如图3所示。在两个任务中采用了随机旋转,缩放和翻转的数据增强。为了进行评估,我们采用了两个常用的指标:骰子系数(Dice)和Hausdorff距离(HD),分别对整个物体区域和表面形状的分割结果进行定量评估。
4.2、实施细节
在联合学习过程中,所有客户都使用相同的超参数设置,并且使用Adam优化器对本地模型进行了训练,批处理大小为5,Adam动量分别为0.9和0.99。元步长和学习率都设置为1e-3。频率空间中的插值比λ在[0.0,1.0]内随机采样,我们将在消融研究中研究此参数。将超参数α根据经验设置为0.01,以避免在变换后的图像上出现伪像。对来自最后两个反卷积层的激活图进行插值和级联,以提取边界区域周围的语义特征,并且将温度参数τ凭经验设置为0.05。在两个任务中将权重γ设置为0.1和0.5,以平衡训练目标的大小。当全局模型稳定收敛时,我们总共训练了100轮联邦回合,并且每个联邦回合中的本地纪元E都设置为1。该框架由Pytorch库实现,并在两个NVIDIA TitanXp GPU上进行了训练。
图3.眼底图像分割和前列腺MRI分割任务中每个数据源的示例案例和切片编号。
4.3、与DG方法的比较
实验设置:在我们的实验中,我们遵循领域通用化文献中的实践,采用了留一域的策略,即在K-1分布式源域上进行培训,并在一个遗漏的看不见的目标域上进行测试。 这导致眼底图像分割任务的四个通用设置和前列腺MRI分割任务的六个设置。
我们与没有数据集中化并且可以并入联邦范式的本地学习过程的最新技术DG方法进行了比较,包括:JiGen [3]一种有效的自我监督学习方法,可以通过以下方法学习一般表示形式: 解决拼图游戏; BigAug [60]一种执行大量数据转换以规范化通用表示学习的方法。 Epi-FCR [25]一种在域之间定期交换部分模型(分类器或特征提取器)以使模型学习暴露于域移位的方案; RSC [17]一种方法 会随机丢弃主要功能以促进健壮的模型优化。 对于实施,我们遵循其公共代码或书面文件,并在联合设置中进行建立。 我们还将与基准设置进行比较,即使用基本FedAvg [36]算法学习全局模型,而无需使用任何泛化技术。
比较结果:表1给出了视网膜眼底分割的定量结果。我们看到,不同的DG方法可以比FedAvg或多或少地改善整体泛化性能。这归因于它们对本地学习的正则化作用以提取一般表示。与这些方法相比,我们的ELCFS在Dice和 HD既可用于光盘分割,也可用于杯分割。这得益于我们的频率空间插值机制,该机制向本地客户端提供了多域分布。具体来说,对于其他DG方法,他们的本地学习仍然只能访问单个分布,并且无法针对多样化分布空间中的域不变性对特征进行正则化。相反,我们的方法使局部学习能够充分利用多源分布的优势,并显着增强模糊边界区域周围特征的域不变性。此外,我们的ELCFS在所有看不见的域设置上都实现了对FedAvg的持续改进,Dice的整体性能提高了2.02%,HD的整体性能提高了2.86。相对边缘的。我们的ELCFS在六个未见的站点中获得最高的骰子,在大多数站点中获得高清。总体而言,我们的方法将Dice的FedAvg值从85.57%提高到87.39%,将HD值从12.42提高到10.88,优于其他DG方法。图4显示了分割结果,其中有两种情况来自于看不见的领域,无法完成每项任务。可以看出,我们的方法可以准确地分割结构并在未知分布的图像中描绘边界,而其他方法有时则无法做到。
图4.对眼底图像分割(上两行)和前列腺MRI分割(下两束)中不同方法的泛化结果进行定性比较。
4.4、我们方法的消融分析
我们进行消融研究,以研究关于ELCFS的四个关键问题:1)每个组件对模型性能的贡献; 2)插值运算的好处和λ的选择; 3)边界区域周围的语义特征空间如何受我们方法的影响,以及4)参与客户的数量如何影响我们方法的效果。每个组成部分的贡献:我们首先通过从我们的方法中将它们删除以观察模型性能,来验证我们方法中两个关键组成部分的影响,即连续频率空间插值(CFSI)和边界定向情境学习(BEL)。如图5
所示,
图5.消融结果,以分析我们方法中两个组件(即CFSI和BEL)的影响。
删除这两个部分中的任何一个都将导致针对这两个任务在不同的看不见的域设置中的泛化性能下降。这是合理的,并且反映了这两个组件如何对我们的方法的性能发挥互补作用,即CFSI生成的分布为学习BEL打下了基础,而BEL则反过来为有效利用生成的分布提供了保证。连续插值在频率空间中的重要性:为了分析ELCFS中连续插值机制的效果,我们使用t-SNE [34]来可视化眼底图像分割中生成图像的分布。如图6(a)所示,
图6.(a)可视化的t-SNE [34],用于在本地客户端(粉红色点)嵌入原始眼底图像以及来自不同客户端(绿色,黄色和蓝色点)的振幅频谱的相应转换图像; (b)在不同的插值比λ设置下,采用固定值或在不同范围内连续采样(带有三个独立运行的误差条)对光盘分割的综合性能。
粉红色的点表示客户端的本地数据,其他点表示使用来自不同客户端的幅度谱生成的转换后的数据。似乎固定λ(左)将导致几个不同的分布,而连续插值机制(右)可以平滑地桥接不同的分布以丰富已建立的多域分布。这促进了局部学习以在预定的密集分布空间中实现域不变性。 然后,我们分析选择λ对模型性能的影响,为此,我们以0.0到1.0的固定值(步长为0.2)进行实验,并在[0.0,0.5],[0.5,1.0]范围内进行连续采样和[0.0,1.0]。如图6(b)所示,与不传输任何分布信息(即λ= 0)相比,将λ> 0设置为固定值可以始终提高模型性能。此外,连续采样可以进一步提高性能,并且[0.0,1.0]的采样范围可产生最佳结果,这反映出连续分布空间对于域泛化的好处。
图7.(a)边界相关特征和背景相关特征之间的余弦距离; (b)我们的方法在有或没有面向边界的元目标的情况下的泛化性能。
模棱两可的边界区域的可辨性:我们绘制了边界相关特征和背景相关特征之间的余弦距离,即E [hi bd hi bg],以分析边界空间周围的语义特征空间如何受到我们方法的影响。在图7(a)中,两条绿线分别表示从训练源域中抽取的样本的ELCFS和FedAvg基线中特征距离的增长。我们可以看到,ELCFS产生了更长的特征距离,表明边界和周围背景区域的特征可以在我们的方法中更好地分离。对于两条黄线,样本特征是从看不见的区域中绘制的。不出所料,该距离不如源域高,但是我们的方法也比FedAvg具有更高的裕度。我们还定量分析了Lboundary对模型性能的影响。从图7(b)中可以看出,从元优化中删除此目标会导致不同任务中的泛化性能出现一致的性能下降。 参与客户数量的影响:我们进一步分析了当参加联合学习的医院数量不同时,我们的方法和FedAvg的泛化性能将受到怎样的影响。
图8.使用我们提出的方法和FedAvg,随着参与客户数量的增加,两个看不见的前列腺数据集(即站点A和B)的泛化性能曲线。
图8显示了前列腺MRI分割的结果,其中,我们在两个看不见的站点上展示了泛化结果,客户数量从1逐渐增加到K −1。正如预期的那样,使用单源数据训练的模型无法获得良好的结果部署到看不见的域时。当更多的客户参加联合培训时,泛化性能会提高,这是合理的,因为汇总来自多个来源的数据可以涵盖更全面的数据分发。特别是,我们的ELCFS在具有不同客户数量的所有泛化设置上始终优于FedAvg,这证明了我们的方法利用分布式数据源来增强联合学习模型的泛化性的稳定有效性。
5.结论
我们提出了一种新的联邦域一般化问题设置,并针对其提出了一种新颖的方法,该方法具有连续的频率空间插值和面向边界的情节学习方案。 在两个重要的医学图像分割任务上证明了我们方法的卓越功效。 我们的解决方案为联合学习打开了一扇门,使本地客户端可以访问多源分发而不会造成隐私泄露,这具有解决FL中遇到的其他问题(例如数据异质性)的巨大潜力。 所提出的用于鼓励边界描绘的学习方案通常还可以扩展到其他分割问题。