可训练软决策树集成的多实例学习
作者:Andrei Konstantinov†、Lev Utkin†和Vladimir Muliukha,†
彼得大帝圣彼得堡理工大学人工智能系,Polytechnicheskaya,29195251,俄罗斯圣彼得堡
通信地址应为的作者。
†
这些作者对这项工作做出了同样的贡献。
算法2023,16(8),358;https://doi.org/10.3390/a16080358
接收日期:2023年6月22日/修订日期:2023.7月17日/接受日期:2023:7月24日/发布日期:2023-7月26日
(本文属于进化算法和机器学习一节)
摘要
提出了一种新的基于随机森林的模型,用于解决小表格数据下的多实例学习问题,称为软树集成多实例学习。考虑了一种新的软决策树,它类似于众所周知的软斜树,但具有较少的可训练参数。为了训练树,建议将它们转换为特定形式的神经网络,该网络近似于树函数。还提出了通过使用注意力机制来聚合实例和包嵌入(输出向量)。整个软树集成多实例学习模型,包括软决策树、神经网络、注意力机制和分类器,都是以端到端的方式进行训练的。在著名的真实表格数据集上进行的数值实验表明,所提出的模型可以优于许多现有的多实例学习模型。实现该模型的代码是公开的。
关键词:多实例学习;决策树;斜树;随机森林;注意力机制;神经网络
1.简介
许多机器学习现实生活中的应用程序处理被称为袋子的标记对象,袋子由几个实例组成,其中没有提供袋子中包含的实例的单独标签。例如,在组织病理学中,组织学图像可以被视为一个袋子,其斑块(细胞)可以作为袋子的实例[1,2,3]。可以找到许多类似的应用实例,如药物活性预测[4]、检测癌症[5]、蛋白质功能注释[6]等。对上述应用建模的有用框架是多实例学习(MIL),它可以被视为一种弱监督学习[7,8,9,10,11,12,13]。MIL的目标是,首先,基于由一组标记袋子组成的训练数据对新袋子进行分类,其次,对袋子中未标记的实例进行分类。为了实现这些目标,引入了假设或规则来建立实例的标签和相应袋子的标签之间的关系。大多数MIL模型都假设所有阴性袋子只包含阴性实例,阳性袋子至少包含一个阳性实例。然而,也有其他关于袋子标签定义的规则[14]。
有许多MIL模型试图解决不同条件下和不同类型数据集的分类问题[15,16,17,18,19,20]。上述模型大多使用支持向量机、K近邻、卷积神经网络和决策树等方法。一类有趣而有效的MIL模型应用了注意力机制[21,22,23,24,25,26,27]。
然而,上述MIL方法存在缺陷。一方面,基于支持向量机和决策树等方法的简单模型不使用神经网络,无法获得网络模型的优势;例如端到端训练和注意力机制。另一方面,基于神经网络的MIL模型无法在小型表格数据集上准确训练。
因此,与现有模型相比,同时具有随机森林(RF)和神经网络特性的MIL模型可以提供更好的结果。RF直接适合MIL模型,因为它对目标变量中的噪声具有鲁棒性。同时,它的结构是次优的;因此,在某些情况下,它并不能使MIL损失最小化。构造可以重新训练的决策树的方法之一是通过软斜树的概念[28],其可训练参数可以通过使用基于梯度的算法进行更新和优化。倾斜树和由倾斜树组成的RF在决策树中的每个分割处使用线性和非线性分类器,并允许一次组合多个特征。然而,当我们处理小的表格数据时,由于大量的参数,软斜树可能会过度拟合。
因此,我们建议以经典决策树的形式表示软倾斜树,并以一种特殊的方式将包括RF的决策树转换为可训练的神经网络。相应的神经网络实现了与决策树大致相同的功能,但它们可以与注意力机制联合进行有效训练,并且可以同时考虑来自所有袋子的数据,即它们成功地解决了MIL问题。
因此,我们提出了一个注意力MIL模型,称为软树集合MIL(STE-MIL)。一方面,STE-MIL基于决策树,成功地处理了小的表格数据。另一方面,在将树转换为神经网络并将注意力机制应用于实例和包的聚合嵌入之后,通过使用梯度下降算法以端到端的方式训练STE-MIL。
我们的贡献总结如下:
我们的贡献总结如下:
提出了一种新的基于RF神经网络的MIL模型,该模型在处理小的表格数据时优于现有的许多MIL模型。
提出了一种类似于软斜树的新的软决策树。与软倾斜树相比,所提出的树具有较少数量的可训练参数。然而,软决策树可以以与软倾斜树相同的方式进行训练。每个软决策树的输出被视为一组向量(嵌入),这些向量以特定的方式由类概率分布形成。
提出了一种将决策树转换为特定形式的神经网络的原始算法,以有效地训练决策树的参数。
提出了注意力机制来聚合实例和包嵌入,目的是最小化相应的损失函数。
整个MIL模型,包括软决策树、神经网络、注意力机制和分类器,以端到端的方式进行训练。
使用著名数据集Musk1、Musk2[4]、Fox、Tiger和Elephant[15]进行的数值实验说明了STE-MIL。上述数据集具有用于执行表格数据的数字特征。实现STE-MIL的相应代码可在https://github.com/andruekonst/stemil(2023年7月17日访问)。
本文的组织结构如下。相关工作见第2节。第3节介绍了MIL和倾斜二元软树。第4节中提出了决策树函数的具体表示,它允许我们将决策树转换为神经网络。第5节考虑了一个软树集合来解决MIL问题。在同一节中研究了将决策树转换为神经网络的算法。第6节研究了应用于所提出的MIL模型的注意力机制。第7节介绍了数值实验。第8节审议了公开的研究问题,进行了一些讨论,并提出了结论性意见
2.相关工作
密耳。MIL可以被视为处理不同类型数据的重要工具。特别是,特定结构的表格数据可以通过MIL模型进行分类。在考虑表格数据时,几个可用的MIL模型是基于应用SVM、决策树、Ada-Boost和RF[15,16,19,20,29]等模型。
然而,大多数MIL模型都是基于应用神经网络或卷积神经网络,尤其是在对图像数据集进行分类时[17,18,19,30,31,32,33]。
尽管有许多可用的MIL模型,但没有一种模型可以将面向表格数据的模型(如RF和神经网络,包括注意力机制)结合起来,以便使用基于梯度的算法来更新RF的训练参数以及神经网络,并提高MIL预测的准确性。
MIL和注意力。为了提高分类精度,已经提出了几种使用注意力机制的MIL模型,这些模型的例子如下:SA Ab MILP(基于自我注意力的MIL池)[34]、Proto MIL(具有原型部件的多实例学习)[26]、MHAttn Surv(用于生存预测的多头注意力)[24]、Ab DMIL[23],MILL(基于多实例学习的滑坡分类)[35]、DSMIL(双流多实例学习)[36]。基于注意力的MIL模型也可以在[21,22,27,37,38]中找到。上述模型的主要特点是使用神经网络,主要处理图像数据,而不是小的表格数据。
倾斜树和神经网络。许多研究表明,在许多情况下,具有倾斜拆分的树比具有轴平行拆分的树生成更小的树,精度更好[39,40]。倾斜树的一个重要优点是可以通过使用优化算法来训练它们,梯度下降算法就是一个例子。另一方面,在训练斜树时也会遇到一些障碍。特别地,训练过程在计算上是昂贵的。此外,相应的模型可能被过度拟合。已经提出了几种方法来部分解决上述问题。Wickramarachchi等人[40]提出了一种新的决策树算法,称为HHCART。为了简化斜树,Carreira Perpinan和Tavalali[41]提出了一种称为稀疏斜树的算法,该算法从具有相同或更小结构的初始斜树生成新树,但新的参数值会导致更低或不变的错误分类误差。一阶段树作为一种软树,通过双层优化问题联合构建和修剪决策树,如[42]所述。Menze等人[43]专注于具有任务最优递归划分的树。Katuwal等人[44]提出了一种异构倾斜决策树的随机森林,该森林在一些排名靠前的分区上的每个非叶节点上使用了几个线性分类器。[45]中考虑了进化算法在倾斜决策树归纳问题中的应用。[46]中提出了一种通过反向传播的端到端训练改进树学习的算法。
使用斜树的一个有趣的方向是将神经网络表示为树,或者以神经网络的形式表示树。Lee等人[47]展示了如何使用神经模型来实现分段常数函数,如决策树。Hazimeh等人[48]提出,通过考虑神经网络的所谓树集成层,在设计混合模型时结合神经网络和树集成的优势,这是一种可微决策树的加法模型。该层可以插入神经网络中的任何位置,并使用基于梯度的算法与网络的其余部分一起进行训练。Frosst和Hinton[49]采用了神经网络获得的知识,并在一个依赖于分层决策的模型中表达了相同的知识,因此解释特定决策会容易得多。[49]中提供了一种使用经过训练的神经网络创建一种软决策树的方法,该方法比直接从训练数据中学习的软决策树具有更好的泛化能力。Karthikeyan等人[50]提出了一种统一的方法,该方法能够实现精确的端到端基于梯度的树训练,并且可以部署在各种设置中。Madaan等人[51]提出了密集梯度树和基于这些树的变换器,称为树变换器。
与上述工作相反,我们考虑了如何将决策树应用于MIL问题,方法是将决策树转换为特殊形式的神经网络,并以端到端的方式与注意力机制联合训练它们。
3.初步
3.1多实例学习
首先,我们提出了MIL分类问题[7,8,9,13]。它在数据结构上不同于标准分类。也就是说,在MIL问题中,袋子有类别标签,但组成每个袋子的实例通常没有标签。因此,这个问题可以看作是一种弱监督学习问题。由于标签仅适用于行李,因此可以在MIL框架中说明以下任务。第一个任务是对包中的实例进行注释。第二个任务旨在通过具有袋的训练集来注释新的袋,即,该任务是在袋级别训练分类器。上述任务可以通过引入特殊规则来解决,这些规则建立了实例和袋子类标签之间的关系。
让我们正式说明MIL问题,同时考虑连接不同级别MIL数据考虑的规则。假设每个袋子由一组n个实例定义𝐗={𝐱1,…,𝐱𝑛}, 其中第i个实例𝐱𝑖∈ℝ𝑚 由特征向量表示。每个实例𝐱𝑖 有标签𝑦𝑖∈{0,1}取两个值:0(负类)和1(正类)。我们不知道标签𝑦𝑖 如MIL问题说明所示。根据第一个任务,我们构造了一个映射每个向量的函数g𝐱𝑖 进入标签𝑦𝑖.
有各种规则来建立袋子标签和实例之间的关系。最常见的规则之一可以重写如下:[9]:
哪里𝑓(𝐗) 是一个袋分类器。
从(1)可以看出,至少有一个正实例使袋子为正,而负袋子只包含负实例。例如,我们将组织病理学图像分为几个斑块[12,14]。带有“癌症”或“非癌症”标签之一的整个图像可以被视为一个袋子,而图像的每个补丁都可以被视作为一个实例。函数𝑓(𝐗), 取值1和0,分别对应于图像标签“癌症”或“非癌症”。函数𝑔(𝐱), 也取值1和0,分别对应于贴片标签“癌症”或“非癌症”。如果图像来自高危患者,那么如果属于图像的所有贴片中至少有一个包含恶性肿瘤,则应将其标记为“癌症”[12]。
另一方面,如果患者的风险较低,则可以放宽建立袋标签和实例之间关系的规则,即需要一定数量的“癌症”贴片来将“癌症”标签分配给整个组织病理学图像。在这种情况下,函数𝑓(𝐗) 可以通过另一种方式定义,同时考虑阈值𝜃; 例如,“癌症贴片的数量可以定义为
3.2.倾斜二元软树
建立倾斜决策树的重要步骤之一是对其参数进行优化。建树有各种决策规则。所谓的硬决策规则已在[50,51]中成功实施。这些规则适用于倾斜决策树,当我们处理小型表格数据集时,这可能是不合适的,因为在这种情况下,大的自由度会导致过度拟合。
根据[50],高度为h的倾斜二叉树表示分段常数函数𝑓(𝐱;𝐖,𝐛):ℝ𝑚→ℝ𝐾, 按权重参数化𝐰𝐼(𝑑,𝑙)∈ℝ𝑚, 𝑏𝐼(𝑑,𝑙)∈ℝ 在深度d处从树根到其叶子l的路径上的节点处。这里,𝐼(𝑑,𝑙) 是从树根到其叶l的路径上的节点的索引,深度为d。函数f计算形式为𝐰T𝑗𝐱−𝑏𝑗>0,定义是否𝐱 必须遍历下一个子项的左侧或右侧。在这里𝐖 是由所有参数向量组成的参数矩阵𝐰𝑗; 𝐛 是由参数组成的参数向量𝑏𝑗. 树输出表示为2ℎ 矢量𝜃1,…,𝜃2.ℎ 这样矢量𝜃𝑗∈Δ𝐾 在第j个叶与K类的概率相关联,其中≩𝐾 是维数K的单位单纯形。学习参数的方法之一𝐰𝑖𝑗 和𝑏𝑖𝑗 对于所有节点是最小化形式的预期损失l:
3.2.倾斜二元软树
建立倾斜决策树的重要步骤之一是对其参数进行优化。建树有各种决策规则。所谓的硬决策规则已在[50,51]中成功实施。这些规则适用于倾斜决策树,当我们处理小型表格数据集时,这可能是不合适的,因为在这种情况下,大的自由度会导致过度拟合。
根据[50],高度为h的倾斜二叉树表示分段常数函数𝑓(𝐱;𝐖,𝐛):ℝ𝑚→ℝ𝐾, 按权重参数化𝐰𝐼(𝑑,𝑙)∈ℝ𝑚, 𝑏𝐼(𝑑,𝑙)∈ℝ 在深度d处从树根到其叶子l的路径上的节点处。这里,𝐼(𝑑,𝑙) 是从树根到其叶l的路径上的节点的索引,深度为d。函数f计算形式为𝐰T𝑗𝐱−𝑏𝑗>0,定义是否𝐱 必须遍历下一个子项的左侧或右侧。在这里𝐖 是由所有参数向量组成的参数矩阵𝐰𝑗; 𝐛 是由参数组成的参数向量𝑏𝑗. 树输出表示为2ℎ 矢量𝜃1,…,𝜃2.ℎ 这样矢量𝜃𝑗∈Δ𝐾 在第j个叶与K类的概率相关联,其中≩𝐾 是维数K的单位单纯形。学习参数的方法之一𝐰𝑖𝑗 和𝑏𝑖𝑗 对于所有节点是最小化形式的预期损失l:
其中指示器功能被所谓的𝜎-硬指示符近似[50],其在前向传递中应用量化函数,但在后向传递中使用平滑激活函数来传播。sigmoid函数的这种特定表示被称为直通算子,并在[52]中提出。
上述表示允许我们根据损失函数(6)有效地应用梯度下降算法来计算树的最优参数。
[50,51]中提出的软树概念是一种处理小型表格数据的有趣方法。然而,我们对软树的实验表明,对于许多数据集,训练倾斜的软树是困难的。因此,我们建议修改标准决策树,以便以神经网络的形式实现它们。
4.决策树函数的Softmax表示
为了克服训练倾斜决策树的困难,我们提出了它的另一种表示形式,使我们能够有效地更新它𝑓𝜃 深度h:
树有(2ℎ−1) 参数化的非叶节点(𝐰𝑗,𝑏𝑗), 哪里
–
𝐰𝑗 是在与节点特征相对应的位置处具有1的单热点向量;
–
𝑏𝑗 是一个阈值;
该树还有2个ℎ 带有值的叶𝐯𝑙, 哪里𝐯𝑙 是与第j个叶相对应的输出矢量。
与函数的表示(10)相反𝑞𝑙, 我们建议避免与树的高度直接比较,因为这种表示需要指示符近似来返回整数值;否则𝑞𝑙 总是计算为零。如果我们使用(10)而不是softmax函数,那么(7)提供叶向量的和来代替选择它们中的一个。我们使用softmax函数来保证叶向量的凸组合。我们将外部指示器替换为具有可训练温度参数的softmax函数𝜏:
哪里𝑠(𝑑,𝑘)∈{−1,1}是节点符号;𝜎 是具有可训练温度或缩放参数的S形𝜔.
所提出的表示可以被解释为在所有候选路径中选择最合适的路径。使用上述表示定义的神经树可以通过具有固定节点权重的随机梯度下降算法进行优化𝐰𝑗; 即,通过仅更新阈值,softmax温度参数𝜏, S形温度参数𝜔, 以及叶值。
5.MIL的软树合奏
解决MIL分类问题的可能方法之一,即构建实例模型𝑔将袋子标签分配给属于袋子的所有实例。在这种情况下,我们获得了一个具有重复实例标签的新实例级数据集,其形式为:
根据[53],RF可以被视为理想的MIL分类器,即使它是在人工制作的实例级数据集上训练的,例如(12),因为RF对目标变量中的噪声具有固有的鲁棒性。在数据集(12)上训练之后,可以将构建的RF的参数视为由袋水平损失(5)定义的优化问题的次优解决方案。在极端最坏的情况下,RF完全过拟合,即它只记住每个实例的袋子标签。
有一些方法试图通过使用训练的RF来重复推断实例标签,然后在获得的实例标签上重新训练RF。一种这样的方法在所谓的MIForests中得到了实施[53]。结果的主要问题是,这些方法重建而不是更新决策树,部分丢失了在不同步骤获得的有用的树结构。
5.1.软树合奏
STE-MIL背后的一个关键思想可以用以下示意算法的形式表示:
让我们为袋子的实例指定不正确的标签;例如分配与相应袋子的标签相同的标签。实例标签可能不正确,因为我们不知道真正的标签,而它们的确定是我们的任务。然而,需要这些标签来构建初始RF。这是整个模型的一种初始化过程,以端到端的方式进行训练。
下一步是将初始RF转换为具有特定架构的神经网络。为了实现这一步骤,通过可训练参数对RF中每棵树的非叶节点进行参数化𝐛, 𝜏, 𝜔, 和不可训练的参数𝐖.
树节点的参数𝐛, 𝜏, 𝜔 通过使用随机梯度下降算法来更新,以最小化(5)中定义的袋损失。为了实现更新算法,我们建议对树路径指示符进行近似𝑞𝑙(𝐱,𝐖,𝐛,𝜏,𝜔), 通过使用特定的softmax表示(11)。这是算法的关键步骤,它允许我们通过更新神经网络来更新树,并将树或RF纳入整个模块方案中,包括注意力机制和分类器。
假设由T个决策树组成的RF已经在重复的实例标签上进行了训练(12)。我们将它的树转换为一组实现函数的T神经网络𝑓(1)(𝐱),…,𝑓(𝑇)(𝐱), 使得第i个树对应于实现该功能的第i个网络𝑓(𝑖)(𝐱). 将树转换为神经网络后,我们可以更新它们的参数,以最大限度地减少袋级损失(5)。一个新实例的集合预测𝐱 定义如下:
下一个问题是如何将决策树转换为神经网络。
5.2.神经网络的树
假设RF是在人工数据集(12)上训练的。然后,它可以转换为具有特定结构的神经网络。具有M个内部决策节点和L个叶的树表示为具有以下三层的神经网络:
第一层旨在近似节点谓词。它是一个具有m个输入(维度为𝐱) 和M个输出,即:
哪里𝐖∈ℝ𝑟×𝑚 是由r个向量组成的不可训练参数的矩阵𝐰𝑖∈ℝ𝑚; r是树节点的总数;𝐛∈ℝ𝑟 是可训练的偏置向量;𝜔 是乙状结肠的可训练温度参数𝜎.
因此,第一层只有可训练的参数𝐛 和𝜔. 矩阵𝐖 由在对应于节点特征的位置处具有1的一个热矢量组成。
第二层旨在估计叶片指数。它是具有M个输入和L个输出的全连接层,具有一个可训练参数𝜏:
哪里𝐑∈ℝ𝐿×𝑀 是一个不可训练的路由矩阵,它对决策路径进行编码,使得一条路径形成一行𝐑; 𝐑𝝽∈ℝ𝑀 是输入矢量;𝐬∈ℝ𝐿 是不可训练的偏置向量;𝜏 是softmax操作的可训练温度参数。
矩阵𝐑 由集合中的值组成:{−1,0,1}。如果到第i个叶的路径不包含第j个节点,则𝑅𝑖,𝑗=0。否则,如果路径指向左分支,则𝑅𝑖,𝑗=−1,以及𝑅𝑖,𝑗=如果路径指向右侧分支,则为1。矢量𝐬=(𝑠1,…,𝑠2.ℎ) 需要平衡决策路径。(11)中从路径到第k个叶的S形函数的和可以表示为:
因为它持有𝜎(−𝜔)=1−𝜎(𝜔).
第三层旨在计算输出值(嵌入)。它是可训练和完全连接的。每个叶子生成大小为C的类概率向量。我们取概率𝑣1(𝐱) 第1课,并重复一遍𝐸−1次,使得整个嵌入𝐯(𝐱)=(𝑣(1) 1(𝐱),…,𝑣(𝐸)1(𝐱)) 长度为E。网络(或第三层)的最终输出形式为
哪里𝐕∈ℝ𝐸×𝐿 是由L个向量组成的可训练叶值矩阵𝐯(𝐱).
将树转换为神经网络的示例如图1所示。考虑了一个具有三个决策节点和四个叶子的完整决策树,如图1所示。神经网络的第一层计算树内部节点的所有决策。矩阵𝐑 使得每一行表示到树的相应叶子的路径。例如,第一行的值为(−1,−1,0),因为叶的路径𝑙1通过节点𝑑1和𝑑2向左。第三行的值为(1,0,−1),因为第三个叶的路径𝑙3个通过节点𝑑向右1,不通过节点𝑑2并通过节点𝑑3向左。矢量的元素𝐬 等于左转弯次数,等于𝐑.
树提供的类分布是通过计算相关实例所在的叶节点处实例的不同类的百分比来计算的。形式上,初始估计j树的第l个叶的叶值向量如下:
哪里𝐽(𝑙) 是属于第l个叶子的训练点的索引集。
我们使用常数矩阵𝐖, 以保持轴平行的决策平面。它被初始化为决策树分割特征的一个热编码表示。只有偏见𝐛 第一层的神经网络是可训练的,并用决策树分裂阈值的负值初始化。
矩阵𝐕 其中一个叶值是用重复的树叶值初始化的,即每列包含与原始树叶值相等的相同值。
路由矩阵的算法𝐑 构造如算法1所示。
5.3.拟建软树的特点
sigmoid和softmax温度参数从值0.1开始训练,以避免必须将它们作为超参数进行拟合。作为可训练参数的温度不是多余的,因为神经网络的第一层包含固定权重矩阵𝐖, 所以𝐖𝐱+𝐛 不能等同于𝜏(𝐖𝐱+𝐛). softmax操作也是如此,它包含从0到1的固定数量的项。
与[50]相反,我们没有使用倾斜树,因为它们可能会导致表格数据的过度拟合。具有轴平行分离超平面的树允许我们为表格数据建立准确的模型,其中特征的线性组合通常没有意义。
因此,我们也没有使用过帧化,这是用量化决策规则训练决策树时收敛的关键因素(当指标不是由S形函数表示,而是由所谓的直通算子[52]表示时)。
我们使用softmax作为argmax运算的近似值,而不是指标函数总和的近似值。在预测阶段,[50]中提出的算法的实现使用了sigmoid函数,可以同时预测几个叶子上的值的总和。
此外,我们可以降低温度𝜔 使得决策规则变得更加严格。不幸的是,这在实践中不起作用,因为(ℎ>3) 在同一条道路上,经常会学到不一致的规则,这些规则在低温下给出“正确”的值,在小温度下退化𝜔. 因此,精度开始降低𝜔 减少。如果我们不减少𝜔, 那么这些树可能不再是轴平行的
6.注意力与STE-MIL的整体方案
训练后,与第k棵树对应的每个神经网络的输出是嵌入𝐯(𝑖)𝑗,𝑘 长度为E,其中i和j分别是相应袋子和袋子中实例的索引。这意味着我们获得了T个嵌入𝐯(𝑖)𝑗,1,…,𝐯(𝑖)𝑗,𝑇 对于来自第i个袋子的第j个实例,𝑗=1,…,𝑛, 𝑖=1,…,𝑁, 在所有RF中具有相同数量的树的假设下。需要注意的是,RF中的树木数量可能不同。然而,为了简单起见,我们考虑了相同的数字。
嵌入𝐯𝑖,1,…,𝐯𝑖,𝑇 通过使用(例如)平均运算进行聚合,得到向量𝐞(𝑖)𝑗, 𝑗=1,…,𝑛, 对应于第i个袋子。然后,聚合嵌入𝐞(𝑖)1,…,𝐞(𝑖)𝑛 以获得矢量形式的第i个袋子的最终表示𝐚𝑖, 其被分类。这促使我们用嵌入来代替树叶上的类概率分布𝐯 如上所述。我们可以定义几种从类概率分布构造嵌入的方法。然而,我们选择了一个简单的程序,它从准确性和计算的角度证明了它的有效性。
因此,STE-MIL背后的第二个想法是通过使用注意力机制来聚合所有包上的嵌入,并通过将聚合嵌入线性投影到一维空间来计算预测logits。这一想法也受到了[23]中提出的注意力-MIL方法和[25]中提出的多注意力多实例学习模型的启发,这可能有助于训练更好的袋级分类器。整个STE-MIL模型的方案如图2所示。从图2中可以看出,每个实例(𝐱(𝑖)𝑗) 从第i个包学习相应的RF,以便将嵌入组合到聚合向量𝐞(𝑖)𝑗. 矢量𝐞(𝑖)𝑗, 𝑗=1,…,𝑛𝑖, 就注意力机制而言,可以被视为关键。他们关注并产生矢量𝐚𝑖, 其是分类器的输入。整个系统针对所有行李中的所有实例进行训练。
图2:STE-MIL的一个集成方案。
注意力模块生成一个新的聚合嵌入𝐚𝑘 对应于第k个袋子,其计算如下:
7.数值实验
为了将所提出的模型与其他现有的MIL分类模型进行比较,我们在著名的数据集Musk1、Musk2(药物活性)[4]、Fox、Tiger和Elephant(图像分为补丁)[15]上训练了相应的模型。表1显示了对应数据集的包数量N、每个包中的实例数量N以及实例中的特征数量m。Musk1数据集包含92个包,因此每个包由476个具有166个特征的实例组成。平均袋子尺寸为5.17。Musk2数据集包含102个包,因此每个包由6598个实例和166个特征组成。平均袋子尺寸为64.69。每个数据集(Fox、Tiger和Elephant)正好包含200个包,由230个特征的不同数量的实例组成。Fox、Tiger和Elephant数据集中的实例数分别为1302、1220和1391。数据集的平均袋尺寸分别为6.60、6.96和6.10。
表1。分类数据集简介
所考虑的数据集是在实际任务的基础上创建的。特别是,数据集Musk1和Musk2是真实的药物活性预测数据集,这使我们能够研究分子如何具有麝香性质。使用这些数据库的任务是将分子分类为阳性(麝香)或阴性(非麝香)[4]。一个分子存在于多个构象(其特定构型)中,在MIL术语中,这可以被视为未标记的实例,因为不可能观察和测量单个构象的特征[9]。同时,人们可以观察到相应分子的特性。因此,如果分子的一个或多个构象显示出麝香状,则分子被标记为阳性。它可以看作一个袋子。
狐狸、老虎和大象的数据集是从包含相应动物的图像中获得的[15]。每个图像被划分为由颜色、纹理和形状特征表示的小块。如果图像中至少有一个补丁包含动物,那么作为袋子的图像被标记为阳性。
这些数据集的准确性度量也是通过以下众所周知的MIL分类模型获得的;mi SVM[15]、mi-SVM[15]、mi内核[54]、EM-DD[55]、mi图[56]、mi VLAD[57]、mi FV[57]、mi网[19]、mi网[19]、带DS的mi网[19、带RC的mi网[9]、注意力和门控注意力[23]。
我们研究了用于初始化的极端随机树(ERT),因为它们提供了更好的结果。在每个节点,ERT算法为每个特征随机选择一个分割点,然后在这些分割点中选择最佳分割点[58]。
在实验中,我们还使用了以下内容:具有可训练温度参数的sigmoid函数𝜔, 以10初始化,作为指示符近似值;带可训练温度参数的softmax操作𝜏, 其也被初始化为10;决策树的数量T为20;树木最大深度h为5;每个嵌入向量的维度E为4;划时代的数量为2000个;批量大小为20,学习率为0.01。
精度测量(平均值和标准偏差)通过使用五倍交叉验证进行计算。最佳结果以粗体显示在表格中。Elephant、Fox和Tiger数据集的数值结果如表2所示。从表2中可以看出,STE-MIL在所有数据集上都表现出色。数据集Musk1和Musk2的数值结果如表3所示。从表3中可以看出,对于数据集Musk1,所提出的模型优于所有其他模型。然而,STE-MIL为数据集Musk2提供了最差的结果。造成这一结果的原因之一是Musk2中的袋子由许多实例组成。这意味着STE-MIL处理小数据集的优势无法在该数据集上显示出来。
表2。使用Elephant、for和Tiger数据集对众所周知的MIL分类模型、RF和STE-MIL进行比较的准确性测量(平均值和标准差)。
表3。使用数据集Musk1和Musk2对众所周知的MIL分类模型RF和STE-MIL进行比较的准确性测量(平均值和标准差)
还应指出的是,对于所有考虑的数据集,注意力[23]和门控注意力[23]模型估计的标准偏差值小于STE-MIL结果对应的标准偏差(见表2和表3)。其中一个原因是决策树的数量𝑇=在STE-MIL的数值实验中得到的20是相当小的。一方面,如果我们增加这个数字,那么训练参数的数量也会增加,导致过拟合。另一方面,树的数量少可能是结果不确定的原因。减少不确定性是一个开放的研究课题。
8.结论
8.1.讨论
提出了一种基于RF的模型来解决小型表格数据的MIL分类问题。它基于将决策树转换为特定形式的神经网络来训练决策树。此外,它还使用注意力机制来聚合袋子信息,提高分类精度。注意力机制也可以用来解释为什么测试包被分配了特定的标签,因为注意力显示了测试包实例的权重,并选择了最有影响力的实例。
许多作者在评估MIL模型时使用的知名数据集的数值实验表明,STE-MIL优于许多模型,包括以下模型:mi SVM、mi-SVM、mi Kernel、EM-DD、mi Graph、mi VLAD、mi FV、mi Net、mi Net、mi Net with DS、mi Net with RC、注意力和门控注意力模型。
STE-MIL的一个重要优势是,它成功地将决策树的积极特性与神经网络的特性相结合,以端到端的方式学习复杂函数,从而准确地对小型表格数据进行分类。这种组合是通过引入软决策树并将决策树转换为神经网络来实现的。STE-MIL背后的另一个有益想法是使用类概率分布形式的树输出作为嵌入,这使我们能够应用注意力机制。此外,我们提出了几个额外的改进,提高了整个MIL模型的分类精度。其中包括在构建决策树时使用轴平行分离超平面,使用softmax运算作为argmax运算的近似,将决策树转换为神经网络的原始方法。
所提出的想法和改进使得在拥有少量表格训练数据的情况下创建一个相当有效的工具来解决MIL问题成为可能。
8.2.开放式研究问题
为了显著改进所提出的STE-MIL,有几个悬而未决的研究问题需要研究。此外,STE-MIL背后的思想可以用于其他已知的MIL模型。
首先,研究如何将相邻的补丁或每个分析补丁的实例合并到STE-MIL方案中是很有趣的,如[25]所示。引入邻居可以显著提高STE-MIL的分类精度。
应该注意的是,RF作为决策树的集合,被用于STE-MIL。同时,梯度提升机[59,60]也是一个有效的模型,它使用决策树作为弱学习器,也可以用于STE-MIL方案。然而,我们在使用梯度增压机时遇到了几个悬而未决的问题。首先,在这种情况下,如何实施注意力机制并不明显。问题是,梯度提升中的每棵树都建立在由残差组成的新数据集上。其次,整个模型的端到端学习也是一个悬而未决的问题。
另一个悬而未决的问题是如何使所提出的模型适应大的图像数据;例如在组织学图像的情况下。在这种情况下,我们需要将图像简化为表格数据,以便构建决策树。其中一种方法是对每个图像实例使用自动编码器来获得低维的相应嵌入。问题是如何将这种自动编码器结合到STE-MIL方案中,以端到端的方式进行训练。
8.3.结束语
STE-MIL的一个重要特性是,它为使用可训练决策树作为神经网络构建各种模型打开了大门。与使用倾斜决策树的模型相比,所提出的可训练树的训练参数数量非常少,防止了训练过程的过拟合。因此,当考虑小型表格数据集时,这些模型可能是有效的。STE-MIL的另一个特点是该模型非常简单明了。模型的所有组件都是简单实现的。
我们已经展示了如何在MIL模型中使用STE-MIL的引入组件,包括软树集成、决策树到神经网络的转换过程,以及树作为嵌入产生的预测类概率分布的表示,以获得更好的结果。然而,它们可以应用于广泛的机器学习模型和任务,这些模型和任务旨在基于小型表格数据集对实例进行分类。因此,STE-MIL中提出的组件的贡献超出了工作中考虑的应用范围。
作者贡献
概念化,L.U.和A.K。;方法论,L.U.和V.M。;软件,A.K。;验证、V.M.和A.K。;形式分析,A.K.和L.U。;A.K.和V.M.调查。;资源、L.U.和V.M。;数据管理,V.M。;写作——起草原始草案,L.U.和A.K。;写作——评审和编辑,A.K.和V.M。;可视化,A.K。;监管,L.U。;项目管理,V.M。;资助收购,V.M.所有作者都已阅读并同意手稿的出版版本。
基金
该研究由俄罗斯联邦科学和高等教育部提供部分资金,作为世界级研究中心项目:先进数字技术的一部分(合同编号:075-15-2022-311,日期:2022年4月20日)。
数据可用性声明
不适用。
鸣谢
作者想对匿名评审表示感谢,他们的宝贵意见改善了论文。
利益冲突
提交人声明没有利益冲突。
参考文献
哈格尔先生。;Seegerer,P。;Lapuschkin,S。;Bockmayr,M。;Samek,W。;Klauschen,F。;穆勒,K.R。;Binder,A.使用解释方法解决基于深度学习的组织病理学图像分析中的挑战。科学。众议员2020,106423。【谷歌学者】【交叉参考】【Pub Med】【绿色版】
van der Laak,J。;Litjens,G。;Ciompi,F.组织病理学的深度学习:通往临床的道路。《自然医学》,2021,27775–784。[谷歌学者][交叉参考][Pub Med]
Yamamoto,Y。;Tsuzuki,T。;Akatsuka,J.从未标记的组织病理学图像中自动获取可解释的知识。国家通讯社。2019年,105642。【谷歌学者】【交叉参考】【Pub Med】【绿色版】
Dieterich,T。;Lathrop,R。;Lozano Perez,T.用轴平行矩形求解多实例问题。工件。Intell。1997,89,31-71。【谷歌学者】【交叉参考】【绿色版】
朱。;赵,B。;Gao,Y.基于袋特征选择的肺癌癌症图像分类的多层次多实例学习。2008年第五届模糊系统与知识发现国际会议论文集,2008年10月18-20日,中国济南;第2卷,第487–492页。[谷歌学者]
魏,X.S。;叶。;Mu,X。;吴,J。;沈。;周,Z.H.新兴小说课的多实例学习。IEEE Trans。知道。数据工程2019,332109–2120。[谷歌学者][交叉参考]
Amores,J.多实例分类:综述、分类学和比较研究。工件。Intell。2013年,201,81–105。[谷歌学者][交叉参考]
Babenko,B.多实例学习:算法与应用;技术报告;加利福尼亚大学:美国加利福尼亚州圣地亚哥,2008年。[谷歌学者]
Carbonneau,M.A。;Cheplygina,V。;Granger,E。;Gagnon,G.多实例学习:对问题特征和应用的调查。模式识别器。2018年,77329-353。【谷歌学者】【交叉参考】【绿色版】
Cheplygina,V。;de Bruijne,M。;Pluim,J.不那么受监督:医学图像分析中的半监督、多实例和迁移学习的调查。医学图像分析。2019年,54280-296。【谷歌学者】【交叉参考】【绿色版】
Quellec,G。;Cazuguel,G。;Cochener,B。;医学图像和视频分析的多实例学习。IEEE Rev.Biomed。Eng.2017,10213-234。[谷歌学者][交叉参考]
姚,J。;朱,X。;Jonnagaddala,J。;霍金斯,N。;Huang,J.使用注意力引导的深度多实例学习网络进行基于整张幻灯片图像的癌症生存预测。医学图像分析。2020年,6510789。[谷歌学者][交叉参考]
周:多实例学习研究综述;技术报告;南京大学新型软件技术国家实验室:中国南京,2004年。[谷歌学者]
Srinidhi,C。;Ciga,O。;Martel,A.L.计算组织病理学的深度神经网络模型:一项调查。医学图像分析。2021年,67101813。[谷歌学者][交叉参考]
Andrews,S。;Tsochantaridis,I。;Hofmann,T.支持向量机进行多实例学习。第15届国际神经信息处理系统会议论文集,NIPS’02;麻省理工学院出版社:美国马萨诸塞州剑桥,2002年;第577–584页。[谷歌学者]
Chevaleye,Y。;Zucker,J.D.用决策树和规则集解决多实例和多部分学习问题。应用于诱变问题。《加拿大智能计算研究学会双年度会议论文集:人工智能进展》;计算机科学讲义;施普林格:柏林/海德堡,德国,2001年;第2056卷,第204–214页。[谷歌学者]
克劳斯。;Ba,J。;Frey,B.使用深度多实例学习对显微镜图像进行分类和分割。生物信息学2016,32,i52–i59。【谷歌学者】【交叉参考】【绿色版】
孙,M。;韩。;刘,医学博士。;Khodayari Rostamabad,A.用于对象识别的多实例学习卷积神经网络。《国际模式识别会议记录》,墨西哥坎昆,2016年12月4日至8日;第3270–3275页。[谷歌学者]
王,X。;严。;唐。;白,X。;刘。重新审视多实例神经网络。模式识别器。2018年,74,15-24。【谷歌学者】【交叉参考】【绿色版】
王,J。;Zucker,J.D.解决多实例问题:一种懒惰的学习方法。《第十七届机器学习国际会议论文集》,ICML,美国加利福尼亚州斯坦福,2000年6月29日至7月2日;第1119-1126页。[谷歌学者]
Pappas,N。;Popescu Belis,A.通过加权多实例学习的显式文档建模。J.人工制品。Intell。Res.2017,58591–626。【谷歌学者】【交叉参考】【绿色版】
Fuster,S。;Eftestol,T。;Engan,K.用注意力机制嵌套多实例学习。ar Xiv 2021,ar Xiv:2111.00947。[谷歌学者]
Ilse,M。;Tomczak,J。;Welling,M.基于注意力的深度多实例学习。第35届机器学习国际会议论文集,PMLR,瑞典斯德哥尔摩,2018年7月10日至15日;第80卷,第2127-2136页。[谷歌学者]
姜,S。;Suriawinata,A。;Hassanpour,S.MHAttn Surv:使用全玻片病理学图像进行生存预测的多头注意力。ar Xiv 2021,ar Xiv:2110.11558。[谷歌学者][交叉参考]
Konstantinov,A。;多注意多实例学习。神经计算机。Appl。2022年,3414029–14051。[谷歌学者][交叉参考]
Rymarczyk,D。;Kaczynska,A。;克劳斯,J。;Pardyl,A。;Zielinski,B.Proto MIL:利用原型部件进行多实例学习以实现细粒度的可解释性。ar Xiv 2021,ar Xiv:2108.10612。[谷歌学者]
王,Q。;周。;黄,J。;刘。;李。;徐。;Cheng,J.Z.基于分层注意的多实例学习网络在癌症患者诊断中的应用。2020年12月16日至19日,在韩国首尔举行的2020年IEEE生物信息学和生物医学国际会议论文集上;第1156-1160页。[谷歌学者]
Heath,D。;Kasif,S。;IJCAI,S.S.倾斜决策树的归纳。《国际人工智能联合会议论文集》,1993年8月28日至9月3日,法国尚贝里;1993年第1002-1007页。[谷歌学者]
Taser,P。;Birant,K。;Birant,D.基于集成的多实例学习方法的比较。2019年7月3日至5日,在保加利亚索非亚举行的2019年IEEE智能系统和应用创新国际研讨会(INISTA)
冯,J。;周,Z.H.深度miml网络。《AAAI人工智能会议论文集》,美国加利福尼亚州旧金山,2017年2月4日至9日;第31卷,第1884-1890页。[谷歌学者]
刘,Q。;周,S。;朱。;刘,X。;Yin,J.MI-ELM:基于分层极值学习机的高效多实例学习。神经计算2016,173,1044–1053。[谷歌学者][交叉参考]
徐,Y.用于图像检索和分类的基于多实例学习的决策神经网络。神经计算2016,171826–836。[谷歌学者][交叉参考]
Rymarczyk,D。;Borowa,A。;Tabor,J。;Zielinski,B.使用深度多实例学习的弱监督图像分类的核自注意。在2021年1月3日至8日于美国HI州怀科洛亚举行的IEEE计算机视觉应用冬季会议论文集上;第1721-1730页。[谷歌学者]
唐,X。;刘,M。;钟H。;Ju,Y。;李。;Xu,Q.MILL:滑坡识别中基于通道注意力的深度多实例学习。ACM Trans。多模式。Comput。Commun。Appl。(TOMM)2021,17,1-11。[谷歌学者][交叉参考]
李,B。;李。;Eliceiri,K.用于自监督对比学习的全幻灯片图像分类的双流多实例学习网络。在美国田纳西州纳什维尔举行的IEEE/CFF计算机视觉和模式识别会议论文集,2021年6月20-25日;第14318-14328页。[谷歌学者]
齐。;郝,S。;凯春,M。;Leonidas,J.Pointnet:3D分类和分割的点集深度学习。2017年7月21日至26日,美国夏威夷火奴鲁鲁,IEEE计算机视觉和模式识别会议论文集;第652-660页。[谷歌学者]
Schmidt,A。;Morales Alvarez,P。;Molina,R.深度多实例学习中基于高斯过程的概率注意力。ar Xiv 2021,ar Xiv:2302.04061。[谷歌学者][交叉参考][Pub Med]
Costa,V。;Pedreira,C.决策树的最新进展:最新调查。工件。Intell。修订版2022,564765–4800。[谷歌学者][交叉参考]
Wickramarachchi,D。;Robertson,B。;Reale,M。;价格,C。;Brown,J.HHCART:一个倾斜的决策树。Comput。统计数据分析。2016,96,12-23。【谷歌学者】【交叉参考】【绿色版】
Madaan,L。;Bhojanapalli,S。;Jain,H。;Jain,P.Treeformer:用于有效注意力计算的密集梯度树。ar Xiv 2022,ar Xiv:2208.09015。[谷歌学者]
Bengio,Y。;Leonard,N。;Courville,A.通过条件计算的随机神经元估计或传播梯度。ar Xiv 2013,ar Xiv:1308.3432。[谷歌学者]
Leistner,C。;Saffari,A。;Bischof,H.MIForests:随机树的多实例学习。《欧洲计算机视觉会议论文集》,希腊克里特岛,2010年9月5日至11日;第29-42页。[谷歌学者]
Gartner,T。;Flach,P。;Kowalczyk,A。;Smola,A.多实例内核。2002年7月8日至12日,澳大利亚悉尼;第2卷,第179-186页。[谷歌学者]
张,Q。;Goldman,S.Em dd:一种改进的多实例学习技术。2002年12月9日至14日,在加拿大不列颠哥伦比亚省温哥华举行的《国家公共政策研究院院刊》上;第1073-1080页。[谷歌学者]
周。;孙,Y.Y。;李,Y.F.将实例作为非iid样本进行多实例学习。2009年6月14日至18日,加拿大蒙特利尔,ICML会议记录;第1249-1256页。[谷歌学者]
魏,X.S。;吴,J。;周,Z.H.用于多实例学习的可伸缩算法。IEEE Trans。神经网络。学系统。2017年,28975–987。[谷歌学者][交叉参考]
Geurts,P。;Ernst,D。;Wehenkel,L.极度随机化的树木。马赫。学2006年,63,3-42。【谷歌学者】【交叉参考】【绿色版】
Friedman,J.Greedy函数近似:一个梯度提升机。Ann.Stat.2001,291189-1232。[谷歌学者][交叉参考]
Friedman,J.随机梯度助推。Comput。统计数据分析。2002年,38367–378。[谷歌学者][交叉参考]
https://www.mdpi.com/1999-4893/16/8/358