发表年月 | 2022.04 | 期刊 | Genomics | 中科院分区 | 二区 |
---|---|---|---|---|---|
影响因子 | 5.034 | 是否OA | 是 | 阅读时间 | 2022.10.24 |
原文链接 | https://arxiv.org/abs/2204.12270 |
背景
(1) 微生物群落对人类健康和环境有直接影响,它们在实现可持续发展目标方面发挥着至关重要的作用,特别是良好健康和福祉(SDG-3)、水下生活(SDG-14)和陆地生活(SDG 15)等。然而,要想探索微生物的潜力以造福大众,就需要从多样性和功能等方面对微生物世界有一个敏锐的理解。宏基因组学在DNA水平上研究微生物群落,理论上可以恢复样本中所有微生物的基因组。然而,这是一项复杂的任务,因为DNA测序技术只能产生全基因组的片段,而且由于当前参考数据库的不完整,环境样品中大多数微生物的全基因组仍然未知。
(2) 从碎片的测序数据中恢复宏基因组->binning.分为两步:第一步定义DNA序列之间的相似性概念;第二步进行聚类,也就是bins。大多数binner仅仅利用了局部特征,并没有充分考虑连接性信息。
(3) 介绍图神经网络的应用,其已经被用于binning,例如:[Xue et al., 2021; Lamurias et al., 2022]
(4) 本文作者提出VAEG-Bin,一种基于GNN的binning方法,结合通过VAE获得的局部特征与从组装图获得的全局特征进行融合。在真实和模拟数据集上效果较好。
(5)(Domain background: read越长越好,以完全重建基因组,但read越长也越容易出错,介绍组装图生成原理。Contigs的特征:丰度,k-mer,单拷贝基因(SCG)(两个contigs有相同的SCG一定属于不同的基因组中)
相关研究
(1) 近几年有基于kmer和丰度特征的binner,Metabat2和Maxbin2,. The SCGs associated with each contig are used to estimate the number of bins。
(2) 目前出现深度学习的方法:VAMB:学习节点kmer和丰度特征的嵌入表示。
(3) 组装图方法:Graphbin2:将装配图用于最后一步,没有应用于整个过程,可能会出现错误。存在相同物种的变体,将会产生错误的bins。
主要方法
(1) VAEG-BIN相对于基因组标签保持完全不受监督,基因组标签仅用于定量评估**。与经典的图问题不同,装配图可能存在错误连接。为了解决这个问题,每个边被分配了权重,也就是边缘置信度[0,1]。
(2)$z_l$是变分自编码器学习到的节点表示,然后GNN将作为输入,然后生成每个节点全局表示。最后,将输入到聚类算法中得到最终结果。
(3)最终目的是进行聚类并为每个节点分配尽可能多的唯一单拷贝基因(SCGS)
(4)$z_l$:用VAE来编码kmer和丰度特征,VAE包括编码器,解码器,还有一些参数。对kmer特征和丰度特征进行归一化。用来训练VAE的损失函数由以下三部分组成:
(5)图表示学习:GNN学习依赖于节点邻域的节点特征。通过以下通用卷积来聚合节点信息
对于不同的GCN,该表达式的表示方式不同。
用来训练GNN的损失函数定义如下:
聚类和评估:为了简单起见,本文用了与[Nissen and others, 2021]一致的聚类算法,修改后的 k-medoids algorithm,不需要初始化聚类的数量。
该算法包括三个步骤:首先通过选取与节点相关联的随机zu来找到种子质心,并计算到所有其他zv的余弦距离。如果在一个小半径内,任何节点的邻居比当前的椭球体多,则该节点将被选为新的椭球。第二步是确定簇半径。计算从所选的椭球体到所有其他节点的距离,该算法试图找到一个最佳距离阈值,该阈值包括大多数附近节点,但足够小,可以排除远处节点,这应该对应于距离直方图中的局部最小值。第三步是从要群集的节点列表中删除该阈值内的节点,并返回到第一步,直到不再剩下未群集的节点
评估:用完整性和污染度,然后用单拷贝基因作为真实标签。
对于模拟数据集可以获得每个节点的真实标签,模拟数据集的评估标准:[Meyer and others, 2018] using the AMBER evaluation tool。如果bin中只有一个节点标签同时不包含其他的标签,那么其准确度就是1
实验结果
与MetaBat2,Vamb,maxbin2,Graphbin方法作比较。
模拟数据集
真实数据集
使用到的数据集
Strong100是模拟数据集(using the badread [Wick, 2019] tool (v0.2.0), where we generated reads according to the methodology proposedin [Quince and others, 2021];),其他是真实数据集。
当前存在的问题/发展方向
有几个有希望的方向可供进一步研究:改进聚类步骤,以更好考虑单拷贝基因在不同的聚类类别中的分布,这一步将涉及改进损失函数,促进簇的高完整性和低污染。结合表示学习和聚类的端到端方法可以进一步改进这项任务。