发表年月 | 2022.08 | 期刊 | BIOINFORMATICS | 中科院分区 | 二区top |
---|---|---|---|---|---|
影响因子 | 6.931 | 是否 OA | 是 | 阅读时间 | 2022.10.25 |
背景
(1) 微生物群落在生物圈的大多数过程中发挥着至关重要的作用,对于解决当前和未来的环境挑战至关重要(Timmis等人,2017年)。例如,人类微生物群对健康和疾病的影响(Gilbert等人,2018年),新抗生素的发现(Ling等人,2015年),以及将废物转化为贵重物品(Nielsen,2017年)。宏基因组学有望使人们能够从复杂的微生物群落中获取微生物的基因组,从而帮助实现其潜力。然而目前很难从复杂的群落中获取高质量基因组。
(2) 有一些基于k-mer和丰度的方法,metabat2,maxbin2,用单拷贝基因获得bins的数量。
(3) 最近出现深度学习方法,VAMB,利用VAE编码丰度和kmer特征。LRBinner还有SemiBin方法
(4) 组装图方法:Graphbin MetaCoAG:将装配图用于最后一步,没有应用于整个过程,可能会出现错误。存在相同物种的变体,将会产生错误的bins。
(5) 介绍GraphSAGE方法:对每个节点的邻居进行采样,并在考虑到其邻居的嵌入的情况下更新节点的嵌入。为了在未标记节点上训练GraphSAGE,计算相邻节点之间的相似度并更新模型权重,以最大化这种相似度,同时最小化随机节点对之间的相似性。损失函数使用二元交叉熵函数,它将边缘的两个节点的嵌入之间的点积作为输入。此外,原始的GraphSAGE实现还认为所有邻居具有相同的重要性,而在组装图上,某些边可能比其他边更强。
(6) 很多都是基于短read的组装很少有基于长read的组装(graphbin)。长read能够生成more sparse 组装图同时能更稳定估计组成和覆盖率。
(7) 本文作者提出GraphMB,
(7) 每个contigs的特征来自于图结构和节点属性两种特征。作者使用最先进的深度学习技术来实现这一目标,GNN模型来学习基于节点特征和图结构学习图节点的表示。
主要方法
(1) GraphMB的主要观点是生成基于contigs的kmer特征和覆盖率特征以及组装图的嵌入表示,然后进行聚类,再根据完成性和污染度进行评估。相对于原始特征,通过嵌入表示之后的特征具有较小的维度,可以对原始特征中的潜在关系进行encode。the assembly graph describes which contigs are connected, and how many reads support that connection (read coverage).用这些信息训练GNN,并生成考虑contig邻域的节点嵌入。
(2) (a)输入数据:FASTA(contig序列)和GFA(组装图),组装软件:Flye(该软件的优点是能将每个边的read覆盖率包含在组装图文件中。不同的边read覆盖率表示不同的边权重)。Read的覆盖率越大,对于模型影响越大。当然GraphMB也可用于没有权重信息的GFA文件。作者没有在这种类型的数据集上测试,作者的所有真实数据集都有这种信息。CSV文件:包含每个contig上发现的单拷贝基因,该文件用来评估聚类的完整度和污染度。(best training checkpoint?)。如果没有该文件,选择最后一个checkpoint。另外,一个有contig标签的文件也可达到相同的效果。另外一个CSV文件:不同样本上的每个contig的丰度信息。绝大多数contig仅有一条边。
(3) (b)contig嵌入:kmer和coverage作为输入,使用VAE模型:一个编码器一个解码器。使用VAMB中的VAE,将重建损失分为两部分(组分10%和丰度90%)。
(5) (d)图嵌入:The hidden state of each contig (represented in Fig. 1d by the empty squares) is concatenated with the aggregation of the hidden states of the sampled neighbors.然后引入一个前馈神经网络来生成图嵌入以之前的concatentation作为输入。然后隐藏层的输入对应每一个contig前一层的输出。最终的输出层就是图嵌入结果。引入如下损失函数:
(6) (e)聚类: We cluster the concatenation of the contig-specific embeddings and graph embeddings with the iterative medoid clustering algorithm used by VAMB。
(7)评估:用CheckM来评估完整性和污染度。用DASTool组合生成的所有bins。
实验结果
(1) https://github.com/MicrobialDarkMatter/GraphMB:
使用到的数据集
(1) We run experiments on one simulated dataset, six Wastewater Treatment Plant (WWTP) datasets and one soil sample
(2) The simulated dataset was generated using badread (Wick, 2019) (v0.2.0), by generating reads according to the methodology proposed by Quince et al. (2021).
(3) 组装软件:metaflye,
(4) 真实数据集:WWTP:PRJNA629478 土壤样本:PRJEB50688
(5) https://doi.org/10.5281/zenodo.6122610:所有可用数据集。
当前存在的问题/发展方向
(1) GraphMB在模拟数据集上与其他binner效果相当,但在真实数据集上能获得更多的HQ bin.
(2) 作者建议测试不同数量的隐藏层单元(128-512),嵌入维度(32-128),和学习率()在不同的数据集上。
(3) GraphMB的性能依靠组装图,在soil数据集中由于有更多的边,但是也有一个较差的结果,虽然相比其他binner更高。作者打算使用GAT来处理复杂图。
(4) 作者将可能属于多个物种的contigs分配到一个bin中,在未来作者希望将属于多个物种的contig分配到多个bin中。需要改变组装图结构。Tolstoganov et al., 2022目前已经这样做了。
(5) GraphMB受到输入的contig嵌入表示的影响,也就是GNN的输入。GraphMB在Viby数据集上表现更糟相比于MetaBat2,VAMB也有更坏的性能(因为只有一个嵌入表示)。为了克服这个问题,作者计划提出端到端架构能够同时训练VAE和GNN。This would mean that instead of having static contig-specific embeddings, these could be fine-tuned while training the GNN.