Metagenomic binning with assembly graph embeddings

简介: GraphMB方法
发表年月 2022.08 期刊 BIOINFORMATICS 中科院分区 二区top
影响因子 6.931 是否 OA 阅读时间 2022.10.25

背景

(1) 微生物群落在生物圈的大多数过程中发挥着至关重要的作用,对于解决当前和未来的环境挑战至关重要(Timmis等人,2017年)。例如,人类微生物群对健康和疾病的影响(Gilbert等人,2018年),新抗生素的发现(Ling等人,2015年),以及将废物转化为贵重物品(Nielsen,2017年)。宏基因组学有望使人们能够从复杂的微生物群落中获取微生物的基因组,从而帮助实现其潜力。然而目前很难从复杂的群落中获取高质量基因组。

(2) 有一些基于k-mer和丰度的方法,metabat2,maxbin2,用单拷贝基因获得bins的数量。

(3) 最近出现深度学习方法,VAMB,利用VAE编码丰度和kmer特征。LRBinner还有SemiBin方法

(4) 组装图方法:Graphbin MetaCoAG:将装配图用于最后一步,没有应用于整个过程,可能会出现错误。存在相同物种的变体,将会产生错误的bins。

(5) 介绍GraphSAGE方法:对每个节点的邻居进行采样,并在考虑到其邻居的嵌入的情况下更新节点的嵌入。为了在未标记节点上训练GraphSAGE,计算相邻节点之间的相似度并更新模型权重,以最大化这种相似度,同时最小化随机节点对之间的相似性。损失函数使用二元交叉熵函数,它将边缘的两个节点的嵌入之间的点积作为输入。此外,原始的GraphSAGE实现还认为所有邻居具有相同的重要性,而在组装图上,某些边可能比其他边更强。

(6) 很多都是基于短read的组装很少有基于长read的组装(graphbin)。长read能够生成more sparse 组装图同时能更稳定估计组成和覆盖率。

(7) 本文作者提出GraphMB,

img

(7) 每个contigs的特征来自于图结构和节点属性两种特征。作者使用最先进的深度学习技术来实现这一目标,GNN模型来学习基于节点特征和图结构学习图节点的表示。

主要方法

(1) GraphMB的主要观点是生成基于contigs的kmer特征和覆盖率特征以及组装图的嵌入表示,然后进行聚类,再根据完成性和污染度进行评估。相对于原始特征,通过嵌入表示之后的特征具有较小的维度,可以对原始特征中的潜在关系进行encode。the assembly graph describes which contigs are connected, and how many reads support that connection (read coverage).用这些信息训练GNN,并生成考虑contig邻域的节点嵌入。

img

(2) (a)输入数据:FASTA(contig序列)GFA(组装图),组装软件:Flye(该软件的优点是能将每个边的read覆盖率包含在组装图文件中。不同的边read覆盖率表示不同的边权重)。Read的覆盖率越大,对于模型影响越大。当然GraphMB也可用于没有权重信息的GFA文件。作者没有在这种类型的数据集上测试,作者的所有真实数据集都有这种信息。CSV文件:包含每个contig上发现的单拷贝基因,该文件用来评估聚类的完整度和污染度。(best training checkpoint?)。如果没有该文件,选择最后一个checkpoint。另外,一个有contig标签的文件也可达到相同的效果。另外一个CSV文件:不同样本上的每个contig的丰度信息。绝大多数contig仅有一条边。

(3) (b)contig嵌入:kmer和coverage作为输入,使用VAE模型:一个编码器一个解码器。使用VAMB中的VAE,将重建损失分为两部分(组分10%和丰度90%)。

image-20221029144818227

(5) (d)图嵌入:The hidden state of each contig (represented in Fig. 1d by the empty squares) is concatenated with the aggregation of the hidden states of the sampled neighbors.然后引入一个前馈神经网络来生成图嵌入以之前的concatentation作为输入。然后隐藏层的输入对应每一个contig前一层的输出。最终的输出层就是图嵌入结果。引入如下损失函数:

img

img

(6) (e)聚类: We cluster the concatenation of the contig-specific embeddings and graph embeddings with the iterative medoid clustering algorithm used by VAMB。

(7)评估:用CheckM来评估完整性和污染度。用DASTool组合生成的所有bins。

实验结果

(1) https://github.com/MicrobialDarkMatter/GraphMB

img

img

使用到的数据集

(1) We run experiments on one simulated dataset, six Wastewater Treatment Plant (WWTP) datasets and one soil sample

(2) The simulated dataset was generated using badread (Wick, 2019) (v0.2.0), by generating reads according to the methodology proposed by Quince et al. (2021).

(3) 组装软件:metaflye,

(4) 真实数据集:WWTP:PRJNA629478 土壤样本:PRJEB50688

(5) https://doi.org/10.5281/zenodo.6122610:所有可用数据集。

image-20221029144416903

当前存在的问题/发展方向

(1) GraphMB在模拟数据集上与其他binner效果相当,但在真实数据集上能获得更多的HQ bin.

(2) 作者建议测试不同数量的隐藏层单元(128-512),嵌入维度(32-128),和学习率(img)在不同的数据集上。

(3) GraphMB的性能依靠组装图,在soil数据集中由于有更多的边,但是也有一个较差的结果,虽然相比其他binner更高。作者打算使用GAT来处理复杂图。

(4) 作者将可能属于多个物种的contigs分配到一个bin中,在未来作者希望将属于多个物种的contig分配到多个bin中。需要改变组装图结构。Tolstoganov et al., 2022目前已经这样做了。

(5) GraphMB受到输入的contig嵌入表示的影响,也就是GNN的输入。GraphMB在Viby数据集上表现更糟相比于MetaBat2,VAMB也有更坏的性能(因为只有一个嵌入表示)。为了克服这个问题,作者计划提出端到端架构能够同时训练VAE和GNN。This would mean that instead of having static contig-specific embeddings, these could be fine-tuned while training the GNN.

相关文章
|
4月前
|
算法 数据挖掘
文献解读-Genome-wide imputation using the practical haplotype graph in the heterozygous crop cassava
PHG是一种将基因组简化为一组单倍型的方法。这种方法可用于从稀疏的基因分型信息中预测杂合子物种中的全基因组单倍型。它的高精度,特别是在稀有等位基因中,在非常低的测序深度下,使其成为一种潜在的强大插补工具。
43 4
|
7月前
|
机器学习/深度学习 算法 关系型数据库
Hierarchical Attention-Based Age Estimation and Bias Analysis
【6月更文挑战第8天】Hierarchical Attention-Based Age Estimation论文提出了一种深度学习方法,利用层次注意力和图像增强来估计面部年龄。通过Transformer和CNN,它学习局部特征并进行序数分类和回归,提高在CACD和MORPH II数据集上的准确性。论文还包括对种族和性别偏倚的分析。方法包括自我注意的图像嵌入和层次概率年龄回归,优化多损失函数。实验表明,该方法在RS和SE协议下表现优越,且在消融研究中验证了增强聚合和编码器设计的有效性。
59 2
|
8月前
|
机器学习/深度学习 自然语言处理 ice
[GloVe]论文实现:GloVe: Global Vectors for Word Representation*
[GloVe]论文实现:GloVe: Global Vectors for Word Representation*
61 2
[GloVe]论文实现:GloVe: Global Vectors for Word Representation*
|
8月前
|
算法 TensorFlow 算法框架/工具
[FastText in Word Representations]论文实现:Enriching Word Vectors with Subword Information*
[FastText in Word Representations]论文实现:Enriching Word Vectors with Subword Information*
50 2
|
机器学习/深度学习 人工智能 自然语言处理
OneIE:A Joint Neural Model for Information Extraction with Global Features论文解读
大多数现有的用于信息抽取(IE)的联合神经网络模型使用局部任务特定的分类器来预测单个实例(例如,触发词,关系)的标签,而不管它们之间的交互。
209 0
|
存储 自然语言处理 测试技术
LASS: Joint Language Semantic and Structure Embedding for Knowledge Graph Completion 论文解读
补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同
144 0
|
监控
DFNet: Enhance Absolute Pose Regression withDirect Feature Matching
DFNet: Enhance Absolute Pose Regression withDirect Feature Matching
163 0
|
机器学习/深度学习 人工智能 自然语言处理
NAACL2021 AMR-IE: Abstract Meaning Representation Guided Graph Encoding and Decoding for Joint IE
富语义解析的任务,如抽象语义表示(AMR),与信息抽取(IE)具有相似的目标,即将自然语言文本转换为结构化的语义表示。为了利用这种相似性
301 0
|
机器学习/深度学习 自然语言处理 算法
SS-AGA:Multilingual Knowledge Graph Completion with Self-Supervised Adaptive Graph Alignment 论文解读
预测知识图(KG)中缺失的事实是至关重要的,因为现代知识图远未补全。由于劳动密集型的人类标签,当处理以各种语言表示的知识时,这种现象会恶化。
116 0
|
机器学习/深度学习 编解码 数据挖掘
A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth
A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth
118 0
A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth