Metagenomic binning with assembly graph embeddings

简介: GraphMB方法
发表年月 2022.08 期刊 BIOINFORMATICS 中科院分区 二区top
影响因子 6.931 是否 OA 阅读时间 2022.10.25

背景

(1) 微生物群落在生物圈的大多数过程中发挥着至关重要的作用,对于解决当前和未来的环境挑战至关重要(Timmis等人,2017年)。例如,人类微生物群对健康和疾病的影响(Gilbert等人,2018年),新抗生素的发现(Ling等人,2015年),以及将废物转化为贵重物品(Nielsen,2017年)。宏基因组学有望使人们能够从复杂的微生物群落中获取微生物的基因组,从而帮助实现其潜力。然而目前很难从复杂的群落中获取高质量基因组。

(2) 有一些基于k-mer和丰度的方法,metabat2,maxbin2,用单拷贝基因获得bins的数量。

(3) 最近出现深度学习方法,VAMB,利用VAE编码丰度和kmer特征。LRBinner还有SemiBin方法

(4) 组装图方法:Graphbin MetaCoAG:将装配图用于最后一步,没有应用于整个过程,可能会出现错误。存在相同物种的变体,将会产生错误的bins。

(5) 介绍GraphSAGE方法:对每个节点的邻居进行采样,并在考虑到其邻居的嵌入的情况下更新节点的嵌入。为了在未标记节点上训练GraphSAGE,计算相邻节点之间的相似度并更新模型权重,以最大化这种相似度,同时最小化随机节点对之间的相似性。损失函数使用二元交叉熵函数,它将边缘的两个节点的嵌入之间的点积作为输入。此外,原始的GraphSAGE实现还认为所有邻居具有相同的重要性,而在组装图上,某些边可能比其他边更强。

(6) 很多都是基于短read的组装很少有基于长read的组装(graphbin)。长read能够生成more sparse 组装图同时能更稳定估计组成和覆盖率。

(7) 本文作者提出GraphMB,

img

(7) 每个contigs的特征来自于图结构和节点属性两种特征。作者使用最先进的深度学习技术来实现这一目标,GNN模型来学习基于节点特征和图结构学习图节点的表示。

主要方法

(1) GraphMB的主要观点是生成基于contigs的kmer特征和覆盖率特征以及组装图的嵌入表示,然后进行聚类,再根据完成性和污染度进行评估。相对于原始特征,通过嵌入表示之后的特征具有较小的维度,可以对原始特征中的潜在关系进行encode。the assembly graph describes which contigs are connected, and how many reads support that connection (read coverage).用这些信息训练GNN,并生成考虑contig邻域的节点嵌入。

img

(2) (a)输入数据:FASTA(contig序列)GFA(组装图),组装软件:Flye(该软件的优点是能将每个边的read覆盖率包含在组装图文件中。不同的边read覆盖率表示不同的边权重)。Read的覆盖率越大,对于模型影响越大。当然GraphMB也可用于没有权重信息的GFA文件。作者没有在这种类型的数据集上测试,作者的所有真实数据集都有这种信息。CSV文件:包含每个contig上发现的单拷贝基因,该文件用来评估聚类的完整度和污染度。(best training checkpoint?)。如果没有该文件,选择最后一个checkpoint。另外,一个有contig标签的文件也可达到相同的效果。另外一个CSV文件:不同样本上的每个contig的丰度信息。绝大多数contig仅有一条边。

(3) (b)contig嵌入:kmer和coverage作为输入,使用VAE模型:一个编码器一个解码器。使用VAMB中的VAE,将重建损失分为两部分(组分10%和丰度90%)。

image-20221029144818227

(5) (d)图嵌入:The hidden state of each contig (represented in Fig. 1d by the empty squares) is concatenated with the aggregation of the hidden states of the sampled neighbors.然后引入一个前馈神经网络来生成图嵌入以之前的concatentation作为输入。然后隐藏层的输入对应每一个contig前一层的输出。最终的输出层就是图嵌入结果。引入如下损失函数:

img

img

(6) (e)聚类: We cluster the concatenation of the contig-specific embeddings and graph embeddings with the iterative medoid clustering algorithm used by VAMB。

(7)评估:用CheckM来评估完整性和污染度。用DASTool组合生成的所有bins。

实验结果

(1) https://github.com/MicrobialDarkMatter/GraphMB

img

img

使用到的数据集

(1) We run experiments on one simulated dataset, six Wastewater Treatment Plant (WWTP) datasets and one soil sample

(2) The simulated dataset was generated using badread (Wick, 2019) (v0.2.0), by generating reads according to the methodology proposed by Quince et al. (2021).

(3) 组装软件:metaflye,

(4) 真实数据集:WWTP:PRJNA629478 土壤样本:PRJEB50688

(5) https://doi.org/10.5281/zenodo.6122610:所有可用数据集。

image-20221029144416903

当前存在的问题/发展方向

(1) GraphMB在模拟数据集上与其他binner效果相当,但在真实数据集上能获得更多的HQ bin.

(2) 作者建议测试不同数量的隐藏层单元(128-512),嵌入维度(32-128),和学习率(img)在不同的数据集上。

(3) GraphMB的性能依靠组装图,在soil数据集中由于有更多的边,但是也有一个较差的结果,虽然相比其他binner更高。作者打算使用GAT来处理复杂图。

(4) 作者将可能属于多个物种的contigs分配到一个bin中,在未来作者希望将属于多个物种的contig分配到多个bin中。需要改变组装图结构。Tolstoganov et al., 2022目前已经这样做了。

(5) GraphMB受到输入的contig嵌入表示的影响,也就是GNN的输入。GraphMB在Viby数据集上表现更糟相比于MetaBat2,VAMB也有更坏的性能(因为只有一个嵌入表示)。为了克服这个问题,作者计划提出端到端架构能够同时训练VAE和GNN。This would mean that instead of having static contig-specific embeddings, these could be fine-tuned while training the GNN.

相关文章
|
18天前
|
机器学习/深度学习 算法 关系型数据库
Hierarchical Attention-Based Age Estimation and Bias Analysis
【6月更文挑战第8天】Hierarchical Attention-Based Age Estimation论文提出了一种深度学习方法,利用层次注意力和图像增强来估计面部年龄。通过Transformer和CNN,它学习局部特征并进行序数分类和回归,提高在CACD和MORPH II数据集上的准确性。论文还包括对种族和性别偏倚的分析。方法包括自我注意的图像嵌入和层次概率年龄回归,优化多损失函数。实验表明,该方法在RS和SE协议下表现优越,且在消融研究中验证了增强聚合和编码器设计的有效性。
18 2
|
2月前
|
算法 BI 计算机视觉
[Initial Image Segmentation Generator]论文实现:Efficient Graph-Based Image Segmentation
[Initial Image Segmentation Generator]论文实现:Efficient Graph-Based Image Segmentation
33 1
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
OneIE:A Joint Neural Model for Information Extraction with Global Features论文解读
大多数现有的用于信息抽取(IE)的联合神经网络模型使用局部任务特定的分类器来预测单个实例(例如,触发词,关系)的标签,而不管它们之间的交互。
128 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
NAACL2021 AMR-IE: Abstract Meaning Representation Guided Graph Encoding and Decoding for Joint IE
富语义解析的任务,如抽象语义表示(AMR),与信息抽取(IE)具有相似的目标,即将自然语言文本转换为结构化的语义表示。为了利用这种相似性
185 0
|
11月前
|
机器学习/深度学习 自然语言处理 算法
SS-AGA:Multilingual Knowledge Graph Completion with Self-Supervised Adaptive Graph Alignment 论文解读
预测知识图(KG)中缺失的事实是至关重要的,因为现代知识图远未补全。由于劳动密集型的人类标签,当处理以各种语言表示的知识时,这种现象会恶化。
68 0
|
11月前
|
机器学习/深度学习 编解码 自然语言处理
DeIT:Training data-efficient image transformers & distillation through attention论文解读
最近,基于注意力的神经网络被证明可以解决图像理解任务,如图像分类。这些高性能的vision transformer使用大量的计算资源来预训练了数亿张图像,从而限制了它们的应用。
344 0
PointNet++:Deep Hierarchical Feature Learning on Points Sets in a Metrci Space 学习笔记
PointNet++:Deep Hierarchical Feature Learning on Points Sets in a Metrci Space 学习笔记
60 0
|
机器学习/深度学习 传感器 编解码
Spatial-Spectral Transformer for Hyperspectral Image Classification_外文翻译
 由于成像光谱学的进步,高光谱传感器倾向于以越来越高的空间和光谱分辨率捕获给定场景的反射强度[1]。获得的高光谱图像(HSI)同时包含空间特征和不同物体的连续诊断光谱[2]。因此,获得的丰富信息使HSI在许多领域有用,包括有效测量农业绩效[3]、植物病害检测[4]、矿物鉴定[5]、疾病诊断和图像引导手术[6]、生态系统测量[7],和地球监测[8]。为了充分利用获得的HSI,已经探索了许多数据处理技术,例如解混合、检测和分类[8]。
184 0
|
机器学习/深度学习 编解码 数据挖掘
A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth
A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth
93 0
A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth