Graph Neural Networks for Microbial Genome Recovery——论文阅读记录

简介: 图网络宏基因组组装论文笔记
发表年月 2022.04 期刊 Genomics 中科院分区 二区
影响因子 5.034 是否OA 阅读时间 2022.10.24
原文链接 https://arxiv.org/abs/2204.12270

背景

(1) 微生物群落对人类健康和环境有直接影响,它们在实现可持续发展目标方面发挥着至关重要的作用,特别是良好健康和福祉(SDG-3)、水下生活(SDG-14)和陆地生活(SDG 15)等。然而,要想探索微生物的潜力以造福大众,就需要从多样性和功能等方面对微生物世界有一个敏锐的理解。宏基因组学在DNA水平上研究微生物群落,理论上可以恢复样本中所有微生物的基因组。然而,这是一项复杂的任务,因为DNA测序技术只能产生全基因组的片段,而且由于当前参考数据库的不完整,环境样品中大多数微生物的全基因组仍然未知。

(2) 从碎片的测序数据中恢复宏基因组->binning.分为两步:第一步定义DNA序列之间的相似性概念;第二步进行聚类,也就是bins。大多数binner仅仅利用了局部特征,并没有充分考虑连接性信息。

(3) 介绍图神经网络的应用,其已经被用于binning,例如:[Xue et al., 2021; Lamurias et al., 2022]

(4) 本文作者提出VAEG-Bin,一种基于GNN的binning方法,结合通过VAE获得的局部特征与从组装图获得的全局特征进行融合。在真实和模拟数据集上效果较好。

(5)(Domain background: read越长越好,以完全重建基因组,但read越长也越容易出错,介绍组装图生成原理。Contigs的特征:丰度,k-mer,单拷贝基因(SCG)(两个contigs有相同的SCG一定属于不同的基因组中)

相关研究

(1) 近几年有基于kmer和丰度特征的binner,Metabat2和Maxbin2,. The SCGs associated with each contig are used to estimate the number of bins。

(2) 目前出现深度学习的方法:VAMB:学习节点kmer和丰度特征的嵌入表示。

(3) 组装图方法:Graphbin2:将装配图用于最后一步,没有应用于整个过程,可能会出现错误。存在相同物种的变体,将会产生错误的bins。

主要方法

(1) VAEG-BIN相对于基因组标签保持完全不受监督基因组标签仅用于定量评估**。与经典的图问题不同,装配图可能存在错误连接。为了解决这个问题,每个边被分配了权重,也就是边缘置信度[0,1]。

image-20221029142407278

(2)$z_l$是变分自编码器学习到的节点表示,然后GNN将img作为输入,然后生成每个节点全局表示img。最后,将img输入到聚类算法中得到最终结果。

(3)最终目的是进行聚类并为每个节点分配尽可能多的唯一单拷贝基因(SCGS)

(4)$z_l$:用VAE来编码kmer和丰度特征,VAE包括编码器,解码器,还有一些参数。对kmer特征和丰度特征进行归一化。用来训练VAE的损失函数由以下三部分组成:

img

(5)图表示学习:GNN学习依赖于节点邻域的节点特征。通过以下通用卷积来聚合节点信息

img

image-20221029142625685

对于不同的GCN,该表达式的表示方式不同。

img

用来训练GNN的损失函数定义如下:

img

聚类和评估:为了简单起见,本文用了与[Nissen and others, 2021]一致的聚类算法,修改后的 k-medoids algorithm,不需要初始化聚类的数量。

img

该算法包括三个步骤:首先通过选取与节点相关联的随机zu来找到种子质心,并计算到所有其他zv的余弦距离。如果在一个小半径内,任何节点的邻居比当前的椭球体多,则该节点将被选为新的椭球。第二步是确定簇半径。计算从所选的椭球体到所有其他节点的距离,该算法试图找到一个最佳距离阈值,该阈值包括大多数附近节点,但足够小,可以排除远处节点,这应该对应于距离直方图中的局部最小值。第三步是从要群集的节点列表中删除该阈值内的节点,并返回到第一步,直到不再剩下未群集的节点

评估:用完整性和污染度,然后用单拷贝基因作为真实标签

image-20221029142743161

image-20221029142750156

对于模拟数据集可以获得每个节点的真实标签,模拟数据集的评估标准:[Meyer and others, 2018] using the AMBER evaluation tool。如果bin中只有一个节点标签同时不包含其他的标签,那么其准确度就是1

image-20221029142812195

实验结果

与MetaBat2,Vamb,maxbin2,Graphbin方法作比较。

模拟数据集

image-20221029142841221

真实数据集

image-20221029142909898

使用到的数据集

Strong100是模拟数据集(using the badread [Wick, 2019] tool (v0.2.0), where we generated reads according to the methodology proposedin [Quince and others, 2021];),其他是真实数据集。

image-20221029143941549

当前存在的问题/发展方向

有几个有希望的方向可供进一步研究:改进聚类步骤,以更好考虑单拷贝基因在不同的聚类类别中的分布,这一步将涉及改进损失函数,促进簇的高完整性和低污染。结合表示学习和聚类的端到端方法可以进一步改进这项任务。

相关文章
|
2月前
|
移动开发 算法 数据挖掘
【博士每天一篇文献-算法】Extending stability through hierarchical clusters in Echo State Networks
本文研究了在回声状态网络(ESN)中引入分层聚类结构对网络稳定性的影响,发现通过调整簇内和簇间的连接性及每个簇的主干单元数量,可以扩展谱半径的稳定范围,从而提高网络的稳定性和性能。
30 2
|
2月前
|
机器学习/深度学习 算法 数据挖掘
【博士每天一篇文-算法】Graph Structure of Neural Networks
本文介绍了尤家轩在2020年发表于国际机器学习会议上的研究,该研究探讨了神经网络的图结构与预测性能之间的关系,并提出了一种新的关系图表示方法,揭示了神经网络性能与图聚类系数和平均路径长度的函数关系,同时发现最优神经网络图结构与生物神经网络相似。
17 2
【博士每天一篇文-算法】Graph Structure of Neural Networks
|
2月前
|
机器学习/深度学习 编解码 算法
【博士每天一篇文-算法】Spatially embedded recurrent neural networks reveal widespread links between
本文介绍了空间嵌入循环神经网络(seRNNs)的研究,揭示了结构和功能神经科学发现之间的联系,并展示了seRNNs如何在面临资源限制的同时,通过优化其结构拓扑来解决任务并表现出生物大脑类似的模块化和小世界特性。
18 1
【博士每天一篇文-算法】Spatially embedded recurrent neural networks reveal widespread links between
|
2月前
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】Fearnet Brain-inspired model for incremental learning
本文介绍了FearNet,一种受大脑记忆机制启发的神经网络模型,用于解决增量学习中的灾难性遗忘问题。FearNet不存储先前的例子,而是使用由海马体复合体和内侧前额叶皮层启发的双记忆系统,以及一个受基底外侧杏仁核启发的模块来决定使用哪个记忆系统进行回忆,有效减轻了灾难性遗忘,且在多个数据集上取得了优异的性能。
24 6
|
2月前
|
机器学习/深度学习 算法 调度
【博士每天一篇文献-算法】Neurogenesis Dynamics-inspired Spiking Neural Network Training Acceleration
NDSNN(Neurogenesis Dynamics-inspired Spiking Neural Network)是一种受神经发生动态启发的脉冲神经网络训练加速框架,通过动态稀疏性训练和新的丢弃与生长策略,有效减少神经元连接数量,降低训练内存占用并提高效率,同时保持高准确性。
35 3
|
2月前
|
算法 数据挖掘
【博士每天一篇文-算法】Community Detection and Classification in Hierarchical Stochastic Blockmodels
本文介绍了2015年Lyzinski V, Tang M, Athreya在马里兰大学的研究,提出了一种在分层随机块模型中进行社区检测和分类的综合方法,适用于社交网络分析和神经科学等领域,并通过模拟数据和真实数据的实验验证了该方法的有效性。
13 2
|
5月前
|
Python
[Knowledge Distillation]论文分析:Distilling the Knowledge in a Neural Network
[Knowledge Distillation]论文分析:Distilling the Knowledge in a Neural Network
34 1
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022 -Event Detection with Dual Relational Graph Attention Networks
图神经网络(Scarselli et al, 2009)已被广泛用于编码事件检测的依赖树,因为它们可以基于信息聚合方案有效地捕获相关信息(Cao et al, 2021)。
159 0
|
机器学习/深度学习 自然语言处理
【论文精读】COLING 2022 - DESED: Dialogue-based Explanation for Sentence-level Event Detection
最近许多句子级事件检测的工作都集中在丰富句子语义上,例如通过多任务或基于提示的学习。尽管效果非常好,但这些方法通常依赖于标签广泛的人工标注
90 0
|
机器学习/深度学习
【论文阅读】(2019)SimGNN:A Neural Network Approach to Fast Graph Similarity Computation
- 图形相似性搜索是最重要的基于图形的应用程序之一,例如查找与查询化合物最相似的化合物。 - 图相似性距离计算,如图编辑距离(GED)和最大公共子图(MCS),是图相似性搜索和许多其他应用程序的核心操作,但实际计算成本很高。 - 受神经网络方法最近成功应用于若干图形应用(如节点或图形分类)的启发,我们提出了一种新的基于神经网络的方法来解决这一经典但具有挑战性的图形问题,**旨在减轻计算负担,同时保持良好的性能**。 - 提出的**方法称为SimGNN**,它结合了两种策略。 - 首先,我们**设计了一个可学习的嵌入函数**,将每个图映射到一个嵌入向量中,从而提供图的全局摘要。**提出了一种新的
250 0
【论文阅读】(2019)SimGNN:A Neural Network Approach to Fast Graph Similarity Computation