Graph Neural Networks for Microbial Genome Recovery——论文阅读记录

简介: 图网络宏基因组组装论文笔记
发表年月 2022.04 期刊 Genomics 中科院分区 二区
影响因子 5.034 是否OA 阅读时间 2022.10.24
原文链接 https://arxiv.org/abs/2204.12270

背景

(1) 微生物群落对人类健康和环境有直接影响,它们在实现可持续发展目标方面发挥着至关重要的作用,特别是良好健康和福祉(SDG-3)、水下生活(SDG-14)和陆地生活(SDG 15)等。然而,要想探索微生物的潜力以造福大众,就需要从多样性和功能等方面对微生物世界有一个敏锐的理解。宏基因组学在DNA水平上研究微生物群落,理论上可以恢复样本中所有微生物的基因组。然而,这是一项复杂的任务,因为DNA测序技术只能产生全基因组的片段,而且由于当前参考数据库的不完整,环境样品中大多数微生物的全基因组仍然未知。

(2) 从碎片的测序数据中恢复宏基因组->binning.分为两步:第一步定义DNA序列之间的相似性概念;第二步进行聚类,也就是bins。大多数binner仅仅利用了局部特征,并没有充分考虑连接性信息。

(3) 介绍图神经网络的应用,其已经被用于binning,例如:[Xue et al., 2021; Lamurias et al., 2022]

(4) 本文作者提出VAEG-Bin,一种基于GNN的binning方法,结合通过VAE获得的局部特征与从组装图获得的全局特征进行融合。在真实和模拟数据集上效果较好。

(5)(Domain background: read越长越好,以完全重建基因组,但read越长也越容易出错,介绍组装图生成原理。Contigs的特征:丰度,k-mer,单拷贝基因(SCG)(两个contigs有相同的SCG一定属于不同的基因组中)

相关研究

(1) 近几年有基于kmer和丰度特征的binner,Metabat2和Maxbin2,. The SCGs associated with each contig are used to estimate the number of bins。

(2) 目前出现深度学习的方法:VAMB:学习节点kmer和丰度特征的嵌入表示。

(3) 组装图方法:Graphbin2:将装配图用于最后一步,没有应用于整个过程,可能会出现错误。存在相同物种的变体,将会产生错误的bins。

主要方法

(1) VAEG-BIN相对于基因组标签保持完全不受监督基因组标签仅用于定量评估**。与经典的图问题不同,装配图可能存在错误连接。为了解决这个问题,每个边被分配了权重,也就是边缘置信度[0,1]。

image-20221029142407278

(2)$z_l$是变分自编码器学习到的节点表示,然后GNN将img作为输入,然后生成每个节点全局表示img。最后,将img输入到聚类算法中得到最终结果。

(3)最终目的是进行聚类并为每个节点分配尽可能多的唯一单拷贝基因(SCGS)

(4)$z_l$:用VAE来编码kmer和丰度特征,VAE包括编码器,解码器,还有一些参数。对kmer特征和丰度特征进行归一化。用来训练VAE的损失函数由以下三部分组成:

img

(5)图表示学习:GNN学习依赖于节点邻域的节点特征。通过以下通用卷积来聚合节点信息

img

image-20221029142625685

对于不同的GCN,该表达式的表示方式不同。

img

用来训练GNN的损失函数定义如下:

img

聚类和评估:为了简单起见,本文用了与[Nissen and others, 2021]一致的聚类算法,修改后的 k-medoids algorithm,不需要初始化聚类的数量。

img

该算法包括三个步骤:首先通过选取与节点相关联的随机zu来找到种子质心,并计算到所有其他zv的余弦距离。如果在一个小半径内,任何节点的邻居比当前的椭球体多,则该节点将被选为新的椭球。第二步是确定簇半径。计算从所选的椭球体到所有其他节点的距离,该算法试图找到一个最佳距离阈值,该阈值包括大多数附近节点,但足够小,可以排除远处节点,这应该对应于距离直方图中的局部最小值。第三步是从要群集的节点列表中删除该阈值内的节点,并返回到第一步,直到不再剩下未群集的节点

评估:用完整性和污染度,然后用单拷贝基因作为真实标签

image-20221029142743161

image-20221029142750156

对于模拟数据集可以获得每个节点的真实标签,模拟数据集的评估标准:[Meyer and others, 2018] using the AMBER evaluation tool。如果bin中只有一个节点标签同时不包含其他的标签,那么其准确度就是1

image-20221029142812195

实验结果

与MetaBat2,Vamb,maxbin2,Graphbin方法作比较。

模拟数据集

image-20221029142841221

真实数据集

image-20221029142909898

使用到的数据集

Strong100是模拟数据集(using the badread [Wick, 2019] tool (v0.2.0), where we generated reads according to the methodology proposedin [Quince and others, 2021];),其他是真实数据集。

image-20221029143941549

当前存在的问题/发展方向

有几个有希望的方向可供进一步研究:改进聚类步骤,以更好考虑单拷贝基因在不同的聚类类别中的分布,这一步将涉及改进损失函数,促进簇的高完整性和低污染。结合表示学习和聚类的端到端方法可以进一步改进这项任务。

相关文章
|
4月前
|
移动开发 算法 数据挖掘
【博士每天一篇文献-算法】Extending stability through hierarchical clusters in Echo State Networks
本文研究了在回声状态网络(ESN)中引入分层聚类结构对网络稳定性的影响,发现通过调整簇内和簇间的连接性及每个簇的主干单元数量,可以扩展谱半径的稳定范围,从而提高网络的稳定性和性能。
41 2
|
4月前
|
算法 数据挖掘
【博士每天一篇文-算法】Community Detection and Classification in Hierarchical Stochastic Blockmodels
本文介绍了2015年Lyzinski V, Tang M, Athreya在马里兰大学的研究,提出了一种在分层随机块模型中进行社区检测和分类的综合方法,适用于社交网络分析和神经科学等领域,并通过模拟数据和真实数据的实验验证了该方法的有效性。
15 2
|
机器学习/深度学习 人工智能 自然语言处理
【论文精读】AAAI 2022 - Unified Named Entity Recognition as Word-Word Relation Classification
到目前为止,命名实体识别(NER)已经涉及三种主要类型,包括扁平、重叠(又名嵌套)和不连续NER,它们大多是单独研究的。
247 0
【论文精读】AAAI 2022 - Unified Named Entity Recognition as Word-Word Relation Classification
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022 -Event Detection with Dual Relational Graph Attention Networks
图神经网络(Scarselli et al, 2009)已被广泛用于编码事件检测的依赖树,因为它们可以基于信息聚合方案有效地捕获相关信息(Cao et al, 2021)。
188 0
|
机器学习/深度学习 自然语言处理
【论文精读】COLING 2022 - DESED: Dialogue-based Explanation for Sentence-level Event Detection
最近许多句子级事件检测的工作都集中在丰富句子语义上,例如通过多任务或基于提示的学习。尽管效果非常好,但这些方法通常依赖于标签广泛的人工标注
99 0
|
机器学习/深度学习 移动开发 编解码
【论文阅读】A Three-Stage Self-Training Framework for Semi-Supervised Semantic Segmentation
【论文阅读】A Three-Stage Self-Training Framework for Semi-Supervised Semantic Segmentation
208 0
【论文阅读】A Three-Stage Self-Training Framework for Semi-Supervised Semantic Segmentation
|
机器学习/深度学习
【论文阅读】(2019)SimGNN:A Neural Network Approach to Fast Graph Similarity Computation
- 图形相似性搜索是最重要的基于图形的应用程序之一,例如查找与查询化合物最相似的化合物。 - 图相似性距离计算,如图编辑距离(GED)和最大公共子图(MCS),是图相似性搜索和许多其他应用程序的核心操作,但实际计算成本很高。 - 受神经网络方法最近成功应用于若干图形应用(如节点或图形分类)的启发,我们提出了一种新的基于神经网络的方法来解决这一经典但具有挑战性的图形问题,**旨在减轻计算负担,同时保持良好的性能**。 - 提出的**方法称为SimGNN**,它结合了两种策略。 - 首先,我们**设计了一个可学习的嵌入函数**,将每个图映射到一个嵌入向量中,从而提供图的全局摘要。**提出了一种新的
274 0
【论文阅读】(2019)SimGNN:A Neural Network Approach to Fast Graph Similarity Computation
|
机器学习/深度学习
Re22:读论文 HetSANN An Attention-based Graph Neural Network for Heterogeneous Structural Learning
Re22:读论文 HetSANN An Attention-based Graph Neural Network for Heterogeneous Structural Learning
Re22:读论文 HetSANN An Attention-based Graph Neural Network for Heterogeneous Structural Learning
|
机器学习/深度学习 人工智能 计算机视觉
Re2:读论文 CS-GNN Measuring and Improving the Use of Graph Information in Graph Neural Networks
Re2:读论文 CS-GNN Measuring and Improving the Use of Graph Information in Graph Neural Networks
Re2:读论文 CS-GNN Measuring and Improving the Use of Graph Information in Graph Neural Networks
|
机器学习/深度学习 搜索推荐
【推荐系统论文精读系列】(十四)--Information Fusion-Based Deep Neural Attentive Matrix Factorization Recommendation
推荐系统的出现,有效地缓解了信息过载的问题。而传统的推荐系统,要么忽略用户和物品的丰富属性信息,如用户的人口统计特征、物品的内容特征等,面对稀疏性问题,要么采用全连接网络连接特征信息,忽略不同属性信息之间的交互。本文提出了基于信息融合的深度神经注意矩阵分解(ifdnamf)推荐模型,该模型引入了用户和物品的特征信息,并采用不同信息域之间的交叉积来学习交叉特征。此外,还利用注意机制来区分不同交叉特征对预测结果的重要性。此外,ifdnamf采用深度神经网络来学习用户与项目之间的高阶交互。同时,作者在电影和图书这两个数据集上进行了广泛的实验,并证明了该模型的可行性和有效性。
303 0
【推荐系统论文精读系列】(十四)--Information Fusion-Based Deep Neural Attentive Matrix Factorization Recommendation