Graph Neural Networks for Microbial Genome Recovery——论文阅读记录-阿里云开发者社区

Graph Neural Networks for Microbial Genome Recovery——论文阅读记录

2022-10-29 337

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 图网络宏基因组组装论文笔记

发表年月	2022.04	期刊	Genomics	中科院分区	二区
影响因子	5.034	是否OA	是	阅读时间	2022.10.24
原文链接	https://arxiv.org/abs/2204.12270

背景

（1）微生物群落对人类健康和环境有直接影响，它们在实现可持续发展目标方面发挥着至关重要的作用，特别是良好健康和福祉（SDG-3）、水下生活（SDG-14）和陆地生活（SDG 15）等。然而，要想探索微生物的潜力以造福大众，就需要从多样性和功能等方面对微生物世界有一个敏锐的理解。宏基因组学在DNA水平上研究微生物群落，理论上可以恢复样本中所有微生物的基因组。然而，这是一项复杂的任务，因为DNA测序技术只能产生全基因组的片段，而且由于当前参考数据库的不完整，环境样品中大多数微生物的全基因组仍然未知。

（2）从碎片的测序数据中恢复宏基因组->binning.分为两步：第一步定义DNA序列之间的相似性概念；第二步进行聚类，也就是bins。大多数binner仅仅利用了局部特征，并没有充分考虑连接性信息。

（3）介绍图神经网络的应用，其已经被用于binning，例如：[Xue et al., 2021; Lamurias et al., 2022]

（4） 本文作者提出VAEG-Bin,一种基于GNN的binning方法，结合通过VAE获得的局部特征与从组装图获得的全局特征进行融合。在真实和模拟数据集上效果较好。

（5）（Domain background: read越长越好，以完全重建基因组，但read越长也越容易出错，介绍组装图生成原理。Contigs的特征：丰度，k-mer，单拷贝基因（SCG）（两个contigs有相同的SCG一定属于不同的基因组中）

主要方法

（1） VAEG-BIN相对于基因组标签保持完全不受监督，基因组标签仅用于定量评估**。与经典的图问题不同，装配图可能存在错误连接。为了解决这个问题，每个边被分配了权重，也就是边缘置信度[0,1]。

（2)$z_l$是变分自编码器学习到的节点表示，然后GNN将作为输入，然后生成每个节点全局表示。最后，将输入到聚类算法中得到最终结果。

（3）最终目的是进行聚类并为每个节点分配尽可能多的唯一单拷贝基因（SCGS）

（4）$z_l$：用VAE来编码kmer和丰度特征，VAE包括编码器，解码器，还有一些参数。对kmer特征和丰度特征进行归一化。用来训练VAE的损失函数由以下三部分组成：

（5）图表示学习：GNN学习依赖于节点邻域的节点特征。通过以下通用卷积来聚合节点信息

对于不同的GCN，该表达式的表示方式不同。

用来训练GNN的损失函数定义如下：

聚类和评估：为了简单起见，本文用了与[Nissen and others, 2021]一致的聚类算法，修改后的 k-medoids algorithm，不需要初始化聚类的数量。

该算法包括三个步骤：首先通过选取与节点相关联的随机zu来找到种子质心，并计算到所有其他zv的余弦距离。如果在一个小半径内，任何节点的邻居比当前的椭球体多，则该节点将被选为新的椭球。第二步是确定簇半径。计算从所选的椭球体到所有其他节点的距离，该算法试图找到一个最佳距离阈值，该阈值包括大多数附近节点，但足够小，可以排除远处节点，这应该对应于距离直方图中的局部最小值。第三步是从要群集的节点列表中删除该阈值内的节点，并返回到第一步，直到不再剩下未群集的节点

评估：用完整性和污染度，然后用单拷贝基因作为真实标签。

对于模拟数据集可以获得每个节点的真实标签，模拟数据集的评估标准：[Meyer and others, 2018] using the AMBER evaluation tool。如果bin中只有一个节点标签同时不包含其他的标签，那么其准确度就是1

实验结果

与MetaBat2，Vamb，maxbin2,Graphbin方法作比较。

模拟数据集

真实数据集

使用到的数据集

Strong100是模拟数据集（using the badread [Wick, 2019] tool (v0.2.0), where we generated reads according to the methodology proposedin [Quince and others, 2021];），其他是真实数据集。

当前存在的问题/发展方向

有几个有希望的方向可供进一步研究：改进聚类步骤，以更好考虑单拷贝基因在不同的聚类类别中的分布，这一步将涉及改进损失函数，促进簇的高完整性和低污染。结合表示学习和聚类的端到端方法可以进一步改进这项任务。

Graph Neural Networks for Microbial Genome Recovery——论文阅读记录

背景

相关研究

主要方法

实验结果

使用到的数据集

当前存在的问题/发展方向

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Graph Neural Networks for Microbial Genome Recovery——论文阅读记录

背景

相关研究

主要方法

实验结果

使用到的数据集

当前存在的问题/发展方向

热门文章

最新文章

相关电子书