可阅读「通用生命语言」的深度学习模型,照亮了微生物组数据中的暗物质

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 可阅读「通用生命语言」的深度学习模型,照亮了微生物组数据中的暗物质

编辑 | 萝卜皮

大多数微生物基因组尚未培养,微生物基因组或环境序列中鉴定的大多数蛋白质无法进行功能注释。因此,当前描述微生物系统的计算方法依赖于不完整的参考数据库,这些参考数据库无法充分捕捉微生物生命树的功能多样性,从而限制了科学家对生物序列的高级特征进行建模的能力。

罗格斯大学的研究人员展示了 LookGlass,这是一种深度学习模型,它编码短 DNA 读数的上下文感知、功能和进化相关的表示,可以区分不同功能、同源性和环境来源的读数。

该团队证明了 LookGlass 通过迁移学习进行微调以执行一系列不同任务的能力:识别新的氧化还原酶、预测酶的最佳温度以及识别 DNA 序列片段的阅读框。LookGlass 可以对其他未知和未注释的序列进行功能相关的表示,从而揭示主导地球生命的微生物暗物质。

该研究以「Deep learning of a bacterial and archaeal universal language of life enables transfer learning and illuminates microbial dark matter」为题,于 2022 年 5 月 11 日发布在《Nature Communications》。

背景进展与LookGlass提出的契机

微生物世界以微生物暗物质为主——大多数微生物基因组仍有待测序,而微生物基因组中许多基因的分子功能尚不清楚。在微生物群落(微生物组)中,这些因素的组合加剧了这种限制。虽然生物测序的速度超过了摩尔定律,但注释这些序列的传统实验方法无法跟上步伐。因此,科学家通常依赖参考数据库,这些数据库仅反映地球上一小部分生物多样性。

对生物序列的这种不完整注释的依赖,在描述微生物系统时传播了对注释基因和培养基因组的显着观察偏差。为了打破这个循环,科学界需要一种表示生物序列的方法,以捕捉它们的功能和进化相关性。

深度学习特别擅长捕捉复杂的高维系统,是一种很有前途的生物学工具。然而,深度学习通常需要大量数据才能表现良好。同时,样本的收集和实验注释通常既耗时又昂贵,为一项研究创建大量数据集很少可行。科学界需要一种构建计算模型的方法,该模型可以捕捉生物复杂性,同时补偿生物学特征的低样本量和高维数。

迁移学习为高维、低样本量的难题提供了解决方案。迁移学习利用模型在一个训练设置中学习的领域知识,并将其应用于不同但相关的问题。这种方法是有效的,因为在来自特定感兴趣数据模态(例如,生物序列)的大量数据上训练的模型,除了学习任务的特定特征外,还会学习该模态的一般特征。然后可以进一步训练或微调这个通用的预训练模型,以使用更少的任务特定数据和更短的训练时间更准确地预测感兴趣的下游任务。

例如,在计算机视觉中,通过从对许多图像进行训练的预训练模型开始,感兴趣的模型不会重新学习一般的图像特征,例如曲线或拐角,而是可以将其有限的数据集用于细化目标任务的特定参数。在自然语言处理中,通用语言表示模型已广泛应用于各种文本分类任务,包括生物医学文本分类。

预训练模型降低了广泛的学术和私营部门应用程序的障碍,这些应用程序通常具有少量数据和有限的计算资源来对相对复杂的数据进行建模。文本的自然语言处理,尤其是语言建模,类似于生物序列,因为核苷酸不是独立的或相同分布的,核苷酸上下文对于定义整个序列的功能作用和进化历史很重要。

在基因组学和宏基因组学中,没有类似的上下文感知预训练模型可以明确说明输入序列中核苷酸的顺序,并且通常可以应用于读取长度生物序列的迁移学习。之前的一些研究使用迁移学习获得了重要结果,但要么仅限于相对较小的训练集,用于对密切相关的预测任务上的模型进行预训练,要么依赖于相对良好注释的人类基因组中的基因计数来编译他们的训练数据。以前在学习生物序列和基因组的连续表示方面的工作没有考虑序列或蛋白质出现的顺序,因此没有上下文感知。

全长蛋白质序列表示学习的最新研究进展,显示了自我监督学习方法的巨大潜力,该方法解释了序列上下文并有助于阐明蛋白质结构和功能的细节;然而,这些依赖于全长蛋白质序列(约 1000 个氨基酸或 3000 个核苷酸)。

从宏基因组中组装全长蛋白质序列在计算上是困难的(有时是不可能的),每个样本可以产生数亿个短读长 DNA 序列(约 60-300 个核苷酸)。除了深度学习之外,生物学中常用的一些建模方法,例如隐马尔可夫模型 (HMM),可以解释序列中残基之间的依赖性。

然而,这些不能编码非线性关系,限制了这些模型的表达能力,编码残基之间的远程依赖关系,以及最终这些方法能够捕获的生物复杂性。为了捕捉微生物世界的全部功能多样性,需要一种上下文相关的方法,来表示来自微生物群落的生物序列的复杂功能和进化特征,以从环境中采样的简短、碎片形式。

LookGlass

生物学的「通用生命语言」应该反映功能和进化相关的特征,这些特征是生物学作为一个整体的基础,并促进各种下游迁移学习任务。在这里,罗格斯大学的研究人员展示了 LookGlass,这是一种生物语言模型和序列编码器,它为微生物生命树中的任何生物序列生成上下文相关的嵌入。

LookGlass 针对读长序列进行了训练和优化,例如由最广泛使用的测序技术产生的序列。特别是对于宏基因组,读取级别的模型避免了组装的需要,组装具有很高的计算负担和潜在的错误。而且他们关注细菌和古细菌序列,以及真核和人类特定模型的可能性。

研究中使用的下游模型,可以通过利用微生物多样性作为一个整体的功能和进化特征的领域知识,来阐明微生物暗物质的功能作用。更一般地说,LookingGlass 旨在充当科学界的「通用生命语言」,可用作生物应用中迁移学习的起点,尤其是宏基因组学。

LookGlass 具有嵌入的功能和进化相关性,它在与功能宏基因组学相关的多个迁移学习任务中拥有广泛用途。LookGlass 产生的嵌入可以区分具有不同分子功能的序列;识别同源序列,即使在传统生物信息学方法失败的低序列相似性下;并将序列与不同的环境背景区分开来。

图示:功能注释预测多类混淆矩阵。(来源:论文)

LookGlass 的强大功能与意义

微生物在自然环境以及工业和生物医学环境中发挥着广泛多样的功能作用。它们在调节地球的生物地球化学循环中发挥着核心作用,并对人类宿主的健康产生巨大影响,但对驱动它们活动的复杂功能网络知之甚少。

微生物基因组记录了地球上生命进化的部分历史,但这些信息中的大部分都没有被基于同源性的推理充分捕获。微生物群落是开发用于生物工程应用的天然和合成产品的一个非常有趣的主题,但当前描述、建模和操纵这些微生物组系统级功能的能力是有限的。

LookGlass「生命的通用语言」创建了 DNA 序列的表示,这些表示捕获了它们的功能和进化相关性,而与该序列是否包含在参考数据库中无关。绝大多数微生物多样性是未经培养和未注释的。

LookGlass 为利用这种微生物暗物质的潜力,来提高研究人员对微生物系统的理解和操作能力。它是用于下游迁移学习任务的广泛有用的通用模型,可实现与环境宏基因组学、生物工程和生物医学应用相关的广泛多样的功能预测。

图示:LookGlass 在门级别识别同源序列对。(来源:论文)

该团队在研究中证明了 LookGlass 能够微调以识别推定的氧化还原酶,即使是那些与目前已知的氧化还原酶序列相似性低的酶。将氧化还原酶分类器应用于 16 个海洋宏基因组,确定了遵循全球纬度和深度梯度的氧化还原酶相对丰度的模式。

图示:海洋宏基因组中的氧化还原酶鉴定。(来源:论文)

这些观察结果与先前的研究一致,这些研究已经确定了更大的整体功能和分类学丰富性,以及特别是在相对于浅水深度的深海水域中更多样化的氧化还原酶。然而,关于分类和功能多样性是否随绝对纬度增加或减少的研究存在冲突。

值得注意的是,氧化还原酶分类器观察到的氧化还原酶相对丰度的纬度和深度趋势,都没有被传统的基于同源性的功能注释工具捕获。通过基于同源性的注释工具鉴定的氧化还原酶的比例差异很大,其中氧化还原酶分类器注释的氧化还原酶比例与 MG-RAST 更相似。Mi-faser 是一种更严格的注释工具,可产生高置信度的注释,因此它与跨环境宏基因组的氧化还原酶分类器的一致性支持了后者捕获这些样本中真实的氧化还原酶群体的结论。

本研究中传统注释工具和其他工具产生的不一致结果进一步证明了未注释的功能多样性对于跨样本比较的重要性,以及新方法的潜力。

可能有多种生态机制驱动观察到的氧化还原酶相对丰度的纬度和深度模式;例如,在资源限制或温度压力下,相对于不太重要的基因保留氧化还原酶的基因组的精简,或反映中层水域相对于地表水的厌氧呼吸基因丰度更高。未来使用此处描述的方法捕获和比较环境设置的完整功能多样性的努力可以进一步阐明和区分这些机制。

预测来自以前看不见的氧化还原酶的读数是靶向组装和进一步功能表征的候选者。实际上,这些可能是具有以前看不见的特定功能的氧化还原蛋白,或者是通过趋同进化获得的用于执行已知功能的序列。照亮这些未注释的氧化还原酶可以更完整地比较环境梯度中的氧化还原酶组成和多样性。

未来为其他功能目标微调 LookGlass 的努力可以扩展已识别的酶类别,并更全面地了解环境环境中的微生物功能多样性。根据定义,研究不足的环境包含最大量的未知功能多样性,而像LookGlass 这样的工具提供了评估这种功能多样性的重要方法。

LookGlass 还经过微调以正确识别短读长 DNA CDS 的阅读框,从而识别氨基酸翻译。翻译的氨基酸序列用于各种生物信息学应用,最显着的是用于分子功能注释。有两类功能注释工具 - 直接从短测序读数注释的工具和从组装基因/重叠群注释的工具。

在这两种情况下,必须首先将 DNA 读数转换为氨基酸序列。对于短读长注释工具,每个 DNA 序列的六帧翻译会产生所有六个可能的氨基酸序列,以便与参考数据库进行比对,这将比对的计算负担增加了六倍。

对于从组装中注释的工具,首先组装数据集并预测开放阅读框,然后才能推断出氨基酸序列。该过程计算量大,容易出错,并且会丢弃无法组装或无法识别编码区域的读取,特别是对于稀有生物圈的成员或在高度多样化的环境中。

因此,对于任何使用读取衍生氨基酸序列的生物信息学应用程序,DNA读取的直接翻译可以实现更高效的计算,因为这里描述的任何 LookGlass 衍生精细调整模型的推理时间,都可以以7–8分钟的速率执行(在具有16GB内存的单个GPU节点上,每百万次读取的最小值)。

请注意,此处描述的阅读框分类器侧重于原核基因组,它们通常只有约 12-14% 的非编码 DNA29。对于真核生物,需要创建一个分类器来区分编码和非编码 DNA,并仅预测 CDS 的阅读框。

另外,LookGlass 能够通过微调来预测 DNA 序列的最佳酶温度。重要的是,这可能仅通过短读来实现,尽管在组装基因上训练的分类器可能会产生更好的结果。这一结果表明,LookGlass 可用于发现与环境相关的特征,以及进化和功能特征。

最佳温度分类器可能在学术和商业应用中都有用——例如,比较微生物群落在温度或地球化学环境梯度中的最佳温度,或识别具有特定功能的候选蛋白质和工业应用的最佳目标温度。此外,还可以调整此处提出的最佳温度分类器作为生成模型,以指导蛋白质设计所需的功能和最佳温度。

图示:LookGlass 嵌入在环境包中的分布。(来源:论文)

LookGlass 模型以及此处介绍的迁移学习框架为未来对复杂生物系统建模的努力提供了基础。LookGlass 捕捉生物学的复杂性及其与环境的相互作用,充分利用科学界生成的大量测序数据中包含的功能信息的全部潜力。

LookGlass 可以应用于各种下游建模任务;然而,随着DNA和蛋白质序列分析的预训练生物模型越来越多,并被广泛采用,需要特别注意为特定的下游应用确定最有效的预训练模型,并对现有模型进行扩展和改进,以最好地服务于科学界。

这里介绍的 LookGlass 模型侧重于读取长度的细菌和古细菌DNA序列,但低垂的果实可能包括一个专门的真核DNA模型、一个特定于人类基因组的模型,或一个专门用于特定环境(如人类肠道或土壤微生物组)的模型。

随着科学界继续努力寻找新的方法来表示和模拟生物系统,以充分利用不断扩展的数据资源的全部潜力,希望 LookGlass 可以为基于迁移学习的地球生命探索奠定基础。

论文链接:https://www.nature.com/articles/s41467-022-30070-8

相关文章
|
1月前
|
机器学习/深度学习 数据采集 算法
构建高效图像分类模型:深度学习在处理大规模视觉数据中的应用
随着数字化时代的到来,海量的图像数据被不断产生。深度学习技术因其在处理高维度、非线性和大规模数据集上的卓越性能,已成为图像分类任务的核心方法。本文将详细探讨如何构建一个高效的深度学习模型用于图像分类,包括数据预处理、选择合适的网络架构、训练技巧以及模型优化策略。我们将重点分析卷积神经网络(CNN)在图像识别中的运用,并提出一种改进的训练流程,旨在提升模型的泛化能力和计算效率。通过实验验证,我们的模型能够在保持较低计算成本的同时,达到较高的准确率,为大规模图像数据的自动分类和识别提供了一种有效的解决方案。
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习-数据增强与扩充
深度学习-数据增强与扩充
78 1
|
1月前
|
机器学习/深度学习 数据采集 PyTorch
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
|
4天前
|
机器学习/深度学习 传感器 数据可视化
MATLAB用深度学习长短期记忆 (LSTM) 神经网络对智能手机传感器时间序列数据进行分类
MATLAB用深度学习长短期记忆 (LSTM) 神经网络对智能手机传感器时间序列数据进行分类
19 1
MATLAB用深度学习长短期记忆 (LSTM) 神经网络对智能手机传感器时间序列数据进行分类
|
9天前
|
机器学习/深度学习 数据可视化 测试技术
深度学习:Keras使用神经网络进行简单文本分类分析新闻组数据
深度学习:Keras使用神经网络进行简单文本分类分析新闻组数据
21 0
|
10天前
|
机器学习/深度学习 API 算法框架/工具
R语言深度学习:用keras神经网络回归模型预测时间序列数据
R语言深度学习:用keras神经网络回归模型预测时间序列数据
18 0
|
10天前
|
机器学习/深度学习 数据采集 TensorFlow
R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据(MNIST)
R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据(MNIST)
29 0
|
10天前
|
机器学习/深度学习 并行计算 算法
R语言深度学习不同模型对比分析案例
R语言深度学习不同模型对比分析案例
26 0
|
11天前
|
机器学习/深度学习 人工智能 分布式计算
R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析
R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析
16 0
|
14天前
|
机器学习/深度学习 自然语言处理 算法
探索深度学习中的序列建模新范式:Mamba模型的突破与挑战
【4月更文挑战第13天】Mamba模型,一种新型序列建模架构,通过选择性状态空间提高处理长序列数据的效率,实现线性时间复杂度。在语言、音频和DNA序列建模中展现优秀性能,尤其在大规模预训练中超越Transformer。然而,面对连续信号数据时可能不及LTI模型,且模型参数优化及硬件实现具有挑战性。
49 6
探索深度学习中的序列建模新范式:Mamba模型的突破与挑战