使用深度学习方法高通量预测代谢酶的 kcat,或可揭开细胞工厂的秘密

简介: 使用深度学习方法高通量预测代谢酶的 kcat,或可揭开细胞工厂的秘密

编辑 | 萝卜皮

酶周转数(kcat)是了解细胞代谢、蛋白质组分配和生理多样性的关键,但实验测量的 kcat 数据往往稀疏且嘈杂。查尔姆斯理工大学(Chalmers University of Technology)的研究团队提供了一种深度学习方法(DLKcat),用于仅根据底物结构和蛋白质序列对来自任何生物体的代谢酶进行高通量 kcat 预测。DLKcat 可以捕获突变酶的 kcat 变化并识别对 kcat 值有强烈影响的氨基酸残基。研究人员应用这种方法来预测 300 多种酵母物种的基因组规模 kcat 值。此外,该团队设计了一个贝叶斯管道,以根据预测的 kcat 值参数化酶约束的基因组规模代谢模型。由此产生的模型在预测表型和蛋白质组方面优于先前管道中相应的原始酶约束基因组规模代谢模型,并使研究人员能够解释表型差异。DLKcat 和酶约束的基因组规模代谢模型构建管道是揭示酶动力学和生理多样性的全球趋势,并进一步阐明大规模细胞代谢的宝贵工具。该研究以「Deep learning-based kcat prediction enables improved enzyme-constrained model reconstruction」为题,于 2022 年 6 月 16 日发布在《Nature Catalysis》。酶转换数(kcat)定义了反应的最大化学转化率,是了解特定生物体的新陈代谢、蛋白质组分配、生长和生理学的关键参数。酶数据库 BRENDA 和 SABIO-RK 中有大量可用的 kcat 值集合,然而,与现有的各种生物体和代谢酶相比,这些值仍然稀少,这主要是因为缺乏用于 kcat 测量的高通量方法。此外,由于不同的测定条件(例如 pH 值、辅因子可用性和实验方法),实验测量的 kcat 值具有相当大的可变性。总之,稀疏的收集和相当大的噪声限制了 kcat 数据在全局分析中的使用,并可能掩盖酶进化趋势。特别是酶约束的基因组规模代谢模型(ecGEM),其中全细胞代谢网络受到酶催化能力的约束,因此能够准确模拟最大生长能力、代谢变化和蛋白质组分配,特别依赖于基因组- 缩放 kcat 值。在过去的十年中,ecGEM(或遵循酶约束概念的模型)已分别针对几种经过充分研究的生物体开发,包括大肠杆菌、酿酒酵母、中国仓鼠卵巢细胞和智人。由于 kcat 测量的局限性和依赖酶委员会(EC)编号注释来搜索这些已开发管道中的 kcat 值,为研究较少的生物体重建 ecGEM 或为多种生物体进行大规模重建仍然是一个挑战。此外,即使对于那些经过充分研究的生物,kcat 的覆盖范围也远未完成。在酿酒酵母 ecGEM 中,只有 5% 的酶促反应在 BRENDA 中具有完全匹配的 kcat 值。当数据缺失时,以前的 ecGEM 重建流程通常假设 kcat 值来自类似的底物、反应或其他生物,这可能导致模型预测偏离实验观察。明确要求获得大规模的 kcat 值以提高模型准确性并产生更可靠的表型模拟。深度学习已被应用并在模拟化学空间、基因表达、酶相关参数(如酶亲和力和 EC 数)方面表现出出色的性能。此前,有研究人员采用机器学习方法,根据从蛋白质结构中获得的平均代谢通量和催化位点等特征来预测大肠杆菌 kcat 值。然而,这些特征通常很难获得,这使得这种方法只能应用于研究最充分的生物体,如大肠杆菌。在这里,查尔姆斯理工大学(Chalmers University of Technology)的研究团队提出了深度学习方法 DLKcat 来预测所有代谢酶与其底物的 kcat 值,只需要底物 SMILES 信息和酶的蛋白质序列作为输入,从而为任何物种产生通用的 kcat 预测工具。图示:用于 ecGEM 参数化的 kcat 深度学习。(来源:论文)DLKcat 可以捕获 kcat 向精确的单个氨基酸替代方向的变化,从而能够计算注意力权重,从而识别对酶活性产生重大影响的氨基酸残基。氨基酸取代是酶进化领域的一项强大技术,通常用于探测酶催化机制。特别是,大多数替代实验在底物结合位点区域进行诱变,因为假设结合区域将对催化活性产生很大影响。然而,据报道,偏远地区会对催化活性产生深远影响。研究人员不仅确定了人 PNP 酶肌苷结合区域中氨基酸残基的高关注权重,而且还确定了具有高关注权重的各种非结合残基位点,这表明这些残基也可能对催化活性产生重大影响,值得进一步验证。DLKcat 因此可以作为蛋白质工程工具箱的重要组成部分。预测的基因组规模的 kcat 谱可以促进酶约束代谢模型的重建,从策划和自动生成的基本(非 ec)GEM 中。事实证明,深度学习预测的 kcat 过程比匹配来自 BRENDA 和 SABIO-RK 数据库的体外 kcat 值更全面但仍然实用;这在 GECKO 和 MOMENT 等原始 ecGEM 重建管道中很常见。通过不依赖 EC 编号注释,DLKcat 还能够预测同工酶特异性 kcat 值,而 SMILES 的使用避免了原始 ecGEM 重建管道可能遇到的 GEM 和 BRENDA 之间底物命名不统一的问题。随后可以通过贝叶斯方法将 DL-ecGEM 调整为现有的实验生长数据,该方法产生具有生理相关解空间的后均值 ecGEM。结合起来,当前基于 DLKcat 的管道因此适用于几乎任何生物体的 ecGEM 重建,其中蛋白质序列 FASTA 文件和基本 GEM 可用。他们的管道因此提高了适用性,与以前构建的原始 ecGEM 相比,它甚至提高了具有酶促约束的反应数量。图示:kcat 预测的深度学习模型性能。(来源:论文)尽管基于 DLKcat 的管道产生的 ecGEM 性能优于原始 ecGEM,但仍然存在各种挑战。例如,虽然深度学习模型可以将混杂酶的替代物与随机选择的底物区分开来,但它仍然预测了可能过高的随机底物的动力学活性水平。这种行为可以通过负面数据的有限可用性来解释:酶 - 底物对没有产生催化作用的情况。增加对阴性数据集的报告,其中酶-底物对的未检测到的活性由酶数据库报告和收集,可以增强未来深度学习模型在定义真阴性方面的能力。此外,DLKcat 并未考虑 pH 和温度等环境因素的影响,但将 DLKcat 与其他新兴机器学习工具(例如酶的最佳温度预测)相结合,将有助于未来研究环境参数对酶活性的影响。另一个挑战涉及涉及多种底物和由异聚酶复合物催化的反应。可以为此类反应定义的多底物 SMILES 和蛋白质序列都可以与 DLKcat 一起发挥作用,从而为一个反应产生多个预测的 kcat 值。目前在这些情况下,研究人员会选择最大 kcat 值,但最好设计一种方法来预测每种多底物和异聚酶的一个 kcat 值。

图示:用于预测和解释突变酶 kcat 的深度学习模型。(来源:论文)

此外,DLKcat 衍生的 DL-ecGEM 和后验均值 ecGEM 继承了基本 GEM 的局限性,其中基于约束的建模的核心稳态假设允许人们确定代谢通量,但不容易考虑调节行为。虽然 ecGEM 极大地将基于约束的模型的解空间减少到细胞可行容量,但 kcat 并不是决定反应速率的唯一动力学参数,例如,亲和常数起着重要的作用。然而,由于基于约束的模型无法预测内部代谢物浓度,因此目前无法轻易考虑这些参数的影响。尽管如此,kcat 值也是其他资源分配模型中的重要参数,例如蛋白质组约束的 GEM 和代谢/大分子表达模型。尽管改进的预测和更多的应用,如何定义 kcat 值也仍然是重建这些模型的挑战。这种资源分配模型和 ecGEM 都认为细胞需要将其有限的蛋白质组分配到不同的途径以实现更快的生长或更好的适应度,而每个反应的蛋白质组成本同样由酶的通量和动力学速率定义。因此,这些模型的代谢部分的深度学习预测 kcat 值可以提高其质量和性能,尽管无法从 DLKcat 获得在这些模型公式中确定的其他具有挑战性的动力学参数,例如核糖体催化率。此外,特别关注描述酶动力学的模型公式可以受益于深度学习预测的 kcat 值,因此 DLKcat 方法可以在建模领域找到广泛的应用。总之,DLKcat 产生了现实的 kcat 值,可用于指导未来的基因工程、了解酶进化和重建 ecGEM 以预测代谢通量和表型。除此之外,这种基于深度学习的 kcat 预测工具的许多其他潜在用途,例如基因组挖掘和全基因组关联研究分析中的工具。开发的自动贝叶斯 ecGEM 重建管道将有助于进一步用于 ecGEM 重建,用于组学数据合并和分析。论文链接:https://www.nature.com/articles/s41929-022-00798-z相关报道:https://phys.org/news/2022-08-algorithm-uncovers-secrets-cell-factories.html

相关文章
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
大数据分析的技术和方法:从深度学习到机器学习
大数据时代的到来,让数据分析成为了企业和组织中不可或缺的一环。如何高效地处理庞大的数据集并且从中发现潜在的价值是每个数据分析师都需要掌握的技能。本文将介绍大数据分析的技术和方法,包括深度学习、机器学习、数据挖掘等方面的应用,以及如何通过这些技术和方法来解决实际问题。
313 2
|
4月前
|
机器学习/深度学习 数据可视化 网络架构
增强深度学习模型的可解释性和泛化能力的方法研究
【8月更文第15天】在深度学习领域,模型的准确率和预测能力是衡量模型好坏的重要指标。然而,随着模型复杂度的增加,它们往往变得越来越难以理解,这限制了模型在某些关键领域的应用,例如医疗诊断、金融风险评估等。本文将探讨如何通过几种方法来增强深度学习模型的可解释性,同时保持或提高模型的泛化能力。
441 2
|
2月前
|
机器学习/深度学习 调度 计算机视觉
深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究
本文探讨了多种学习率调度策略在神经网络训练中的应用,强调了选择合适学习率的重要性。文章介绍了阶梯式衰减、余弦退火、循环学习率等策略,并分析了它们在不同实验设置下的表现。研究表明,循环学习率和SGDR等策略在提高模型性能和加快训练速度方面表现出色,而REX调度则在不同预算条件下表现稳定。这些策略为深度学习实践者提供了实用的指导。
50 2
深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究
|
2月前
|
机器学习/深度学习 监控 数据可视化
深度学习中实验、观察与思考的方法与技巧
在深度学习中,实验、观察与思考是理解和改进模型性能的关键环节。
46 5
|
6月前
|
机器学习/深度学习 并行计算 算法
深度学习中的自动化超参数优化方法探究
传统的深度学习模型优化通常依赖于人工调整超参数,这一过程繁琐且耗时。本文探讨了当前流行的自动化超参数优化方法,包括贝叶斯优化、遗传算法和进化策略等,分析它们在提高模型效率和性能方面的应用与挑战。
|
6月前
|
机器学习/深度学习 算法 数据可视化
【从零开始学习深度学习】46. 目标检测中锚框的概念、计算方法、样本锚框标注方式及如何选取预测边界框
【从零开始学习深度学习】46. 目标检测中锚框的概念、计算方法、样本锚框标注方式及如何选取预测边界框
|
3月前
|
机器学习/深度学习 存储 人工智能
深度学习中的模型压缩技术在人工智能领域,深度学习技术的迅猛发展带来了巨大的计算资源需求。为了解决这一问题,模型压缩技术应运而生。本文将介绍什么是模型压缩、常见的模型压缩方法以及其在实际应用中的意义。
随着深度学习技术的广泛应用,计算资源的需求也大幅增加。为减少资源消耗,提升模型效率,模型压缩技术成为研究热点。本文探讨了模型压缩的定义、主流方法和其重要性。通过量化、剪枝、知识蒸馏和轻量级架构等策略,模型得以在保持性能的同时减小体积,从而适用于资源受限的环境。这些技术不仅降低了计算成本,还推动了深度学习在移动设备和边缘计算等领域的应用,使AI技术更加普及和实用。总之,模型压缩在平衡模型性能与资源消耗之间发挥着关键作用,是未来AI发展的重要方向。
|
3月前
|
机器学习/深度学习
数百万晶体数据训练、解决晶体学相位问题,深度学习方法PhAI登Science
【9月更文挑战第5天】近期,《科学》杂志报道了一项名为PhAI的深度学习技术,在晶体学相位问题上取得重要突破。相位问题旨在确定晶体中分子或原子的位置与方向,对理解其物理化学特性至关重要。PhAI通过数百万晶体数据训练,能高效准确地解决这一难题,有望大幅提升研究效率,加速新材料和药物的设计。但其准确性及对未知结构处理能力仍面临挑战。论文详情参见:https://www.science.org/doi/10.1126/science.adn2777。
46 1
|
3月前
|
机器学习/深度学习 PyTorch TensorFlow
Python实现深度学习学习率指数衰减的方法与参数介绍
学习率指数衰减提供了一种高效的动态调整学习率的手段,帮助模型在不同训练阶段以不同的学习速度优化,有利于提升模型性能和训练效率。通过合理设置衰减策略中的参数,可以有效地控制学习率的衰减过程,实现更加精确的模型训练调优。
52 0
|
5月前
|
机器学习/深度学习 编解码 监控
算法金 | 深度学习图像增强方法总结
**图像增强技术概括** 图像增强聚焦于提升视觉效果和细节,广泛应用于医学、遥感等领域。空间域增强包括直方图均衡化(增强对比度)、对比度拉伸、灰度变换、平滑滤波(均值、中值)和锐化滤波(拉普拉斯、高通)。频率域增强利用傅里叶变换、小波变换,通过高频和低频滤波增强图像特征。现代方法涉及超分辨率重建、深度学习去噪(如CNN、Autoencoder)、图像修复(如GAN)和GANs驱动的多种图像处理任务。
162 14
算法金 | 深度学习图像增强方法总结