在人工智能(AI)与生命科学的交叉领域,一项名为AI²BMD(AI-driven Biomolecular Dynamics)的研究引起了广泛关注。该研究由微软的华人科学家团队领衔,并成功登上了《自然》(Nature)杂志,成为继AlphaFold之后,AI生物分子模拟领域的又一重要里程碑。
AI²BMD是一种基于AI的生物分子动力学模拟方法,旨在解决传统生物分子模拟中存在的效率低、精度不足等问题。该方法通过将蛋白质等生物分子分解为较小的单元,并利用机器学习(ML)技术训练出能够准确预测这些单元之间相互作用的模型,从而实现对生物分子的高效、精准模拟。
具体而言,AI²BMD采用了一种通用的蛋白质碎片化方法,将蛋白质分解为21种常见的蛋白质单元。这些单元包括各种氨基酸的二肽形式,以及一些特殊的蛋白质结构片段。通过计算这些单元之间的相互作用,AI²BMD能够构建出整个蛋白质的势能面,并计算出每个原子所受的力,从而推动模拟的进行。
为了训练AI²BMD模型,研究团队构建了一个大规模的蛋白质单元数据集,其中包含了超过2000万个样本。这些样本是通过密度泛函理论(DFT)计算得到的,具有很高的精度。利用这些样本,研究团队训练出了一个基于ViSNet架构的AI模型,该模型能够以线性时间复杂度计算四体相互作用,并生成准确的力和能量预测。
在与传统分子力学(MM)方法的对比中,AI²BMD展现出了明显的优越性。在能量预测方面,AI²BMD的均方根误差(MAE)比MM方法低了近两个数量级;在力预测方面,AI²BMD的MAE也比MM方法低了近一个数量级。这些结果表明,AI²BMD能够提供更准确的生物分子模拟结果。
除了准确性,AI²BMD还具备出色的效率。在对9种不同大小的蛋白质进行模拟时,AI²BMD的计算时间比DFT方法快了数个数量级。例如,对于一种含有13728个原子的大型蛋白质,AI²BMD的计算时间仅为2.61秒,而DFT方法的计算时间则超过了254天。这种效率上的优势使得AI²BMD能够应用于大规模的生物分子模拟,为研究蛋白质折叠、药物设计等领域提供了有力工具。
此外,AI²BMD还具备良好的通用性。由于它是基于常见的蛋白质单元构建的,因此可以应用于各种不同类型的蛋白质。研究团队在论文中展示了AI²BMD在模拟不同蛋白质时的准确性和稳定性,包括一些具有复杂结构的蛋白质。这些结果表明,AI²BMD是一种具有广泛应用潜力的生物分子模拟方法。
尽管AI²BMD在生物分子模拟领域取得了重要突破,但它仍然存在一些局限性。首先,AI²BMD的训练数据主要来自于DFT计算,而DFT计算本身就存在一定的误差。因此,AI²BMD的预测结果可能受到DFT误差的影响。其次,AI²BMD目前主要关注于蛋白质的模拟,而对于其他类型的生物分子(如核酸、糖类等)的模拟还缺乏研究。此外,AI²BMD的计算速度虽然比DFT快得多,但仍然比传统的MM方法慢,这可能限制了它在一些需要实时模拟的应用中的使用。
为了解决这些问题,研究团队提出了一些未来的研究方向。首先,他们计划将AI²BMD应用于更广泛的生物分子类型,包括核酸、糖类等。其次,他们计划进一步优化AI²BMD的计算效率,使其能够应用于更大规模的模拟。此外,他们还计划将AI²BMD与其他计算方法(如QM/MM)结合使用,以提供更准确、更全面的生物分子模拟结果。