微软华人领衔AI²BMD登Nature,AI生物分子模拟双突破!继AlphaFold后又一里程碑

简介: AI²BMD(AI-driven Biomolecular Dynamics)是由微软华人科学家团队领衔的研究,发表于《自然》杂志。该方法通过将蛋白质分解为21种常见单元,并利用机器学习模型预测其相互作用,实现高效精准的生物分子模拟。相比传统方法,AI²BMD在能量和力预测上精度更高,计算速度提升数个数量级,尤其适用于大规模蛋白质模拟,为药物设计等领域提供了有力工具。未来研究将扩展至更多生物分子类型并优化效率。论文地址:https://www.nature.com/articles/s41586-024-08127-z

在人工智能(AI)与生命科学的交叉领域,一项名为AI²BMD(AI-driven Biomolecular Dynamics)的研究引起了广泛关注。该研究由微软的华人科学家团队领衔,并成功登上了《自然》(Nature)杂志,成为继AlphaFold之后,AI生物分子模拟领域的又一重要里程碑。

AI²BMD是一种基于AI的生物分子动力学模拟方法,旨在解决传统生物分子模拟中存在的效率低、精度不足等问题。该方法通过将蛋白质等生物分子分解为较小的单元,并利用机器学习(ML)技术训练出能够准确预测这些单元之间相互作用的模型,从而实现对生物分子的高效、精准模拟。

具体而言,AI²BMD采用了一种通用的蛋白质碎片化方法,将蛋白质分解为21种常见的蛋白质单元。这些单元包括各种氨基酸的二肽形式,以及一些特殊的蛋白质结构片段。通过计算这些单元之间的相互作用,AI²BMD能够构建出整个蛋白质的势能面,并计算出每个原子所受的力,从而推动模拟的进行。

为了训练AI²BMD模型,研究团队构建了一个大规模的蛋白质单元数据集,其中包含了超过2000万个样本。这些样本是通过密度泛函理论(DFT)计算得到的,具有很高的精度。利用这些样本,研究团队训练出了一个基于ViSNet架构的AI模型,该模型能够以线性时间复杂度计算四体相互作用,并生成准确的力和能量预测。

在与传统分子力学(MM)方法的对比中,AI²BMD展现出了明显的优越性。在能量预测方面,AI²BMD的均方根误差(MAE)比MM方法低了近两个数量级;在力预测方面,AI²BMD的MAE也比MM方法低了近一个数量级。这些结果表明,AI²BMD能够提供更准确的生物分子模拟结果。

除了准确性,AI²BMD还具备出色的效率。在对9种不同大小的蛋白质进行模拟时,AI²BMD的计算时间比DFT方法快了数个数量级。例如,对于一种含有13728个原子的大型蛋白质,AI²BMD的计算时间仅为2.61秒,而DFT方法的计算时间则超过了254天。这种效率上的优势使得AI²BMD能够应用于大规模的生物分子模拟,为研究蛋白质折叠、药物设计等领域提供了有力工具。

此外,AI²BMD还具备良好的通用性。由于它是基于常见的蛋白质单元构建的,因此可以应用于各种不同类型的蛋白质。研究团队在论文中展示了AI²BMD在模拟不同蛋白质时的准确性和稳定性,包括一些具有复杂结构的蛋白质。这些结果表明,AI²BMD是一种具有广泛应用潜力的生物分子模拟方法。

尽管AI²BMD在生物分子模拟领域取得了重要突破,但它仍然存在一些局限性。首先,AI²BMD的训练数据主要来自于DFT计算,而DFT计算本身就存在一定的误差。因此,AI²BMD的预测结果可能受到DFT误差的影响。其次,AI²BMD目前主要关注于蛋白质的模拟,而对于其他类型的生物分子(如核酸、糖类等)的模拟还缺乏研究。此外,AI²BMD的计算速度虽然比DFT快得多,但仍然比传统的MM方法慢,这可能限制了它在一些需要实时模拟的应用中的使用。

为了解决这些问题,研究团队提出了一些未来的研究方向。首先,他们计划将AI²BMD应用于更广泛的生物分子类型,包括核酸、糖类等。其次,他们计划进一步优化AI²BMD的计算效率,使其能够应用于更大规模的模拟。此外,他们还计划将AI²BMD与其他计算方法(如QM/MM)结合使用,以提供更准确、更全面的生物分子模拟结果。

论文地址:https://www.nature.com/articles/s41586-024-08127-z

目录
相关文章
|
11月前
|
人工智能 自然语言处理 监控
基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%
微软开源的MAI-DS-R1是基于DeepSeek R1改进的AI模型,通过后训练优化将敏感话题响应率提升至99.3%,同时将有害内容风险降低50%,保持原版推理能力并增强多语言支持。
1268 3
基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%
|
6月前
|
存储 机器学习/深度学习 人工智能
云栖 2025|阿里云 Qwen3 系列领衔:AI 模型全栈突破与开发者落地指南
阿里云发布Qwen3全栈AI体系,七大模型升级、性能全球领先,开源生态稳居第一。从底层基建到开发工具链全面优化,助力企业高效落地AI应用,共建超级AI云生态。
2075 11
|
11月前
|
机器学习/深度学习 存储 人工智能
Qlib:华尔街颤抖!微软开源金融AI量化投资神器,助力智能投研
Qlib是微软亚洲研究院推出的开源AI量化投资平台,提供从数据处理、模型训练到组合管理的全流程支持,内置高性能数据基础设施和多种机器学习模型。
4410 87
Qlib:华尔街颤抖!微软开源金融AI量化投资神器,助力智能投研
|
11月前
|
人工智能 搜索推荐 Java
【重磅】JeecgBoot 里程碑 v3.8.0 发布,支持 AI 大模型、应用、AI 流程编排和知识库
JeecgBoot 最新推出了一整套 AI 大模型功能,包括 AI 模型管理、AI 应用、知识库、AI 流程编排和 AI 对话助手。这标志着其转型为 “AI 低代码平台”,旨在帮助开发者快速构建和部署个性化 AI 应用,降低开发门槛,提升效率。
515 12
|
机器学习/深度学习 人工智能 算法
ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊
ProtGPS 是麻省理工学院和怀特黑德研究所联合开发的蛋白质语言模型,能够预测蛋白质在细胞内的亚细胞定位,并设计具有特定亚细胞定位的新型蛋白质。
989 17
ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊
|
人工智能 自然语言处理 数据可视化
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
Data Formulator 是微软研究院推出的开源 AI 数据可视化工具,结合图形化界面和自然语言输入,帮助用户快速创建复杂的可视化图表。
1217 10
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
|
机器学习/深度学习 人工智能 搜索推荐
BioEmu:微软黑科技炸场!生成式AI重构蛋白质模拟:千倍效率碾压传统计算,新药研发周期砍半
BioEmu 是微软推出的生成式深度学习系统,可在单个 GPU 上每小时生成数千种蛋白质结构样本,支持模拟动态变化、预测热力学性质,并显著降低计算成本。
725 2
BioEmu:微软黑科技炸场!生成式AI重构蛋白质模拟:千倍效率碾压传统计算,新药研发周期砍半
|
人工智能 安全 数据中心
D1net阅闻 | 微软CEO对话特朗普和马斯克:豪掷800亿美元建AI数据中心
D1net阅闻 | 微软CEO对话特朗普和马斯克:豪掷800亿美元建AI数据中心
|
12月前
|
缓存 人工智能 自然语言处理
微软发明全新LLM语言,AI智能体交互效率翻倍!
微软发布DroidSpeak技术,优化大型语言模型(LLM)间的通信,显著提升AI智能体交互效率。该技术通过嵌入缓存和键值缓存重用,减少预填充延迟,降低高达50%的延迟,同时保持高质量生成。DroidSpeak适用于多种AI任务,提高协作效率,但在资源受限环境和处理模型差异性方面仍面临挑战。
464 3
|
机器学习/深度学习 人工智能 算法
Nature:AI也许可以拥有常识,但不是现在
人工智能(AI)的快速发展引发了关于其是否能拥有常识的讨论。尽管AI在特定任务上取得进展,但目前仍缺乏真正的常识理解。常识涉及对物理世界、社会规范和文化背景的理解,难以通过数据和算法完全捕捉。研究人员正通过大规模语言模型和强化学习等方法提升AI的常识能力,但仍面临显著局限性,如对物理世界的直观理解不足、社会文化背景理解欠缺以及常识能力的通用性差等问题。未来,多模态学习和与人类交互有望增强AI的常识能力。
308 20

热门文章

最新文章