“几何构象增强AI算法”,百度生物计算最新研究成果登上《Nature》子刊

简介: “几何构象增强AI算法”,百度生物计算最新研究成果登上《Nature》子刊

近日,百度在国际顶级期刊《Nature》旗下子刊 《Nature Machine Intelligence》(Impact score 16.65)上发表了 AI + 生物计算的最新研究成果《Geometry Enhanced Molecular Representation Learning for Property Prediction》,提出 “基于空间结构的化合物表征学习方法”,即 “几何构象增强 AI 算法”(Geometry Enhanced Molecular Representation Learning,GEM 模型),揭示了一种基于三维空间结构信息的化合物建模方法,以及在药物研发中的应用。

论文链接:https://www.nature.com/articles/s42256-021-00438-4

公开资料显示,《Machine Intelligence》是《Nature》旗下专注于机器学习领域的顶级期刊,过去两年该期刊的影响因子已超过 16。在该项研究中,百度螺旋桨 PaddleHelix 团队首次将化合物的几何结构信息引入自监督学习和分子表示模型,并在下游十多项的属性预测任务中取得 SOTA,成为百度在 AI 赋能药物研发领域对外公开的又一项重磅成果。

药研领域求变,AI + 生物计算成最佳选择

众所周知,药物研发的成本高、周期长、风险高。据美国塔夫茨大学 2014 年的研究,新药进入市场的平均成本约为 26 亿美元,从首次合成到进入临床试验的平均耗时为 31.2 个月,从一期临床到上市长达 96.8 个月。另一方面,随着全球迈入老龄化社会,对新药的需求也在逐年增加,到 2024 年全球医药市场总规模将超过 11 万亿。与之相反,制药公司每 10 亿美元投资所获得的上市新药数量却在逐年下降。如何通过新的技术手段,快速找到有潜力的候选药物,降低进入临床试验失败的风险,就成为药物研发领域最亟需解决的问题。

在计算方法出现之前,药物研发基本通过生物实验的方法来寻找药物,成本高昂且耗时长,随着计算化学和计算生物学的发展,也有通过传统机器学习方法辅助进行药物设计的,但这些方法或多或少在效果和效率层面有不足,以小分子为例,要找到一个候选药物,筛选(搜索)的数量级达到 10 的 60 次方,传统计算方法很难高效完成。另一方面,随着 AI 技术的发展和普及,药物研发也逐渐进入到 AI 时代,天生擅长处理大数据的 AI 深度学习技术,就成为近年来大家关注的焦点,希望通过 AI 新技术提升药物研发效率,减少后期失败概率,降低药物研发成本。

化合物的性质预测的主要目的在于及时发现理化性质不达标的化合物,以降低候选化合物进入临床实验失败的风险,提升药物研发的成功率。传统的化合物性质预测分析一般采取实验方式,成本高昂且耗时长。业内也有一些基于 AI 算法的工作,但大多是使用化合物的二维信息,没有纳入化合物的三维空间结构信息。而百度首次提出,将化合物的空间结构信息引入到化合物预训练中,通过几何增强的自监督学习,对化合物分子进行表征,通过化合物的表征自主推断出空间结构信息,进而预测化合物分子的性质属性,以辅助进行药物研发,提升效率,降低成本。

值得一提的是,该研究由百度螺旋桨 PaddleHelix 生物计算团队独立完成,并已经在药物研发领域,携手合作伙伴在早期药物研发管线中落地。

百度 GEM 模型加速药物研发进程

很多的研究工作都证明了机器学习技术,特别是深度学习在化合物性质预测方面的巨大潜力,这些工作使用序列(SMILES 表达式)或是图(原子为节点,化学键为边)来表示化合物,用序列建模或者图神经网络(GNN)去预测化合物的属性。有些研究直接把每个化合物看作一个图,利用基于图拓扑结构的自监督学习方法进行分子表征,比如,遮盖并还原化合物图中的原子,化学键或子结构。但是,这些方法都只把化合物视为拓扑图,没有充分利用化合物的几何结构信息。而化合物的几何结构,即三维空间结构,对化合物的物理,化学,生物等性质都起着关键性的作用,具有相同拓扑结构的两个化合物的空间结构可能完全不同。另一方面,由于生物实验复杂的操作和高昂的成本,化合物的标注数据十分稀少且珍贵。稀疏的数据让深度神经网络极易过拟合,难以发挥强大的建模能力,如何从海量的无标注化合物中学习高质量的化合物表征成为化合物建模和属性预测的关键。

鉴于此,百度提出一种全新的基于空间结构的化合物建模方法——几何构象增强 AI 算法 GEM,并设计了多个几何级别的自我监督学习策略,用于学习化合物的空间结构知识,使得化合物的表征能自主推断出空间结构信息。这项技术在十多个基准的化合物属性预测数据集上均取得出色成绩,并成功应用到候选化合物的 ADMET 成药性预测任务上,取得良好收益。

解读几何构象增强 AI 算法 GEM 模型

几何构象增强 AI 算法 GEM 模型包含两个主要部分:基于空间结构的图神经网络(a)和多个几何级别的自监督学习任务(b)。

图 1: GEM 的整体框架

  • 基于空间结构的图神经网络


由于化合物的集合结构可以完全被原子-化学键键长-键角确定。GEM 提出了一种基于空间结构的图网络,同时对原子-化学键-键角的关系建模空间结构信息。每个化合物由两个图组成:原子-化学键的图 G 和化学键-键角的图 H。类似于过往的工作,原子-化学键的图 G 以原子作为图的节点,化学键作为连接原子的边。而化学键-键角的图 H 则为首次引入,以化学键作为图的节点,两个化学键所形成的键角为图的边。图神经网络包含多轮迭代,而化学键作为每一轮迭代中图 G 和图 H 的桥梁进行信息互通。最后一轮迭代的表征被用于化合物属性预测。

  • 基于空间结构的自监督学习


为了使模型更好学习到化学空间知识,GEM 不单单只是将几何信息作为输入,更进一步地设计了基于几何信息的学习任务(目标):预测化学键的长度;预测化学键组成的键角;预测两两原子之间的距离。其中,键长和键角描述化合物的局部结构,而两两原子之间的距离更关注化合物的全局结构。描述局部结构的自监督学习任务随机挑选化合物中以某个原子为中心的子图并进行遮盖,预测被遮盖的子图中的化学键的键长和化学键间形成的键角。描述全局结构的自监督学习任务则预估原子距离矩阵中的元素。通过这些基于空间结构的自监督学习任务,图神经网络能够有效推断出化合物的空间信息,从而对化合物的表征带来正向影响。

  • 实验结果


GEM 在 14 个化合物属性的基准数据集中取得了最佳表现,这些数据集都是目前学术界公认的化合物属性预测数据集。例如,在毒性相关的数据集(tox21、toxcast)和 HIV(艾滋病)病毒数据集上,GEM 预测结果远优于其他 baseline 模型。总体而言,百度的 GEM 模型,在 ESOL、FreeSolv 等回归任务上相对现在方法提升 8.8%,在 BACE、BBBP、SIDER 等分类任务上相对提升 4.7%。此外,在自监督学习方法上的消融实验也证明了基于空间结构的自监督学习方法的有效性。


落地 ADMET 成药性预测和药物筛选等场景

几何构象增强 AI 算法 GEM,能很好的学习化合物的空间结构知识,自主推断出空间结构信息,从而准确地预测候选化合物的 ADMET 性质——吸收(Absorption)、分布(Distribution)、代谢(Metabolism)、排泄(Excretion)和毒性(Toxicity),帮助在药物研发早期快速筛选潜在成功率更高的化合物。据了解,百度的该项研究已经应用于药物研发领域,在合作伙伴的早期药物筛选管线中实现了商业化落地。

此外,几何构象增强 AI 算法 GEM 还在药物虚拟筛选和药物联用方面,也起到关键作用。药物虚拟筛选是药物研发的重要一环,旨在通过从大规模的虚拟化合物库中找到与目标靶点有强亲和力的候选化合物。药物联用是通过预测两个药物在不同细胞系中的协同效用,以帮助找出给定药物在某一细胞系内中具有最佳协同作用。使得两种有协同效用的药物能够在保证治疗效果的同时,减少抗药性的产生。并通过降低使用剂量提升药物的安全性。

关于百度螺旋桨 PaddleHelix

螺旋桨 PaddleHelix 是基于百度飞桨深度学习框架打造,面向新药研发、疫苗设计、精准医疗等场景的生物计算平台,为生物医药领域的研究者提供全面的 AI + 生物计算的模型工具和技术方案。目前,螺旋桨 PaddleHelix 平台已开放多个模型,涵盖分子生成、虚拟筛选、ADMET 预测、蛋白 / RNA 结构预测、mRNA 序列设计、双药联用等方面。


除此之外,在 PPI 蛋白-蛋白相互作用,组学的表征和精准用药等方面,螺旋桨 PaddleHelix 团队也开展了相关的工作,并在多个国际竞赛中取得佳绩,相关研究成果也将陆续开放给大家体验试用。未来,螺旋桨 PaddleHelix 生物计算平台,还将继续秉持开源开放的态度,继续携手合作伙伴赋能生物计算行业,共建 AI + 生物计算的生态和服务。

基于空间结构的化合物表征学习方法 GEM 已通过螺旋桨 PaddleHelix 平台对外开放,欢迎大家使用。

相关文章
|
1月前
|
传感器 人工智能 监控
智慧工地 AI 算法方案
智慧工地AI算法方案通过集成多种AI算法,实现对工地现场的全方位安全监控、精准质量检测和智能进度管理。该方案涵盖平台层、展现层与应用层、基础层,利用AI技术提升工地管理的效率和安全性,减少人工巡检成本,提高施工质量和进度管理的准确性。方案具备算法精准高效、系统集成度高、可扩展性强和成本效益显著等优势,适用于人员安全管理、施工质量监控和施工进度管理等多个场景。
|
1月前
|
传感器 人工智能 监控
智慧电厂AI算法方案
智慧电厂AI算法方案通过深度学习和机器学习技术,实现设备故障预测、发电运行优化、安全监控和环保管理。方案涵盖平台层、展现层、应用层和基础层,具备精准诊断、智能优化、全方位监控等优势,助力电厂提升效率、降低成本、保障安全和环保合规。
智慧电厂AI算法方案
|
2月前
|
机器学习/深度学习 人工智能
打开AI黑匣子,三段式AI用于化学研究,优化分子同时产生新化学知识,登Nature
【10月更文挑战第11天】《自然》杂志发表了一项突破性的化学研究,介绍了一种名为“Closed-loop transfer”的AI技术。该技术通过数据生成、模型训练和实验验证三个阶段,不仅优化了分子结构,提高了光稳定性等性质,还发现了新的化学现象,为化学研究提供了新思路。此技术的应用加速了新材料的开发,展示了AI在解决复杂科学问题上的巨大潜力。
41 1
|
1月前
|
机器学习/深度学习 传感器 人工智能
智慧无人机AI算法方案
智慧无人机AI算法方案通过集成先进的AI技术和多传感器融合,实现了无人机的自主飞行、智能避障、高效数据处理及多机协同作业,显著提升了无人机在复杂环境下的作业能力和安全性。该方案广泛应用于航拍测绘、巡检监测、应急救援和物流配送等领域,能够有效降低人工成本,提高任务执行效率和数据处理速度。
智慧无人机AI算法方案
|
22天前
|
存储 人工智能 缓存
【AI系统】布局转换原理与算法
数据布局转换技术通过优化内存中数据的排布,提升程序执行效率,特别是对于缓存性能的影响显著。本文介绍了数据在内存中的排布方式,包括内存对齐、大小端存储等概念,并详细探讨了张量数据在内存中的排布,如行优先与列优先排布,以及在深度学习中常见的NCHW与NHWC两种数据布局方式。这些布局方式的选择直接影响到程序的性能,尤其是在GPU和CPU上的表现。此外,还讨论了连续与非连续张量的概念及其对性能的影响。
45 3
|
22天前
|
机器学习/深度学习 人工智能 算法
【AI系统】内存分配算法
本文探讨了AI编译器前端优化中的内存分配问题,涵盖模型与硬件内存的发展、内存划分及其优化算法。文章首先分析了神经网络模型对NPU内存需求的增长趋势,随后详细介绍了静态与动态内存的概念及其实现方式,最后重点讨论了几种节省内存的算法,如空间换内存、计算换内存、模型压缩和内存复用等,旨在提高内存使用效率,减少碎片化,提升模型训练和推理的性能。
42 1
|
1月前
|
传感器 人工智能 监控
智慧化工厂AI算法方案
智慧化工厂AI算法方案针对化工行业生产过程中的安全风险、效率瓶颈、环保压力和数据管理不足等问题,通过深度学习、大数据分析等技术,实现生产过程的实时监控与优化、设备故障预测与维护、安全预警与应急响应、环保监测与治理优化,全面提升工厂的智能化水平和管理效能。
141 0
智慧化工厂AI算法方案
|
2月前
|
数据采集 人工智能 安全
CIO面临更快交付AI成果的压力
CIO面临更快交付AI成果的压力
|
2月前
|
JSON 算法 数据可视化
测试专项笔记(一): 通过算法能力接口返回的检测结果完成相关指标的计算(目标检测)
这篇文章是关于如何通过算法接口返回的目标检测结果来计算性能指标的笔记。它涵盖了任务描述、指标分析(包括TP、FP、FN、TN、精准率和召回率),接口处理,数据集处理,以及如何使用实用工具进行文件操作和数据可视化。文章还提供了一些Python代码示例,用于处理图像文件、转换数据格式以及计算目标检测的性能指标。
80 0
测试专项笔记(一): 通过算法能力接口返回的检测结果完成相关指标的计算(目标检测)
|
2月前
|
机器学习/深度学习 人工智能 算法
Nature子刊:AI模型测大脑年龄,究竟哪些因素会加速大脑衰老?
【10月更文挑战第7天】《自然医学》杂志近期发布了一项研究,介绍了一种名为BrainAge的人工智能模型,该模型可预测个体的大脑年龄并分析影响大脑衰老的因素。研究团队来自美国加州大学旧金山分校,利用英国生物银行的近50,000名参与者的数据,发现高血压、糖尿病、肥胖、吸烟、饮酒、缺乏运动及遗传因素均与大脑衰老有关。尽管存在数据集限制等局限性,BrainAge模型仍为研究大脑衰老和相关疾病提供了重要工具。
70 1