Nat. Biotech.|药物设计的AI生成模型

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Biotech.|药物设计的AI生成模型

今天介绍2020年1月30日发表在Nature Biotechnology上的评论,作者为Relay Therapeutics公司的Walters和Murcko,该论文评价了当前几种基于AI的药物生成模型存在的问题。同时,该期刊同期发表了Insilico Medicine的CEO Alex Zhavoronkov 和多伦多大学Alán Aspuru-Guzik对于该评论的回复。


image.png

image.png

1


研究背景


药物发现过程包括药物靶标(drug target)及生物标志物(biomarker)的选择与确认、先导化合物的确定、构效关系(SAR)的研究与活性化合物的筛选以及候选药物的确定等步骤。使用传统方法发现新药周期漫长且经济成本高。在过去的几年里,研究者对AI技术在药物发现方面的应用越来越感兴趣,AI技术能有效缩短药物研发时间,降低研发成本。本文作者为Relay Therapeutics公司的Walters和Murcko,他们针对近期AI热点领域--生成模型(generative model)在药物发现的应用影响作出评价。


针对各种最近提出的生成模型,需要建立一种基准的评价方法。目前已有两个团队开始这方面努力,但这些方法生成的分子的新颖性以及结果的重要性评估仍是一个很难解决的问题。虽然这些基准为生成模型提供了评价和比较标准,但生成模型的最终价值仍需通过对生成分子的化学合成和生物学实验来证明。


2


对已有生成模型的评论


2018年,苏黎世联邦理工学院的Gisbert Schneider团队发表了第一个合成和测试分子生成模型的工作。作者首先在ChEMBL数据库中大于500000个的生物活性分子上训练生成模型,然后基于一组已知为PPAR或RXR激动剂的25种脂肪酸类似物进行训练对模型进行微调(这25种脂肪酸类似物的结构没有给出),以生成维甲酸X受体(RXRs)或过氧化物酶体增殖剂激活受体(PPARs)的激动剂。基于PPAR和RXR活性的定量构效关系(QSAR)模型,对生成模型产生的分子进行评价。然后作者通过QSAR模型中的排名,人工评估的合成可及性和化学构建块可用性,选择出了5个待合成的分子。作者将五个选择出来的分子合成,发现其中两个是PPAR的激动剂,具有4μM~14μM的半数最大有效浓度(EC50)值,另外两个化合物为双PPAR和RXR抑制剂,EC50值介于60 nM和13μM之间。第五种化合物没有活性。


另一个分子生成模型的工作来自Insilico Medicine的CEO Alex Zhavoronkov 和多伦多大学的Alán Aspuru-Guzik在《Nature Biotechnology》2019年9月刊上发表的一篇论文。在这篇文章中,作者基于从科学文献和专利中提取的一组DDR1抑制剂训练了一个生成模型。基于AI生成模型的输出,他们合成了六个分子。在这六个分子中,四个具有生物活性,其中最好的“化合物1”具有10 nM的生最大抑制浓度(IC50)。在U2OS骨肉瘤细胞系中测试“化合物1”,显示其IC50为10.3nM。在随后的小鼠药代动力学研究中,它也被证明具有合理的生物利用度以及3.5小时的半衰期。这一结果在科学界和大众媒体上得到了相当多的关注,并被几位权威人士称为“药学界的Alphgo时刻”,但是其中一个事实似乎逃过了大多数专家的视线,那就是Zhavoronkov论文中的 “化合物1”与帕纳替尼(ponatinib)之间惊人的相似性,如图1中间“化合物1”与右边的帕纳替尼。


image.png

图 1  化合物1与两个已知的抑制剂对比


帕纳替尼是一种有效的多酪氨酸激酶抑制剂,这种广泛的激酶谱可能导致不良副作用,FDA也在2013年将帕纳替尼设置黑框警告(Black Box Warning)。帕纳替尼抑制的众多激酶之一是DDR1。一些论文(包括Zhavoronkov自己的论文),列出了帕纳替尼在1nM到9nM之间的DDR1 IC50,这些信息已经被用于生成模型的训练。鉴于和帕纳替尼的相似性,化合物1的细胞和药代动力学特征变得不那么令人惊讶。还应注意的是,Gao和他的同事在2013年的一篇论文中发表了一种类似于帕纳替尼的分子(通过对帕纳替尼轻微的修饰得到,如图1左),是DDR1的6nM抑制剂。该分子也是训练语料的一部分。


由于帕纳替尼的多激酶活性,不得不质疑Zhavoronkov等人报道的化合物1的选择性。在他们的论文中,这一观点受到在44个激酶选择性筛选的支持。但是这种选择性筛选不包含任何已报道为帕纳替尼药物靶点的激酶,其IC50值在1.5-72.2nM之间。如果不测试这些已知的帕纳替尼靶点,很难为选择性的说法进行辩护。

3


提出问题


生成模型产生的分子与训练语料库中已知的活性分子相似,这就提出了几个问题,这些问题普遍地适用于其他使用生成模型识别抑制剂的论文。


第一个问题是如何提供生成模型的训练数据。Zhavoronkov等人虽然提供了其训练集分子的参考文献,但并没有提供完整的训练语料库。其次,作者没有在论文或支持材料中显示帕纳替尼或其类似物。作者强烈认为,为了公布生成模型的结果,用于建立模型的完整训练集应以电子形式提供。此外,与最终分子最相似的训练集分子在论文中应以化学结构表示。


一个更重要的问题是判断生成模型生成的分子的标准。对新颖性、活性和构效关系广度的要求是否与人类化学家团队的要求相同? 一篇由一组化学家用异恶唑代替酰胺羰基生成一种与已发表的化合物大致相等的化合物的论文可能不会被送审,更不用说发表了。


在评估生成模型的性能时必须考虑的另一个问题是,不使用人工智能的更简单的方法是否能够产生相同的分子。多年来,计算化学家一直采用自动插入等位取代物的方法。在某些情况下,这些替代物基于药物化学先例,而在其他情况下,具有相似形状和静电的分子片段被替代。另一种常见的方法是采用环支撑策略来降低分子的构象灵活性。虽然很难进行从头到头比较,但应该注意这些替代品的存在。


4


解决方案


我们已经到了这样一个阶段,即科学期刊需要为生成模型制定指导方针。这将使这些方法能够得到更迅速和更系统的评价,这将使整个社会受益。


因此,我们建议发表生成模型和相关研究结果的期刊联合起来,为发表使用人工智能方法生成分子的论文建立一套审阅指南。虽然这些指导原则必须经过社会人士的意见和讨论,但我们仍建议三条指导方针:


1. 用来训练生成模型的活性分子应该以电子形式提供。这种数据的可用性将使大多数读者很容易执行子结构和相似性搜索,并将输出分子与训练集进行比较。


2. 报告AI生成分子的论文应包含一个表,表中显示与每个生成分子最相似的训练集分子。评估分子相似性的方法有很多种,尽管此表不能替代结构公开(第1点),但一般读者将能够快速评估所报告分子的重要性。


3. 期刊应该使用跟药物化学家同样的标准来评估AI产生的分子的新颖性。我们希望有一天,人工智能产生的分子与药物化学家的创造力所产生的分子是无法区分的。


5


总结


人工智能方法已经超越了它们在过去30年里所占据的专家领域,即将成为科学发现过程中不可或缺的一部分,更具体地说,是药物发现的一部分。然而,要使这些方法成为主流,我们需要对如何使用这些方法保持透明,并为正在进行的发现提供一个清晰的背景,为生成模型结果的发表制定指南,使审稿人和读者能够更准确地评估和欣赏这一新的、迅速发展的科学领域。

image.png

在受到Walters和Murcko的攻击后, Insilico Medicine的CEO Alex Zhavoronkov 和多伦多大学Alán Aspuru-Guzik对于该评论给予了回复,并发表在同一期刊上。


Alex Zhavoronkov和Alán Aspuru-Guzik首先介绍了生成模型的迅速发展,并补充了另外两个该领域的创新贡献论文:生成对抗网络(GAN)和差分自编码(VAE)模型,然后针对上篇论文提出的“生成模型生成的分子的标准”、“与帕纳替尼的惊人相似性”以及“化合物1的选择性”相关置疑给出了以下回复:


关于“生成模型生成的分子的标准”问题,作者称其论文中提出的运用一个名为“GENTRL”(生成张量强化学习模型)的人工智能系统,主要目的是设计、合成和测试使用生成模型生成的小分子抑制剂,证明一种新的生成方法的有效性,能够比以前使用传统方法发现新药可能的时间更短。因此,对生成的分子的深入验证并不是论文的主要目标,作者也欣然承认这些化合物需要进一步优化。


针对“与帕纳替尼的惊人相似性”的置疑,文中提到生成模型在给定模板分子时的工作方式类似于它们处理图像的方式。如果训练图像包括一个个体的图像,即使年龄和性别等生成条件改变,生成的图像也将看起来与原始图像相似。与图片不同的是,小分子是离散的结构,在这种结构中,微小的变化会导致功能上的巨大差异。化合物1是一种独特的非专利分子。Murcko和Walters强调了一个事实,即化合物1与帕纳替尼类似,因此可能具有相似的选择性。但也许这种相似之处只是结构“看起来相似”。


针对第三个置疑,作者承认“化合物1的选择性”是一个挑战,并且应该在Murcko和Walters提出的其他激酶上进行测试。然而,化合物1对DDR2 表现出较好的选择性指数(IC50(DDR2)/IC50(DDR1) > 20) ,而帕纳替尼对DDR1和DDR2具有相同的抑制活性(9和9.4 nM)。这清楚地说明了,在等位元上不同的化合物片段可以表现出相当不同的化学特性。


总结


作者同意Murcko 和Wilson的建议,为了建立生成化学的一系列标准,由Insilico Medicine联合创办的人工智能医疗联盟(AAIH)提出了MOSES ---一个支持药物发现机器学习研究的基准平台,旨在解决Murcko和Walters提出的许多问题。作者希望社区能够共同努力制定一套指导准则,以便对发布的药物发现生成模型的能力进行比较和评估。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
目录
相关文章
|
6天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
65 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
16天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
68 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
18天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
59 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
18天前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
58 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
|
21天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
133 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
21天前
|
机器学习/深度学习 人工智能 编解码
【AI系统】Transformer 模型小型化
本文介绍了几种轻量级的 Transformer 模型,旨在解决传统 Transformer 参数庞大、计算资源消耗大的问题。主要包括 **MobileVit** 和 **MobileFormer** 系列,以及 **EfficientFormer**。MobileVit 通过结合 CNN 和 Transformer 的优势,实现了轻量级视觉模型,特别适合移动设备。MobileFormer 则通过并行结构融合了 MobileNet 和 Transformer,增强了模型的局部和全局表达能力。
56 8
【AI系统】Transformer 模型小型化
|
19天前
|
存储 人工智能 PyTorch
【AI系统】模型转换流程
本文详细介绍了AI模型在不同框架间的转换方法,包括直接转换和规范式转换两种方式。直接转换涉及从源框架直接生成目标框架的模型文件,而规范式转换则通过一个中间标准格式(如ONNX)作为桥梁,实现模型的跨框架迁移。文中还提供了具体的转换流程和技术细节,以及模型转换工具的概览,帮助用户解决训练环境与部署环境不匹配的问题。
35 5
【AI系统】模型转换流程
|
22天前
|
机器学习/深度学习 存储 人工智能
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer(ViT)作为图像编码器,并引入高效记忆模块,以降低计算复杂度,同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。
37 9
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
|
19天前
|
机器学习/深度学习 存储 人工智能
【AI系统】模型转换基本介绍
模型转换技术旨在解决深度学习模型在不同框架间的兼容性问题,通过格式转换和图优化,将训练框架生成的模型适配到推理框架中,实现高效部署。这一过程涉及模型格式转换、计算图优化、算子统一及输入输出支持等多个环节,确保模型能在特定硬件上快速、准确地运行。推理引擎作为核心组件,通过优化阶段和运行阶段,实现模型的加载、优化和高效执行。面对不同框架的模型文件格式和网络结构,推理引擎需具备高度的灵活性和兼容性,以支持多样化的应用场景。
47 4
【AI系统】模型转换基本介绍
|
19天前
|
机器学习/深度学习 人工智能 算法
【AI系统】模型压缩基本介绍
模型压缩旨在通过减少存储空间、降低计算量和提高计算效率,降低模型部署成本,同时保持模型性能。主要技术包括模型量化、参数剪枝、知识蒸馏和低秩分解,广泛应用于移动设备、物联网、在线服务系统、大模型及自动驾驶等领域。
59 4
【AI系统】模型压缩基本介绍

热门文章

最新文章