Nat. Biotech.|药物设计的AI生成模型

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Biotech.|药物设计的AI生成模型

今天介绍2020年1月30日发表在Nature Biotechnology上的评论,作者为Relay Therapeutics公司的Walters和Murcko,该论文评价了当前几种基于AI的药物生成模型存在的问题。同时,该期刊同期发表了Insilico Medicine的CEO Alex Zhavoronkov 和多伦多大学Alán Aspuru-Guzik对于该评论的回复。


image.png

image.png

1


研究背景


药物发现过程包括药物靶标(drug target)及生物标志物(biomarker)的选择与确认、先导化合物的确定、构效关系(SAR)的研究与活性化合物的筛选以及候选药物的确定等步骤。使用传统方法发现新药周期漫长且经济成本高。在过去的几年里,研究者对AI技术在药物发现方面的应用越来越感兴趣,AI技术能有效缩短药物研发时间,降低研发成本。本文作者为Relay Therapeutics公司的Walters和Murcko,他们针对近期AI热点领域--生成模型(generative model)在药物发现的应用影响作出评价。


针对各种最近提出的生成模型,需要建立一种基准的评价方法。目前已有两个团队开始这方面努力,但这些方法生成的分子的新颖性以及结果的重要性评估仍是一个很难解决的问题。虽然这些基准为生成模型提供了评价和比较标准,但生成模型的最终价值仍需通过对生成分子的化学合成和生物学实验来证明。


2


对已有生成模型的评论


2018年,苏黎世联邦理工学院的Gisbert Schneider团队发表了第一个合成和测试分子生成模型的工作。作者首先在ChEMBL数据库中大于500000个的生物活性分子上训练生成模型,然后基于一组已知为PPAR或RXR激动剂的25种脂肪酸类似物进行训练对模型进行微调(这25种脂肪酸类似物的结构没有给出),以生成维甲酸X受体(RXRs)或过氧化物酶体增殖剂激活受体(PPARs)的激动剂。基于PPAR和RXR活性的定量构效关系(QSAR)模型,对生成模型产生的分子进行评价。然后作者通过QSAR模型中的排名,人工评估的合成可及性和化学构建块可用性,选择出了5个待合成的分子。作者将五个选择出来的分子合成,发现其中两个是PPAR的激动剂,具有4μM~14μM的半数最大有效浓度(EC50)值,另外两个化合物为双PPAR和RXR抑制剂,EC50值介于60 nM和13μM之间。第五种化合物没有活性。


另一个分子生成模型的工作来自Insilico Medicine的CEO Alex Zhavoronkov 和多伦多大学的Alán Aspuru-Guzik在《Nature Biotechnology》2019年9月刊上发表的一篇论文。在这篇文章中,作者基于从科学文献和专利中提取的一组DDR1抑制剂训练了一个生成模型。基于AI生成模型的输出,他们合成了六个分子。在这六个分子中,四个具有生物活性,其中最好的“化合物1”具有10 nM的生最大抑制浓度(IC50)。在U2OS骨肉瘤细胞系中测试“化合物1”,显示其IC50为10.3nM。在随后的小鼠药代动力学研究中,它也被证明具有合理的生物利用度以及3.5小时的半衰期。这一结果在科学界和大众媒体上得到了相当多的关注,并被几位权威人士称为“药学界的Alphgo时刻”,但是其中一个事实似乎逃过了大多数专家的视线,那就是Zhavoronkov论文中的 “化合物1”与帕纳替尼(ponatinib)之间惊人的相似性,如图1中间“化合物1”与右边的帕纳替尼。


image.png

图 1  化合物1与两个已知的抑制剂对比


帕纳替尼是一种有效的多酪氨酸激酶抑制剂,这种广泛的激酶谱可能导致不良副作用,FDA也在2013年将帕纳替尼设置黑框警告(Black Box Warning)。帕纳替尼抑制的众多激酶之一是DDR1。一些论文(包括Zhavoronkov自己的论文),列出了帕纳替尼在1nM到9nM之间的DDR1 IC50,这些信息已经被用于生成模型的训练。鉴于和帕纳替尼的相似性,化合物1的细胞和药代动力学特征变得不那么令人惊讶。还应注意的是,Gao和他的同事在2013年的一篇论文中发表了一种类似于帕纳替尼的分子(通过对帕纳替尼轻微的修饰得到,如图1左),是DDR1的6nM抑制剂。该分子也是训练语料的一部分。


由于帕纳替尼的多激酶活性,不得不质疑Zhavoronkov等人报道的化合物1的选择性。在他们的论文中,这一观点受到在44个激酶选择性筛选的支持。但是这种选择性筛选不包含任何已报道为帕纳替尼药物靶点的激酶,其IC50值在1.5-72.2nM之间。如果不测试这些已知的帕纳替尼靶点,很难为选择性的说法进行辩护。

3


提出问题


生成模型产生的分子与训练语料库中已知的活性分子相似,这就提出了几个问题,这些问题普遍地适用于其他使用生成模型识别抑制剂的论文。


第一个问题是如何提供生成模型的训练数据。Zhavoronkov等人虽然提供了其训练集分子的参考文献,但并没有提供完整的训练语料库。其次,作者没有在论文或支持材料中显示帕纳替尼或其类似物。作者强烈认为,为了公布生成模型的结果,用于建立模型的完整训练集应以电子形式提供。此外,与最终分子最相似的训练集分子在论文中应以化学结构表示。


一个更重要的问题是判断生成模型生成的分子的标准。对新颖性、活性和构效关系广度的要求是否与人类化学家团队的要求相同? 一篇由一组化学家用异恶唑代替酰胺羰基生成一种与已发表的化合物大致相等的化合物的论文可能不会被送审,更不用说发表了。


在评估生成模型的性能时必须考虑的另一个问题是,不使用人工智能的更简单的方法是否能够产生相同的分子。多年来,计算化学家一直采用自动插入等位取代物的方法。在某些情况下,这些替代物基于药物化学先例,而在其他情况下,具有相似形状和静电的分子片段被替代。另一种常见的方法是采用环支撑策略来降低分子的构象灵活性。虽然很难进行从头到头比较,但应该注意这些替代品的存在。


4


解决方案


我们已经到了这样一个阶段,即科学期刊需要为生成模型制定指导方针。这将使这些方法能够得到更迅速和更系统的评价,这将使整个社会受益。


因此,我们建议发表生成模型和相关研究结果的期刊联合起来,为发表使用人工智能方法生成分子的论文建立一套审阅指南。虽然这些指导原则必须经过社会人士的意见和讨论,但我们仍建议三条指导方针:


1. 用来训练生成模型的活性分子应该以电子形式提供。这种数据的可用性将使大多数读者很容易执行子结构和相似性搜索,并将输出分子与训练集进行比较。


2. 报告AI生成分子的论文应包含一个表,表中显示与每个生成分子最相似的训练集分子。评估分子相似性的方法有很多种,尽管此表不能替代结构公开(第1点),但一般读者将能够快速评估所报告分子的重要性。


3. 期刊应该使用跟药物化学家同样的标准来评估AI产生的分子的新颖性。我们希望有一天,人工智能产生的分子与药物化学家的创造力所产生的分子是无法区分的。


5


总结


人工智能方法已经超越了它们在过去30年里所占据的专家领域,即将成为科学发现过程中不可或缺的一部分,更具体地说,是药物发现的一部分。然而,要使这些方法成为主流,我们需要对如何使用这些方法保持透明,并为正在进行的发现提供一个清晰的背景,为生成模型结果的发表制定指南,使审稿人和读者能够更准确地评估和欣赏这一新的、迅速发展的科学领域。

image.png

在受到Walters和Murcko的攻击后, Insilico Medicine的CEO Alex Zhavoronkov 和多伦多大学Alán Aspuru-Guzik对于该评论给予了回复,并发表在同一期刊上。


Alex Zhavoronkov和Alán Aspuru-Guzik首先介绍了生成模型的迅速发展,并补充了另外两个该领域的创新贡献论文:生成对抗网络(GAN)和差分自编码(VAE)模型,然后针对上篇论文提出的“生成模型生成的分子的标准”、“与帕纳替尼的惊人相似性”以及“化合物1的选择性”相关置疑给出了以下回复:


关于“生成模型生成的分子的标准”问题,作者称其论文中提出的运用一个名为“GENTRL”(生成张量强化学习模型)的人工智能系统,主要目的是设计、合成和测试使用生成模型生成的小分子抑制剂,证明一种新的生成方法的有效性,能够比以前使用传统方法发现新药可能的时间更短。因此,对生成的分子的深入验证并不是论文的主要目标,作者也欣然承认这些化合物需要进一步优化。


针对“与帕纳替尼的惊人相似性”的置疑,文中提到生成模型在给定模板分子时的工作方式类似于它们处理图像的方式。如果训练图像包括一个个体的图像,即使年龄和性别等生成条件改变,生成的图像也将看起来与原始图像相似。与图片不同的是,小分子是离散的结构,在这种结构中,微小的变化会导致功能上的巨大差异。化合物1是一种独特的非专利分子。Murcko和Walters强调了一个事实,即化合物1与帕纳替尼类似,因此可能具有相似的选择性。但也许这种相似之处只是结构“看起来相似”。


针对第三个置疑,作者承认“化合物1的选择性”是一个挑战,并且应该在Murcko和Walters提出的其他激酶上进行测试。然而,化合物1对DDR2 表现出较好的选择性指数(IC50(DDR2)/IC50(DDR1) > 20) ,而帕纳替尼对DDR1和DDR2具有相同的抑制活性(9和9.4 nM)。这清楚地说明了,在等位元上不同的化合物片段可以表现出相当不同的化学特性。


总结


作者同意Murcko 和Wilson的建议,为了建立生成化学的一系列标准,由Insilico Medicine联合创办的人工智能医疗联盟(AAIH)提出了MOSES ---一个支持药物发现机器学习研究的基准平台,旨在解决Murcko和Walters提出的许多问题。作者希望社区能够共同努力制定一套指导准则,以便对发布的药物发现生成模型的能力进行比较和评估。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
基于阿里云,构建一个企业web应用上云经典架构,让IT从业者体验企业级架构的实战训练。
目录
相关文章
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
当大火的文图生成模型遇见知识图谱,AI画像趋近于真实世界
本文介绍了阿里云机器学习PAI团队开发的名为ARTIST的中文文图生成模型,该模型融合了知识图谱信息,能够生成更加符合常识的图像。ARTIST基于Transformer架构,将文图生成任务分为图像矢量量化和文本引导的图像序列生成两个阶段。在第一阶段,模型使用VQGAN对图像进行矢量量化;在第二阶段,通过GPT模型并结合知识图谱中的实体知识来生成图像序列。在MUGE中文文图生成评测基准上,ARTIST表现出色,其生成效果优于其他模型。此外,EasyNLP框架提供了简单易用的接口,用户可以基于公开的Checkpoint进行少量领域相关的微调,实现各种艺术创作。
|
2天前
|
人工智能 自然语言处理 机器人
[AI Google] 新的生成媒体模型和工具,专为创作者设计和构建
探索谷歌最新的生成媒体模型:用于高分辨率视频生成的 Veo 和用于卓越文本生成图像能力的 Imagen 3。还可以了解使用 Music AI Sandbox 创作的新演示录音。
[AI Google] 新的生成媒体模型和工具,专为创作者设计和构建
|
6天前
|
机器学习/深度学习 人工智能 安全
Gandalf AI 通关详解(大模型安全)
Gandalf AI 通关详解(大模型安全)
|
8天前
|
人工智能 自然语言处理 安全
【大模型】 基于AI和全球化进程的权衡:开源大模型与闭源大模型
【大模型】 基于AI和全球化进程的权衡:开源大模型与闭源大模型
36 0
|
9天前
|
数据采集 SQL 人工智能
AI+低代码,打通企业大模型应用最后一公里!
在2024微软Build大会上,微软宣布50多项AI更新,包括GPT-4上云、Cobalt芯片、Team Copilot和小模型等。Team Copilot成为团队助手,管理会议并协助解决问题。GPT-4模型支持多模态处理,引领AI体验新标准。微软构建三个平台增强AI功能,推动AI应用于协同办公、低代码开发等领域。织信低代码平台结合AI技术,实现智能数据补充、内容分析和快速算法,提升企业效率,降低了对IT资源的需求。AI与低代码技术共同促进数字化转型,织信低代码已在多个行业广泛应用,其AI助手强化了用户体验和效率。未来,AI将成为软件交互的核心,低代码与AI的结合将进一步推动软件平民化。
|
10天前
|
机器学习/深度学习 存储 人工智能
构建高效AI系统:深度学习模型压缩技术
【5月更文挑战第26天】 在资源受限的应用场景中,深度学习模型往往面临存储空间和计算能力的双重挑战。本文针对这一问题,深入探讨了深度学习模型压缩技术,旨在通过降低模型复杂度来优化其性能。文中首先分析了模型压缩的必要性,随后详细介绍了知识蒸馏、网络剪枝、量化等主流压缩方法,并通过实验验证了所提技术的有效性。最后,文章展望了模型压缩领域的未来发展方向,为相关研究提供了新的视角和思路。
|
10天前
|
机器学习/深度学习 数据采集 人工智能
构建高效AI模型:深度学习优化策略和实践
【5月更文挑战第26天】 在人工智能的浪潮中,深度学习作为一项核心技术,其模型构建与优化一直是研究的热点。本文旨在探讨如何通过一系列创新性的优化策略提升深度学习模型的性能及效率。我们将从理论与实践两个维度出发,详细阐述包括数据预处理、网络结构设计、损失函数选择、正则化技巧以及超参数调整等方面的优化措施。通过这些策略的综合运用,可以显著提高模型的准确性,降低过拟合风险,并缩短训练时间,为AI领域的研究者和工程师提供有价值的参考。
|
12天前
|
人工智能 图形学
阿里AI模型EMO免费上线通义APP
阿里AI模型EMO免费上线通义APP
69 1
|
14天前
|
机器学习/深度学习 人工智能 算法
AI能治病了?AI生成药物分子90%成功率通过I期临床试验,未来研发新药只需5年!
【5月更文挑战第21天】AI在药物研发上取得重大突破,生成的药物分子在I期临床试验成功率高达90%,有望将新药研发时间缩短至5年。利用深度学习,AI能快速筛选出潜力药物,但需注意后续临床试验挑战及伦理安全问题。[链接](https://doi.org/10.1016/j.drudis.2024.104009)
38 2
|
15天前
|
机器学习/深度学习 人工智能 编解码
Sora - 探索AI视频模型的无限可能
Sora - 探索AI视频模型的无限可能
38 0