Nat. Biotech.|药物设计的AI生成模型

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Biotech.|药物设计的AI生成模型

今天介绍2020年1月30日发表在Nature Biotechnology上的评论,作者为Relay Therapeutics公司的Walters和Murcko,该论文评价了当前几种基于AI的药物生成模型存在的问题。同时,该期刊同期发表了Insilico Medicine的CEO Alex Zhavoronkov 和多伦多大学Alán Aspuru-Guzik对于该评论的回复。


image.png

image.png

1


研究背景


药物发现过程包括药物靶标(drug target)及生物标志物(biomarker)的选择与确认、先导化合物的确定、构效关系(SAR)的研究与活性化合物的筛选以及候选药物的确定等步骤。使用传统方法发现新药周期漫长且经济成本高。在过去的几年里,研究者对AI技术在药物发现方面的应用越来越感兴趣,AI技术能有效缩短药物研发时间,降低研发成本。本文作者为Relay Therapeutics公司的Walters和Murcko,他们针对近期AI热点领域--生成模型(generative model)在药物发现的应用影响作出评价。


针对各种最近提出的生成模型,需要建立一种基准的评价方法。目前已有两个团队开始这方面努力,但这些方法生成的分子的新颖性以及结果的重要性评估仍是一个很难解决的问题。虽然这些基准为生成模型提供了评价和比较标准,但生成模型的最终价值仍需通过对生成分子的化学合成和生物学实验来证明。


2


对已有生成模型的评论


2018年,苏黎世联邦理工学院的Gisbert Schneider团队发表了第一个合成和测试分子生成模型的工作。作者首先在ChEMBL数据库中大于500000个的生物活性分子上训练生成模型,然后基于一组已知为PPAR或RXR激动剂的25种脂肪酸类似物进行训练对模型进行微调(这25种脂肪酸类似物的结构没有给出),以生成维甲酸X受体(RXRs)或过氧化物酶体增殖剂激活受体(PPARs)的激动剂。基于PPAR和RXR活性的定量构效关系(QSAR)模型,对生成模型产生的分子进行评价。然后作者通过QSAR模型中的排名,人工评估的合成可及性和化学构建块可用性,选择出了5个待合成的分子。作者将五个选择出来的分子合成,发现其中两个是PPAR的激动剂,具有4μM~14μM的半数最大有效浓度(EC50)值,另外两个化合物为双PPAR和RXR抑制剂,EC50值介于60 nM和13μM之间。第五种化合物没有活性。


另一个分子生成模型的工作来自Insilico Medicine的CEO Alex Zhavoronkov 和多伦多大学的Alán Aspuru-Guzik在《Nature Biotechnology》2019年9月刊上发表的一篇论文。在这篇文章中,作者基于从科学文献和专利中提取的一组DDR1抑制剂训练了一个生成模型。基于AI生成模型的输出,他们合成了六个分子。在这六个分子中,四个具有生物活性,其中最好的“化合物1”具有10 nM的生最大抑制浓度(IC50)。在U2OS骨肉瘤细胞系中测试“化合物1”,显示其IC50为10.3nM。在随后的小鼠药代动力学研究中,它也被证明具有合理的生物利用度以及3.5小时的半衰期。这一结果在科学界和大众媒体上得到了相当多的关注,并被几位权威人士称为“药学界的Alphgo时刻”,但是其中一个事实似乎逃过了大多数专家的视线,那就是Zhavoronkov论文中的 “化合物1”与帕纳替尼(ponatinib)之间惊人的相似性,如图1中间“化合物1”与右边的帕纳替尼。


image.png

图 1  化合物1与两个已知的抑制剂对比


帕纳替尼是一种有效的多酪氨酸激酶抑制剂,这种广泛的激酶谱可能导致不良副作用,FDA也在2013年将帕纳替尼设置黑框警告(Black Box Warning)。帕纳替尼抑制的众多激酶之一是DDR1。一些论文(包括Zhavoronkov自己的论文),列出了帕纳替尼在1nM到9nM之间的DDR1 IC50,这些信息已经被用于生成模型的训练。鉴于和帕纳替尼的相似性,化合物1的细胞和药代动力学特征变得不那么令人惊讶。还应注意的是,Gao和他的同事在2013年的一篇论文中发表了一种类似于帕纳替尼的分子(通过对帕纳替尼轻微的修饰得到,如图1左),是DDR1的6nM抑制剂。该分子也是训练语料的一部分。


由于帕纳替尼的多激酶活性,不得不质疑Zhavoronkov等人报道的化合物1的选择性。在他们的论文中,这一观点受到在44个激酶选择性筛选的支持。但是这种选择性筛选不包含任何已报道为帕纳替尼药物靶点的激酶,其IC50值在1.5-72.2nM之间。如果不测试这些已知的帕纳替尼靶点,很难为选择性的说法进行辩护。

3


提出问题


生成模型产生的分子与训练语料库中已知的活性分子相似,这就提出了几个问题,这些问题普遍地适用于其他使用生成模型识别抑制剂的论文。


第一个问题是如何提供生成模型的训练数据。Zhavoronkov等人虽然提供了其训练集分子的参考文献,但并没有提供完整的训练语料库。其次,作者没有在论文或支持材料中显示帕纳替尼或其类似物。作者强烈认为,为了公布生成模型的结果,用于建立模型的完整训练集应以电子形式提供。此外,与最终分子最相似的训练集分子在论文中应以化学结构表示。


一个更重要的问题是判断生成模型生成的分子的标准。对新颖性、活性和构效关系广度的要求是否与人类化学家团队的要求相同? 一篇由一组化学家用异恶唑代替酰胺羰基生成一种与已发表的化合物大致相等的化合物的论文可能不会被送审,更不用说发表了。


在评估生成模型的性能时必须考虑的另一个问题是,不使用人工智能的更简单的方法是否能够产生相同的分子。多年来,计算化学家一直采用自动插入等位取代物的方法。在某些情况下,这些替代物基于药物化学先例,而在其他情况下,具有相似形状和静电的分子片段被替代。另一种常见的方法是采用环支撑策略来降低分子的构象灵活性。虽然很难进行从头到头比较,但应该注意这些替代品的存在。


4


解决方案


我们已经到了这样一个阶段,即科学期刊需要为生成模型制定指导方针。这将使这些方法能够得到更迅速和更系统的评价,这将使整个社会受益。


因此,我们建议发表生成模型和相关研究结果的期刊联合起来,为发表使用人工智能方法生成分子的论文建立一套审阅指南。虽然这些指导原则必须经过社会人士的意见和讨论,但我们仍建议三条指导方针:


1. 用来训练生成模型的活性分子应该以电子形式提供。这种数据的可用性将使大多数读者很容易执行子结构和相似性搜索,并将输出分子与训练集进行比较。


2. 报告AI生成分子的论文应包含一个表,表中显示与每个生成分子最相似的训练集分子。评估分子相似性的方法有很多种,尽管此表不能替代结构公开(第1点),但一般读者将能够快速评估所报告分子的重要性。


3. 期刊应该使用跟药物化学家同样的标准来评估AI产生的分子的新颖性。我们希望有一天,人工智能产生的分子与药物化学家的创造力所产生的分子是无法区分的。


5


总结


人工智能方法已经超越了它们在过去30年里所占据的专家领域,即将成为科学发现过程中不可或缺的一部分,更具体地说,是药物发现的一部分。然而,要使这些方法成为主流,我们需要对如何使用这些方法保持透明,并为正在进行的发现提供一个清晰的背景,为生成模型结果的发表制定指南,使审稿人和读者能够更准确地评估和欣赏这一新的、迅速发展的科学领域。

image.png

在受到Walters和Murcko的攻击后, Insilico Medicine的CEO Alex Zhavoronkov 和多伦多大学Alán Aspuru-Guzik对于该评论给予了回复,并发表在同一期刊上。


Alex Zhavoronkov和Alán Aspuru-Guzik首先介绍了生成模型的迅速发展,并补充了另外两个该领域的创新贡献论文:生成对抗网络(GAN)和差分自编码(VAE)模型,然后针对上篇论文提出的“生成模型生成的分子的标准”、“与帕纳替尼的惊人相似性”以及“化合物1的选择性”相关置疑给出了以下回复:


关于“生成模型生成的分子的标准”问题,作者称其论文中提出的运用一个名为“GENTRL”(生成张量强化学习模型)的人工智能系统,主要目的是设计、合成和测试使用生成模型生成的小分子抑制剂,证明一种新的生成方法的有效性,能够比以前使用传统方法发现新药可能的时间更短。因此,对生成的分子的深入验证并不是论文的主要目标,作者也欣然承认这些化合物需要进一步优化。


针对“与帕纳替尼的惊人相似性”的置疑,文中提到生成模型在给定模板分子时的工作方式类似于它们处理图像的方式。如果训练图像包括一个个体的图像,即使年龄和性别等生成条件改变,生成的图像也将看起来与原始图像相似。与图片不同的是,小分子是离散的结构,在这种结构中,微小的变化会导致功能上的巨大差异。化合物1是一种独特的非专利分子。Murcko和Walters强调了一个事实,即化合物1与帕纳替尼类似,因此可能具有相似的选择性。但也许这种相似之处只是结构“看起来相似”。


针对第三个置疑,作者承认“化合物1的选择性”是一个挑战,并且应该在Murcko和Walters提出的其他激酶上进行测试。然而,化合物1对DDR2 表现出较好的选择性指数(IC50(DDR2)/IC50(DDR1) > 20) ,而帕纳替尼对DDR1和DDR2具有相同的抑制活性(9和9.4 nM)。这清楚地说明了,在等位元上不同的化合物片段可以表现出相当不同的化学特性。


总结


作者同意Murcko 和Wilson的建议,为了建立生成化学的一系列标准,由Insilico Medicine联合创办的人工智能医疗联盟(AAIH)提出了MOSES ---一个支持药物发现机器学习研究的基准平台,旨在解决Murcko和Walters提出的许多问题。作者希望社区能够共同努力制定一套指导准则,以便对发布的药物发现生成模型的能力进行比较和评估。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
目录
相关文章
|
22天前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
66 2
|
30天前
|
机器学习/深度学习 人工智能 自然语言处理
当语言遇见智慧火花:GPT家族历代模型大起底,带你见证从平凡到卓越的AI进化奇迹!
【10月更文挑战第6天】随着自然语言处理技术的进步,GPT系列模型(Generative Pre-trained Transformers)成为该领域的明星。从GPT-1的开创性工作,到GPT-2在规模与性能上的突破,再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力,以及社区驱动的GPT-NeoX,这些模型不断进化。虽然它们展现出强大的语言理解和生成能力,但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点,并通过示例代码展示其部分功能。
101 2
|
2月前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
312 73
|
14天前
|
人工智能
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【10月更文挑战第21天】普林斯顿大学研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准,涵盖计算机科学、社会科学和医学领域的270个任务。该基准旨在评估AI代理在科学研究中的准确性,具有多样性、难度级别和现实相关性等特点,有助于推动AI代理的发展并提高计算可重复性。
35 4
|
23天前
|
人工智能 自然语言处理
从迷茫到精通:揭秘模型微调如何助你轻松驾驭AI新热点,解锁预训练模型的无限潜能!
【10月更文挑战第13天】本文通过简单的问题解答形式,结合示例代码,详细介绍了模型微调的全流程。从选择预训练模型、准备新任务数据集、设置微调参数,到进行微调训练和评估调优,帮助读者全面理解模型微调的技术细节和应用场景。
61 6
|
20天前
|
机器学习/深度学习 人工智能 算法
介绍一下AI在药物研发中的应用。
【10月更文挑战第16天】介绍一下AI在药物研发中的应用。
44 0
|
1月前
|
人工智能 自然语言处理 安全
【通义】AI视界|Adobe推出文生视频AI模型,迎战OpenAI和Meta
本文精选了过去24小时内的重要科技新闻,包括微软人工智能副总裁跳槽至OpenAI、Adobe推出文本生成视频的AI模型、Meta取消高端头显转而开发超轻量设备、谷歌与核能公司合作为数据中心供电,以及英伟达股价创下新高,市值接近3.4万亿美元。这些动态展示了科技行业的快速发展和激烈竞争。点击链接或扫描二维码获取更多资讯。
|
28天前
|
机器学习/深度学习 人工智能 TensorFlow
解锁AI潜力:让开源模型在私有环境绽放——手把手教你搭建专属智能服务,保障数据安全与性能优化的秘密攻略
【10月更文挑战第8天】本文介绍了如何将开源的机器学习模型(如TensorFlow下的MobileNet)进行私有化部署,包括环境准备、模型获取与转换、启动TensorFlow Serving服务及验证部署效果等步骤,适用于希望保护用户数据并优化服务性能的企业。
48 4
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
揭开模型微调Fine-Tuning的神秘面纱:如何在预训练基础上巧妙调整,解锁定制AI解决方案的秘密武器
【10月更文挑战第8天】模型微调是在预训练模型基础上,利用特定领域数据进一步训练,以优化模型在特定任务上的表现。此方法广泛应用于自然语言处理和计算机视觉等领域,通过调整预训练模型的部分或全部参数,结合适当的正则化手段,有效提升模型性能。例如,使用Hugging Face的Transformers库对BERT模型进行微调,以改善文本匹配任务的准确率。
53 1
|
2月前
|
存储 人工智能 算法
阿里云AI基础设施升级亮相,模型算力利用率提升超20%
阿里云AI基础设施升级亮相,模型算力利用率提升超20%
207 18
下一篇
无影云桌面