今天介绍2020年1月30日发表在Nature Biotechnology上的评论,作者为Relay Therapeutics公司的Walters和Murcko,该论文评价了当前几种基于AI的药物生成模型存在的问题。同时,该期刊同期发表了Insilico Medicine的CEO Alex Zhavoronkov 和多伦多大学Alán Aspuru-Guzik对于该评论的回复。
1
研究背景
药物发现过程包括药物靶标(drug target)及生物标志物(biomarker)的选择与确认、先导化合物的确定、构效关系(SAR)的研究与活性化合物的筛选以及候选药物的确定等步骤。使用传统方法发现新药周期漫长且经济成本高。在过去的几年里,研究者对AI技术在药物发现方面的应用越来越感兴趣,AI技术能有效缩短药物研发时间,降低研发成本。本文作者为Relay Therapeutics公司的Walters和Murcko,他们针对近期AI热点领域--生成模型(generative model)在药物发现的应用影响作出评价。
针对各种最近提出的生成模型,需要建立一种基准的评价方法。目前已有两个团队开始这方面努力,但这些方法生成的分子的新颖性以及结果的重要性评估仍是一个很难解决的问题。虽然这些基准为生成模型提供了评价和比较标准,但生成模型的最终价值仍需通过对生成分子的化学合成和生物学实验来证明。
2
对已有生成模型的评论
2018年,苏黎世联邦理工学院的Gisbert Schneider团队发表了第一个合成和测试分子生成模型的工作。作者首先在ChEMBL数据库中大于500000个的生物活性分子上训练生成模型,然后基于一组已知为PPAR或RXR激动剂的25种脂肪酸类似物进行训练对模型进行微调(这25种脂肪酸类似物的结构没有给出),以生成维甲酸X受体(RXRs)或过氧化物酶体增殖剂激活受体(PPARs)的激动剂。基于PPAR和RXR活性的定量构效关系(QSAR)模型,对生成模型产生的分子进行评价。然后作者通过QSAR模型中的排名,人工评估的合成可及性和化学构建块可用性,选择出了5个待合成的分子。作者将五个选择出来的分子合成,发现其中两个是PPAR的激动剂,具有4μM~14μM的半数最大有效浓度(EC50)值,另外两个化合物为双PPAR和RXR抑制剂,EC50值介于60 nM和13μM之间。第五种化合物没有活性。
另一个分子生成模型的工作来自Insilico Medicine的CEO Alex Zhavoronkov 和多伦多大学的Alán Aspuru-Guzik在《Nature Biotechnology》2019年9月刊上发表的一篇论文。在这篇文章中,作者基于从科学文献和专利中提取的一组DDR1抑制剂训练了一个生成模型。基于AI生成模型的输出,他们合成了六个分子。在这六个分子中,四个具有生物活性,其中最好的“化合物1”具有10 nM的生最大抑制浓度(IC50)。在U2OS骨肉瘤细胞系中测试“化合物1”,显示其IC50为10.3nM。在随后的小鼠药代动力学研究中,它也被证明具有合理的生物利用度以及3.5小时的半衰期。这一结果在科学界和大众媒体上得到了相当多的关注,并被几位权威人士称为“药学界的Alphgo时刻”,但是其中一个事实似乎逃过了大多数专家的视线,那就是Zhavoronkov论文中的 “化合物1”与帕纳替尼(ponatinib)之间惊人的相似性,如图1中间“化合物1”与右边的帕纳替尼。
图 1 化合物1与两个已知的抑制剂对比
帕纳替尼是一种有效的多酪氨酸激酶抑制剂,这种广泛的激酶谱可能导致不良副作用,FDA也在2013年将帕纳替尼设置黑框警告(Black Box Warning)。帕纳替尼抑制的众多激酶之一是DDR1。一些论文(包括Zhavoronkov自己的论文),列出了帕纳替尼在1nM到9nM之间的DDR1 IC50,这些信息已经被用于生成模型的训练。鉴于和帕纳替尼的相似性,化合物1的细胞和药代动力学特征变得不那么令人惊讶。还应注意的是,Gao和他的同事在2013年的一篇论文中发表了一种类似于帕纳替尼的分子(通过对帕纳替尼轻微的修饰得到,如图1左),是DDR1的6nM抑制剂。该分子也是训练语料的一部分。
由于帕纳替尼的多激酶活性,不得不质疑Zhavoronkov等人报道的化合物1的选择性。在他们的论文中,这一观点受到在44个激酶选择性筛选的支持。但是这种选择性筛选不包含任何已报道为帕纳替尼药物靶点的激酶,其IC50值在1.5-72.2nM之间。如果不测试这些已知的帕纳替尼靶点,很难为选择性的说法进行辩护。
3
提出问题
生成模型产生的分子与训练语料库中已知的活性分子相似,这就提出了几个问题,这些问题普遍地适用于其他使用生成模型识别抑制剂的论文。
第一个问题是如何提供生成模型的训练数据。Zhavoronkov等人虽然提供了其训练集分子的参考文献,但并没有提供完整的训练语料库。其次,作者没有在论文或支持材料中显示帕纳替尼或其类似物。作者强烈认为,为了公布生成模型的结果,用于建立模型的完整训练集应以电子形式提供。此外,与最终分子最相似的训练集分子在论文中应以化学结构表示。
一个更重要的问题是判断生成模型生成的分子的标准。对新颖性、活性和构效关系广度的要求是否与人类化学家团队的要求相同? 一篇由一组化学家用异恶唑代替酰胺羰基生成一种与已发表的化合物大致相等的化合物的论文可能不会被送审,更不用说发表了。
在评估生成模型的性能时必须考虑的另一个问题是,不使用人工智能的更简单的方法是否能够产生相同的分子。多年来,计算化学家一直采用自动插入等位取代物的方法。在某些情况下,这些替代物基于药物化学先例,而在其他情况下,具有相似形状和静电的分子片段被替代。另一种常见的方法是采用环支撑策略来降低分子的构象灵活性。虽然很难进行从头到头比较,但应该注意这些替代品的存在。
4
解决方案
我们已经到了这样一个阶段,即科学期刊需要为生成模型制定指导方针。这将使这些方法能够得到更迅速和更系统的评价,这将使整个社会受益。
因此,我们建议发表生成模型和相关研究结果的期刊联合起来,为发表使用人工智能方法生成分子的论文建立一套审阅指南。虽然这些指导原则必须经过社会人士的意见和讨论,但我们仍建议三条指导方针:
1. 用来训练生成模型的活性分子应该以电子形式提供。这种数据的可用性将使大多数读者很容易执行子结构和相似性搜索,并将输出分子与训练集进行比较。
2. 报告AI生成分子的论文应包含一个表,表中显示与每个生成分子最相似的训练集分子。评估分子相似性的方法有很多种,尽管此表不能替代结构公开(第1点),但一般读者将能够快速评估所报告分子的重要性。
3. 期刊应该使用跟药物化学家同样的标准来评估AI产生的分子的新颖性。我们希望有一天,人工智能产生的分子与药物化学家的创造力所产生的分子是无法区分的。
5
总结
人工智能方法已经超越了它们在过去30年里所占据的专家领域,即将成为科学发现过程中不可或缺的一部分,更具体地说,是药物发现的一部分。然而,要使这些方法成为主流,我们需要对如何使用这些方法保持透明,并为正在进行的发现提供一个清晰的背景,为生成模型结果的发表制定指南,使审稿人和读者能够更准确地评估和欣赏这一新的、迅速发展的科学领域。
在受到Walters和Murcko的攻击后, Insilico Medicine的CEO Alex Zhavoronkov 和多伦多大学Alán Aspuru-Guzik对于该评论给予了回复,并发表在同一期刊上。
Alex Zhavoronkov和Alán Aspuru-Guzik首先介绍了生成模型的迅速发展,并补充了另外两个该领域的创新贡献论文:生成对抗网络(GAN)和差分自编码(VAE)模型,然后针对上篇论文提出的“生成模型生成的分子的标准”、“与帕纳替尼的惊人相似性”以及“化合物1的选择性”相关置疑给出了以下回复:
关于“生成模型生成的分子的标准”问题,作者称其论文中提出的运用一个名为“GENTRL”(生成张量强化学习模型)的人工智能系统,主要目的是设计、合成和测试使用生成模型生成的小分子抑制剂,证明一种新的生成方法的有效性,能够比以前使用传统方法发现新药可能的时间更短。因此,对生成的分子的深入验证并不是论文的主要目标,作者也欣然承认这些化合物需要进一步优化。
针对“与帕纳替尼的惊人相似性”的置疑,文中提到生成模型在给定模板分子时的工作方式类似于它们处理图像的方式。如果训练图像包括一个个体的图像,即使年龄和性别等生成条件改变,生成的图像也将看起来与原始图像相似。与图片不同的是,小分子是离散的结构,在这种结构中,微小的变化会导致功能上的巨大差异。化合物1是一种独特的非专利分子。Murcko和Walters强调了一个事实,即化合物1与帕纳替尼类似,因此可能具有相似的选择性。但也许这种相似之处只是结构“看起来相似”。
针对第三个置疑,作者承认“化合物1的选择性”是一个挑战,并且应该在Murcko和Walters提出的其他激酶上进行测试。然而,化合物1对DDR2 表现出较好的选择性指数(IC50(DDR2)/IC50(DDR1) > 20) ,而帕纳替尼对DDR1和DDR2具有相同的抑制活性(9和9.4 nM)。这清楚地说明了,在等位元上不同的化合物片段可以表现出相当不同的化学特性。
总结
作者同意Murcko 和Wilson的建议,为了建立生成化学的一系列标准,由Insilico Medicine联合创办的人工智能医疗联盟(AAIH)提出了MOSES ---一个支持药物发现机器学习研究的基准平台,旨在解决Murcko和Walters提出的许多问题。作者希望社区能够共同努力制定一套指导准则,以便对发布的药物发现生成模型的能力进行比较和评估。