人工智能和机器学习已经证明了其在预测化学性质和小分子合成设计中的潜在作用。数据驱动的合成路线设计是由MLPDS(Machine Learning for Pharmaceutical Discovery and Synthesis)联盟开发和评估的一部分,该联盟包括MIT和13个化学和制药公司成员。他们一起写了“Current and Future Roles of Artificial Intelligence in Medicinal Chemistry Synthesis”刊登于2020年4月JMC,分享了如何将预测模型整合到药物合成工作流程中,如何在MLPDS成员公司中使用预测模型以及该领域的前景。
名词
CASP
Computer Aided Synthesis Planning
计算机辅助合成路线设计
MLPDS
Machine Learning for Pharmaceutical Discovery and Synthesis
DMTA
design, make, test, analyze
ASKCOS
Automated System for Knowledge-Based Continuous Organic Synthesis
全文分为三个Section,本文主要介绍Section 1。
Section 1: CASP如何帮助药物化学发现;
Section 2: 如何在制药和化学工业中使用CASP;
Section 3:如何使CASP更好。
简介
目前估计将一种药物推向市场的成本超过26亿美元,其中很大一部分可归因于两个因素:经历过临床试验的候选分子的历史高损耗(损耗率超过85%4)以及先前发现阶段的复杂性,需要大量的时间和资源投资。就总批准而言,更强大的临床前候选产品将对下游产生有益的影响。计算机硬件和计算机技术方面的进步旨在加快并改善药物化学的经典设计、合成、测试、分析(DMTA)周期的各个方面。人们越来越关注的一个领域是在合成)段使用数据驱动的合成预测工具来加速和减少新分子实体合成中的失败。
计算机辅助合成路线设计(CASP)的历史可以追溯到1960年,当时Corey小组首次公开了LHASA,这是一种基于规则的逆向合成设计方法。该开创性出版物对于定义化学合成的启发式方法至关重要,这对于合成计划软件可能是必需的。许多小组公开了1960年至1990年计算机辅助合成设计的进展,但很大程度上受到计算资源的限制,且主要依赖于人类编码的反应规则。
这些早期的后代是某些商业软件包的灵感来源,例如Synthia(以前称为Chematica)和ICSynth,其中将手编码的反应规则与指导试探法结合使用以浏览合成途径。仅在过去的二十年中,才有了更多用于合成设计的自动化方法,例如那些使用称为机器学习(ML)的AI方法的子集从已发布的反应数据中推断反应模式的方法,成为了基于“专家”规则的可行替代方案。算法、专家编码规则和ML方法都可以被视为AI方法:前者是使用制作的知识的所谓“第一波AI”的示例,而后者是使用统计学习的“第二波”的示例。每种方法都给合成设计软件带来了自己独特的优势。专家编码的规则有机会在数据量较低的情况下表现出色,因为对于特定的转换而言,这种数据记录可能只有1-4个反应。尽管有积极的研究将机器学习用于低数据,但这尚未成功地应用于合成设计。然而,由于提取/训练过程的自动化,机器学习方法可以很容易地扩展包含新的反应,因为它们可以自动提取/训练,从而减轻了专家的负担。随着更多的反应在公司内部进行,自动过程可以使预测更加可靠。
机器学习和基于规则的方法都已证明在设计已在实验室中执行或由化学家评估为值得尝试的合成路线方面取得了成功。例如,Synthia已被用来寻找药物相关化合物的合成路线,与专家开发的路线相比,甚至还提高了总产量;Segler等发现化学家在双盲评估中不希望使用经过文献验证的路线以其算法提出的路线;自动化平台已与合成设计工具相结合,尽管人工干预水平有所不同。尽管该领域仍处于早期阶段使用CASP进行全自动合成设计,这些最初的成功证明了该工具在DMTA周期中的实用性。
从2018年5月开始,麻省理工学院的研究人员团队在药物发现与合成机器学习(MLPDS)联盟的背景下与13家制药和化学公司密切合作,该联盟的目标是开发基于机器学习的算法和工具来加快DMTA周期的制造阶段(图1)。
更具体地说,该观点将描述人工智能在药物合成中的许多作用,包括(1)可以整合到药物化学工作流程中;(2)已经整合到某些制药公司中,以及(3)需要进一步的作用。发展以完成更宏大的任务。图2中,专注于计算机辅助合成设计(CASP)的三个主要任务:逆合成设计、反应条件推荐和正向反应预测。
基于ML的CASP的逆合设计
1. 确定可合成目标和路线方案
在DMTA迭代中合成新的小分子的传统方法涉及手动计划和手动执行。专业化学家的任务是评估拟定目标的合成能力,导致评估成百上千个分子时速度变慢。由于合成资源(SA)的原因,特定系列的先导化合物可能比其他先导化合物更可取,因为财务资源和时间限制限制了可以并行使用或设计的化合物的数量。Retrosynthesis软件通过生成假设的合成路线来缓解手动合成评估的瓶颈,该合成路线可用于通过易于合成来快速确定化合物的优先顺序,从而为化学家提供更为集中的化合物集,作为专家路线规划的起点。最后,使用逆向合成计划平台可以为那些没有经过多年合成化学培训的团队成员提供有益的合成建议,这对他们而言可能是无益的。
通过可合成性对化合物评分的两类方法是使用基于结构的简化启发式算法或完全逆合成树扩展。启发式方法旨在从分子结构中捕获SA的广泛趋势,并且传统上一直使用专家定义的分子属性功能。非线性回归(例如,使用机器学习技术)可以代替概括由专业化学家分配的主观分数,或在半监督的环境中使用以从化学反应的示例中学习。然而,实际上,合成靶标的能力高度依赖于特定的可购买构件的可用性,而不是分子结构的平滑功能。由于构建基块的可用性取决于设置(例如组织,预算,发现与流程开发),因此一种更具通用性的评估可合成性的方法是将反合成扩展与针对应用量身定制的可购买化合物的定制数据库一起使用。明确的逆向合成扩展的好处是,已经知道存在可以访问感兴趣目标的转化,并且可以使用合适的起始材料。但是,它的计算成本较高。但是,通过使用逆合成规划工具以及足够的时间和培训,神经网络模型可以开始近似这种高度非线性的功能。
逆向合成计划软件的两大类是使用专家编码的规则或启发式方法生成推荐的软件,以及学习(或推断)如何生成推荐的软件。许多逆合成方法依赖于反应模板的使用-反应规则可以以SMARTS或SMIRKS格式存储。从反应数据集中通过算法提取模板的一般步骤是:1)识别反应中心或变化的原子,2)识别与反应中心相邻的原子,以及3)添加反应中涉及的通用官能团。该方法捕获了局部反应环境,但在大多数算法实现中,未捕获有助于反应性的分子的全局特征。专家编码的方法11可以更好地描述功能组的要求,但不能针对单个组织的能力进行定制。用于提取反应模板的自动化管道允许对适当的数据集进行轻松的(重新)训练,但也与专家方法不一致。
对于实际使用反应模板从输入产物分子生成反应物分子的方法,几种基于机器学习的方法都集中在学习哪种模板提供最战略性的断开连接以及不同程度的复杂性。另一种方法是使用序列到序列模型,将一步一步的逆向合成任务视为产物和反应物之间的转换。单步逆向合成推荐物足以让化学家手动构建路线,一次一步。
通过使用树搜索,单步逆向合成功能可以扩展到完整路线设计。每个步骤可以产生成千上万个前体,这需要一个指导性的搜索策略来防止组合爆炸。可以通过SA启发式方法11或经验丰富的扩展策略15过滤候选前体,以获取更易处理的化学品清单,以在下一个周期中进行转换。可以通过递归地建议逐步逐步简化直到满足停止标准的单步逆合成前体来构建完整途径。已经研究了树搜索的不同实现方式,包括深度优先,最佳优先,证明数搜索和蒙特卡洛树搜索算法;直接比较方法很困难,因为定量评分仍然是一个挑战。通常,一旦发现可以购买的前体,则逆合成搜索终止。这使基准回归合成算法复杂化,因为更大,更多样化的可购买化学品数据库将具有更高的终止概率,并且自然会显得更加成功。可以使用其他停止标准,例如文献中的出现次数或化学逻辑(定义允许的碳,氮和氧原子数),后者可以提供更高的标准化程度,但与实际应用无关。而且,鉴定途径的能力不能保证其化学可行性。由于可以通过多种途径合成同一靶标,因此最好的验证方法是在实验室中进行化学反应。对于生成的每条路线而言,这样做显然是非常昂贵的,而且耗时,而且不是验证合成规划中新方法的可扩展方法。
2. 建议和评估反应条件
计划反向合成路线仅是整个CASP系统的一个方面。为了建议化学家可以进入实验室,我们必须提出一套能够实现所需转化的反应条件。为反应找到最佳或可接受的条件集可能需要耗时的经验筛选,才能确定最有效的方法。通常,化学家会针对该反应家族采用“典型”条件,而不会根据特定的目标底物来调整其选择。选择反应条件的偏差可能来自于个人经验或试剂的即时可用性。原则上,如果对历史条件数据进行适当训练,则用于条件推荐的机器学习模型可以更客观地推断出合适的条件。
实际上,由于缺乏高质量的数据,很难开发这种模型。阻碍进展的主要数据问题是未充分披露1)数量,体积或浓度2)反应时间或动力学,以及3)试剂和催化剂的添加顺序。尽管存在这些问题,但数据驱动的方法已证明能够为特定的反应类别和更多样化的反应组建议条件。这些模型为经验条件下反应条件的优化提供了坚实的基础,但仍缺乏执行所需的全部细节。条件推荐模型可能会被开发来适应特定化学领域(例如药物化学或过程化学)的需求。在许多情况下,反应的目标是不同的,例如产率的重要性和副产物的形成。一个目标可能是预测我们希望在单个孔板中平行进行的一组反应的“最佳”条件。在设计新的条件组合或新的催化剂或试剂的情况下,可能需要更具体的预测来找到单个反应的最佳条件。
尽管很难逃避对反应条件的经验优化,尤其是对于复杂的底物或串联催化,但人工智能技术也有机会加速这一过程。反应优化是一个公认的领域,并且存在许多用于选择实验条件以迭代地改善性能(例如,就产率,周转数,通过量而言)的统计技术。用机器学习的话来说,这些是活跃的学习框架。最受欢迎的方法是基于模型的技术,该技术可根据反应条件构建反应性能的替代模型。可以在这些模型上分层放置各种搜索策略(例如,贝叶斯优化),以帮助选择下一组条件来尝试和优化模型。尽管这些概念并不新鲜,但是基于机器学习的模型有潜力提供更好的性能和不确定性估计,从而加快搜索速度。
3. 正向反应预测
CASP的第三个关键任务是通过预测(至少定性地)反应产物,确保通过算法综合设计获得的建议是可靠且可行的。化学家可能会通过搜索相似的转化,阅读文献并确定合成方法是否能推广到感兴趣的底物来评估反应的可行性。数据驱动技术经过广泛的反应训练后,可以学习执行相同的概括。用于反应预测的机器学习方法包括尝试从规则或模板的预定义列表中推导反应规则,预测从起始材料到产物的原子和键变化的图卷积神经网络,以及预测产物SMILES的序列到序列模型。与逆合成模型的评估相比,正向合成模型更易于定量评估,因为原则上只有一个真实答案。然而,实际上,缺乏精确的浓度,时间和温度数据使反应预测成为一个不适定的问题。
这些正向反应预测因子也可以用于副产物预测。了解最可能的产品有助于识别可能产生有害或难以分离的中间体的反应。许多反应可导致多种区域或立体异构化合物。有关反应选择性和可能的副产物的信息是确定合成优先级的关键方面,并且可能有助于结构分配。一旦这些模型能够做出定量预测,它们对于纯化策略的考虑和设计将是必不可少的。
除用于CASP外,还有其他用于反应预测的应用程序。根据专家定义的反应模板列举了许多按需制造的虚拟库,这些模板专注于旨在确保其功能强大的有限化学组合。据报道,按需定制库中的化合物在4周内成功交付了约85%,在6周内成功交付了93%。54如此高的成功率证明了使用成熟的化学方法进行基于规则的方法的鲁棒性。使用启发式提取的模板或不使用模板的方法,可以将新的反应空间(例如,新出版物中描述的新颖的合成方法)实时地包含在自动化管道中。如果确定了目标并制定了逆合成计划,则可以搜索可用替代原料的所有组合。例如,如果第一反应是Suzuki偶联,则可列举所有可用的硼酸和芳基卤化物的组合。然后,前向预测变量可用于对哪些组合可能导致成功的反应进行评分。通过根据感兴趣的化合物的性质进一步对这组数据进行排名,可以快速评估目标周围可访问的化学空间,例如,用于药物发现中的命中扩展。此功能与将面向多样性的综合目标集成到CASP中密切相关。