导读
机器学习方法有望通过更有效地利用现有数据指导分子设计,加快和提高药物化学项目的成功率。自动化计算设计算法的一个关键步骤是分子生成,要求机器在适当的化学空间内设计出高质量的类药分子。许多分子生成的算法已经被提出,然而,一个挑战是如何评估生成分子的有效性。这里研究人员报告了三个图灵启发的测试,旨在评估分子生成器的性能。
1
背景
合成和筛选技术的进步使大量数据得以快速生成,以指导新药的开发。药物化学家现在面临的挑战是将不断增加的数据提炼成可检验的假设和设计原则。计算和机器学习方法提供了一个机会,可以更有效地利用这些数据,提高药物发现的生产力,以获得更高质量的候选药物。机器学习驱动的药物化学设计流程需要有能力生成分子结构,预测生物和物理化学特性,并确定合成的最佳化合物集。实现这些目标方面已经取得了显著的进展,然而,适当地整合分子生成、性质预测和推荐算法是使药物化学家能够充分利用计算机辅助设计潜力的关键。
自动化计算设计算法的 "分子生成 "步骤至关重要。类药空间的分子数量庞大(~1033),太大以至于无法全面搜索,因此必须 "in-line "设计分子。药物化学家擅长快速设计10多个分子,这些分子既要在合成上容易攻克,又要平衡特性。机器学习可以很容易地生成大于106个分子,从而对化学空间进行更彻底的评估,然而,这些分子必须覆盖适当的化学空间,即这些结构必须在后续选择模型的适用范围内,并且是可合成的。许多算法已经被提出来用于计算分子生成,以及最新的深度学习方法。了解各种算法的优点是很重要的,评估这些模型的一个挑战在于如何最好地评估它们是否等同于人类设计师生成的模型,或者是对这些模型的改进。其中一个测试是看这些结构在训练有素的药物化学家眼中是否可信。
研究人员报告了使用三个测试来评估分子生成器的性能。第一个测试探讨了算法重现医药化学家团队产生想法的能力。第二个测试探讨了算法产生的额外的~103个分子是否被药用化学家认为是好的想法。最后,评估了算法在传统药物发现项目中,从系列中的单个起始分子生成分子的能力。
2
实验设计
为了探索分子生成算法的性能和实用性,研究人员设计了三个测试:
Test 1: Human inclusion
测试了算法重现人类想法的能力。一组由13名医药化学家组成的研究小组提出了4个命中分子(命中1-4),并要求他们为每个命中分子提出20个探索SAR的想法,从而获得一个描述人类 "想法 "的数据集。随后,这些命中分子被输入到分子生成算法中,并对算法生成人类想法的能力进行评估。命中1、3和4是来自GSK的报道,命中2则选自CDK7专利。
Test 2: Human imitation
受图灵测试的启发,研究人员将人类和计算机的想法结合起来,并要求医药化学家对这些想法进行评价。旨在评估算法生成的额外分子,这些分子不在人类生成的集合中。化学家们评估了每个命中的100个随机选择的分子列表<75个来自算法设计的想法,25个来自化学家设计的想法>,并根据是否会考虑合成这些分子,将它们归类为 "类似 "或 "不类似"。
Test 3: Legacy projects.
最后,研究人员评估了算法是否可以复现遗留药物发现项目中的分子,给定系列中的单个种子分子。研究人员使用了六项专利作为测试集:五项为2018年FDA批准上市的药物和一项CDK7专利。从每项专利中选择一个分子,通常是获批的药物分子,并提供给分子生成器。将生成的想法与专利分子进行比较,任何匹配的想法都以迭代的方式重新循环到算法中,模仿设计-合成-测试循环。这些循环重复进行,以测试算法调用专利中所有分子的能力。
3
方法
3.1
BioDig
基于匹配分子对的算法
3.2
BRICS
基于片段替换的算法
3.3
RG2Smi
一种语言处理机器学习算法,可将Reduced Graph输入转化为SMILES输出。
4
结论
计算分子生成是人工智能驱动药物设计的关键步骤。近年来,已经开发了几种分子生成算法,然而,关于这些算法的应用和评价,很少有公开的数据。这里设计的测试类型是至关重要的,使正确的算法被选择为生成分子想法,平衡一个理想的探索广度与生成的结构,并准备具有良好的生物化学和物理化学特性。然后,这些想法可以在计算中进行彻底的分析,以选择理想的分子集,并在每个药物化学优化周期中进行测试。
评估的三个算法中,BioDig:基于匹配的分子对,在三个测试中都表现出色。BRICS和RG2Smi在描述的三个测试中的性能不如BioDig,这突出了精心设计和评估计算化学设计算法对每个应用的重要性。三种算法的性能差异可以通过考虑算法设计来理解。RG2Smi在这些测试中表现得特别差,因为它的探索性更强,主要是为骨架跃迁设计的,而不是在一个系列内生成近似物。应该指出的是,虽然BioDig在这些测试中表现优异,单独使用mmps可能会限制设计保守的思想理念。为了最好地平衡药物发现中的探索/利用策略,算法的组合可能是最佳的。此外,在生成和选择方法可以提出并优先考虑合并多个保守步骤的结构,这种方法有可能从典型的药物发现项目中删除几个周期。
所进行的测试为分子生成算法的评估提供了一个有用的策略,为其在药物发现计划中的前瞻性应用提供了参考。此外,药物化学家的想法和专利分子可以为进一步评估和优化分子生成算法提供有用的测试集。所有测试中,BioDig算法表现出色,目前已成为GSK用于快速生成数千种分子创意的关键算法,以更全面高效地剖析每个周期的化学空间。药物化学设计优化与最先进的建模和机器学习预测器,以及有效的优化算法相结合,将促进采用机器支持的药物化学设计。