今天给大家介绍的是来自德国威廉姆斯明斯特大学Frank Glorius教授课题组发表在德国应用化学上的文章。本文介绍了分子机器学习在合成化学领域的机遇,提出了发展方向和应对的挑战,并且鼓励刚迈进该领域的研究人员提供更好的解决方案。
1
背景
过去的十年中机器学习(Meachine learning,ML)发展迅速,因为它是一种自动构建统计模型的方法,能够识别基础数据的模式并将其应用到看不见的输入中,越来越复杂的模型朝着更高的预测能力努力。这些发展使得深度学习渗透各个领域乃至日常生活,并导致了社会的重大变革。
然而,由于其高度的复杂性,现代ML模型也带来了特定的风险和隐患。无论是算法还是数据都可能受到人为因素的影响,从而导致算法偏差,噪声可能被当成相关数据从而导致性能不佳。另外,大多数模型不允许跟踪从输入到生成的输出的路径,因此无法解释。由于这些特殊风险,必须对结果进行充分的验证,并且必须仔细选择模型和方法并提出质疑。
由于合成化学领域所面临的问题通常是复杂的模式识别任务,因此ML受到越来越多的关注。然而,目前的方法大多是有限的,或者说还有很大的改进潜力。其原因是多方面的。ML模型不能直接解释分子结构本身,因此需要转换成计算机可读的表示形式。此外,现代神经网络的有意义的构建和理解需要化学和计算机科学方面的高水平知识,而鲜少有研究小组能够满足。所有这些都为新方法和未来发展留下了巨大的潜力。
2
机遇
ML在化学领域并不是新生事物,从一开始就通过简单的ML算法回答了诸如定量结构性质关系之类的问题,如图1a所示。得益于这些开创性的例子,分子机器学习(Molecular machine learning,MML)方法不仅得到了改进,而且还成功地集成到工业过程中。如今,说明ML对化学的影响的例子有很多,可以在诸如反应条件的计算机模拟优化中,甚至CASP等话题中找到,如图1b所示。甚至在 "逆合成 "一词的发展和E. J. Corey为其制定规则之前,就有人在努力实现基于计算机的合成规划方法,虽然在2000年代,主要使用手工编码规则的程序,但那时,ML方法引发了一种使得更复杂的逆合成工具逐渐用于市场的趋势。
在医药和药理化学领域,ML有着悠久的历史,用于识别潜在的候选药物,但高度复杂的ML模型是否可以取代简单的,快速的ML算法,并提供根本性的新的解决方案仍是一个问题。这是因为该领域的问题主要是单分子问题,即输入中只需考虑一个分子,输出中最多生成一个分子(或生成模型)。而在合成化学中,通常必须考虑或生成一个以上的分子来模拟化学反应。从而导致了对更复杂、适合的模型和表述的需求。
图1 MML和常见应用子主题的层次图
尽管人们普遍感兴趣的多分子问题都显示了ML应用潜力很大,但所开发的工具还不足以满足实验室的日常使用,其问题在于:准确性,因为在大多数情况下只有简单的任务才能获得高分;通用性,因为只能预测某些反应或特殊情况;实用性,因为大多需要特殊的知识或设备。
分析化学是这些领域中功能最强大的领域之一,并且由于合成化学家每天都使用分析方法,因此潜在的用户群体非常庞大。此外,大多数相关挑战(预测NMR, MS,和激发光谱)都非常适合现代ML算法,但不完善的光谱自动评估和解释限制了自主反应发现的可能性。
图2 MML对加速化学工作流程的可能贡献
ML可以协助从反应设计到发现再到机理阐明以及合成过程的整个反应开发过程,如图2所示。对于反应发现,可以使用现有方法来预测新的反应,然后对其进行新颖性,可行性以及可用性进行测试,并可利用强化或主动学习加以改进。
尽管最初的实验已经证明了简化方法的一般可行性,但这些方法都是定向筛选,与所谓的人工创造力相去甚远。ML的使用可以发现和改进活性或对应选择性的新催化剂。
图3 MML对合成化学的机遇、方向和问题
总的来说,可以说MML提供的机会是巨大的,即使某些挑战可能无法解决,其他挑战也将改变并简化合成化学家的日常工作,这可能需要现代机器人技术的帮助。但要实现这一目标,需要进一步的改进,全新的概念,最重要的是需要了解工作挑战的化学家与开发概念的计算机科学家之间的良好合作。
3
挑战
该学科领域发展不理想的主要风险是缺乏相关知识。由于MML具有高度跨学科性,因此必须了解化学和计算机科学的所有基础知识。即使需要许多领域的足够知识,社区也需要开始(自)批判性地讨论所选方法和缺少的适应方法,并应公开指出缺陷,以避免错误或不良模型的泛滥。此外,需要应用和提高已发布计算机代码的可读性和结构标准。
另一点是,对于大多数模型来说,从输入到输出的路径是不可理解的,因此不能直接追溯。因此,通常不可能对这些模型进行合理的调整,几乎无法理解输出中的错误,并且通过ML算法获得化学知识几乎是不可能的。
为了MML的成功发展,了解基本算法和模型以及数据质量、处理和处理非常重要。尤其是在合成化学领域,与其他学科(例如,文本识别,药物化学)相比,高质量的数据稀缺,数据集经常受到强烈的人为偏见的影响,或者根本无法获得。结果,新模型在相同的基准上反复测试,而不论进一步改进的潜力是否有限。这里的风险是,现有的数据集(例如关于化学反应的数据集)不足以应对当前的挑战,而由于数据可视化技术尚未应用于化学领域,因此便捷的评估具有挑战性。
所有这些都可能阻止或减缓MML领域未来的根本性突破,甚至倒退发展,但与所有挑战一样,它们为来自化学领域和计算机科学领域的新人提供了在这一领域立足并为这一关键主题提供新方向的巨大机会。
4
未来发展
MML领域发展的同时必须要考虑的问题是,为了实现更可持续的发展,是否应该首先解决基本问题,以及当前的方法是否很快就会达到其极限。
可持续发展方向的下一步将是应用可解释的人工智能(xAI)。应用exAI的选择多种多样,由此带来的机会也是多方面的。如果能够解释哪些因素对于ML模型重要,则可以使用这些方面来进一步分析和调整模型。此外,还会得出关于化学背景和化学关系的结论。这些知识可以用来进一步优化目标分子、催化剂或反应条件。同样,为了让有意义的解释成为可能,必须具备应用算法和基础化学的知识。尽管exAI有这些巨大的可能性,但与可解释的模型相比,不可解释的模型并不一定是不利的,例如其可能达到更高的预测能力。因此,在每种情况下,必须在可解释性和模型的最佳性能之间取得平衡,以便可以选择合适的模型。然而,exAI的可持续探索属于交叉学科,这意味着有必要在课程中开展化学信息学和ML。只有合成化学家才能理解复杂模型中化学信息的处理,并能够发现有关现阶段不足的结论,甚至识别潜在的化学关系。这应通过将年轻的研究人员教育成数据科学家来加强这一点。
不应忘记,目前主要是通过昂贵的湿化学实验或使用复杂的算法方法获得的。因此,应继续支持和简化通过化学实验和复杂算法得到分子性质和化学反应的工作流程。有必要开发全新的ML模型,神经网络架构和算法,尤其是针对多分子应用的算法。最后,推进已知的挑战(如定性和定量反应预测,反应条件预测以及分析数据的自动评估)使工作流程提供的有意义的支持成为可能。
为了从开发的方法中获得利益,有必要将其打包到软件中,使其对没有深厚基础方法知识的化学家也能使用并让其发挥作用。由于这种应用的巨大市场潜力,即使学术研究人员不选择这样做,这种工具也将得到开发,但是为了确保评估的可能性和广泛的可用性,科学家应该利用这个机会让他们的工作对所有化学家来说都是可用的、可见的和可评估的。
5
总结
总之,MML提供了多种多样的可能性,即使当前的趋势仍然相对有限,而这个领域发展也很大程度上取决于新的参与者出现在MML的舞台上,因为进入这个领域的新群体将有助于开发更好的模型,提出新的问题并提供有效的解决方案。此外,新创建、收集或改进的属性和反应数据集有助于超越之前所有模型,并解决新的更大的问题。这样,有关新药反应和分子设计的初步工作可以带来真正的人工创造力,而主动学习策略可以优化现代筛选和HTE方法。有些未来发展确实是可以预见的,并对这一领域的成功发展是不可或缺的,而其他的发展可能在未来十年中出现。我们希望该观点能让全世界的化学家关注到MML及其机遇,并且希望该领域能不断涌现具有不同背景的经验丰富的科学家,因为任何了解其领域挑战并且能够操作计算机的化学家,是潜在的游戏规则改变者。