今天给大家介绍的是浙江工业大学智能制药研究院的段宏亮教授研究团队发表在Chemical Communications上的文章 "Heck reaction prediction using a transformer model based on a transfer learning strategy"。
迁移学习是一种将某个领域或任务中学习到的基础知识或模式应用到不同但相关问题中的方法,可以有效缓解因目标任务训练样本过少造成的负面影响。由于该方法的强大应用性,因而引发了研究者对其在化学领域的应用探索。作者以经典的小数据-Heck人名反应为代表,证明了迁移学习这一方法在反应预测任务上具有强大性能,同时进一步扩展了transformer这一语言翻译模型在化学领域的应用,突破性地解决了有限数据预测的难题,为后续的人工智能辅助化学研发提供了重要的现实依据。
1.研究背景
Transformer模型是谷歌公司于2017年研发的一种语言翻译模型。与经典的神经循环网络(Recurrent Neural Network, RNN)不同,该模型完全依赖于注意力机制(attention mechanism)并且能够更好地捕捉文字序列相关信息。近年来,化学家逐渐将目光投向这一模型的实际化学应用并取得重大的突破。但是受限于化学数据的规模较小,对于小数据反应transformer模型的预测效果并不显著。该文研究者创新性地提出使用迁移学习(transfer learning)来突破这个困局,使小数据的高精度预测能够成为现实。值得注意的是,该文所使用的迁移学习,是一类经典的机器学习优化手段。该方法通过将化学领域的基础知识转移到特定的小数据预测,可以有效地提高模型对于小数据集的知识理解和性能预测。
在该篇文章中,作者选择Heck反应作为代表反应用于验证transformer + 迁移学习这一实验策略方案的有效性。虽然Heck反应具有的区域选择性和位点选择会大大增加反应预测任务的难度(如图1),但是考虑其是一个经典的人名反应,并且对于构建碳-碳键相关反应的基础研究具有重大的意义,因此该实验围绕Heck反应预测为中心任务,以transformer模型和迁移学习优化手段为两大有力工具,展开小数据预测探索的研究工作。
图1. Heck反应通式及反应机理。
2.方法
2.1 实验流程
作者通过构建一系列的对比实验来评估transformer模型在Heck反应预测这一目标任务的表现。在该文章中,加入迁移学习的模型命名transformer-transfer learning模型,未含有迁移学习的参照模型则称为transformer-baseline模型。
图 2. Transformer模型预测Heck反应产物的方法示意图。浅绿色背景中显示的是加入迁移学习的Heck反应预测过程,右侧白色背景中展示的是未加入迁移学习的Heck反应预测过程。
Transformer-transfer learning模型的训练步骤主要分为两步:预训练和迁移训练。第一步,transformer模型首先在含有大量基础化学反应的数据库上进行端到端的训练,从而获得基础的化学知识。第二步,transformer模型将所学的这些基础化学知识迁移到Heck反应预测的目标任务中并且在Heck反应数据集上进一步训练,从而结合基础化学知识以及Heck特有的化学信息特征。最后,模型根据预训练和迁移训练过程中学习到的知识要素做出相应的Heck反应产物的预测。而transformer-baseline模型作为对比组,仅仅在Heck反应数据集上进行训练,然后做出相应的预测。具体的步骤如图2所示。
2.2 实验数据
该实验涉及两个数据集:预训练数据集和Heck反应数据集。预训练数据集是用于学习基础的化学反应知识从而弥补目标小数据集因数据缺乏导致的基础信息过少的缺陷。该数据集来源于美国专利数据库,共包含37万个实际应用化学反应,涵盖大部分的基础化学知识。而Heck反应数据集则是该文作者自己进行数据挖掘工作创建的。研究者从Rexays商业库中下载实验数据,经过一系列的数据清洗工作,最终获得9959个符合要求的Heck反应用于验证实验的有效性。这里值得注意的是,为了避免模型直接从预训练数据中获得关于Heck反应的信息导致对于迁移学习这一策略评估混淆,该实验特地删除了预训练数据中关于Heck反应的有效信息,从而保证了评估模型性能的真实性。表1为具体的Heck反应数据集信息。
表1. Heck反应数据集分布。
3.研究结果
3.1 模型表现
Transformer-transfer learning模型无论对于分子间还是分子内Heck反应的预测都具有非常强大的预测性能:对于分子间的Heck反应预测,transformer-transfer learning模型的top-1准确率能达到95.3%,而对于数据量较少且更为复杂的分子内Heck反应预测,transformer-transfer learning模型的top-1准确率仍能达到87.7%。但是与之相比, transformer-baseline模型对于这两类反应的预测表现并不使人满意,分别只有66.7%和58.7%的准确率。表2为具体的结果分析,从这些结果中可以体现transformer + 迁移学习这一实验策略方案的强大之处。同时,研究者也指出迁移学习的确能够非常有效地增进transformer模型对于数据信息的提取。无论是化学信息还是序列之间的对应关系,transformer模型通过迁移学习能够对其有更深刻的认识。
考虑到分子间Heck反应能为工业上和医学上各种重要的取代烯烃和二烯烃的合成提供了简便途径,作者又根据反应物的类型(乙烯、单取代烯烃、二取代烯烃和三取代烯烃)来进一步展开讨论transformer对于分子间Heck反应的预测性能,并且希望通过该分析能够对于实际的合成产生现实意义的引导。
表3. Transformer-transfer learning模型和transformer-baseline模型对于一取代烯烃作为反应物参与的分子间Heck反应预测的top-1准确率。
如表3所示,对于以乙烯作为反应物的分子间Heck反应,transformer-transfer learning模型的top-1准确率达到97.1%,体现了该模型的高精度预测性能。虽然研究者指出一取代烯烃在发生分子间Heck反应的过程中会面临区域选择性问题,导致模型对于这一类反应的预测难度的增加,但是对于这一涉及复杂的区域选择性反应的预测,transformer-transfer learning模型仍表现其强大的预测能力。此外针对涉及到以二取代和三取代烯烃作为反应物的分子间Heck反应, transformer-transfer learning 模型仍然能取得较好的预测效果。
与此同时,作者指出,含有多个卤素或双键的反应物在发生Heck反应时也会涉及到位点选择性问题。在Heck反应数据集中,共有375个Heck反应具有含多个双键的反应物。对于这一类反应,transformer-transfer learning 模型也取得了不俗的成绩,获得了85.3%的top-1准确率。而对于反应物中含有多个卤素的Heck反应,transformer-transfer learning 模型的top-1准确率能达到91.9%。
图3.Transformer-transfer learning模型预测正确的Heck反应示例。A, 涉及区域选择性的反应例子:(a) β位插入,得到 (E)-1, 2-二取代烯烃;(b) α位插入以获得1, 1-二取代烯烃;(c) β位插入以获得 (Z)-1,2-二取代烯烃。B, 涉及位点选择性的反应例子:(a) 烯烃反应物中存在多个碳-碳双键;(b) 烯烃反应物中存在多种卤素。
3.2 实验验证
为了证明transformer-transfer learning模型的实际应用性,作者根据模型的预测方案进行化学实验。根据实验结果,该研究获得了两个文献中未报导的Heck反应产物。作者指出transformer + 迁移学习这一策略方案的确可以作为化合物设计的先导手段对实验合成提供有效的方向指导。
图4. 化学实验得到的产物与transformer-transfer learning模型预测产物的比较。
4.结论
在这项工作中,作者将迁移学习策略与transformer模型结合,以Heck反应作为代表,进行小数据的化学反应预测。经实验证明,在引入迁移学习策略后,Heck反应预测的top-1准确率从66.3% 提高到94.9%,体现出迁移学习对于transformer模型强大的性能增强作用。同时,该研究也指出transformer + 迁移学习这一策略方案这种方式的确可以有效解决以数据为驱动的模型在小数据领域的应用困局。为了验证这一方法的现实适用性,作者通过以模型给出的候选方案进行实验合成,并且成功地获得了两个未报导的涉及区域选择性和位点选择性的Heck反应产物。通过理论和实验的结合,该研究充分显示了Transformer-transfer learning模型在现实上的应用价值。
在人工智能辅助化学反应预测这一领域,化学数据的缺乏极大地阻碍了这一方向的进展,该研究创造性地提出使用迁移学习优化手段以及transformer模型来突破这一难关。我们有理由相信这一优化策略可以应用到更多的化学反应预测任务并且极大提高这类方法的实际应用能力。