光诱导化学过程在自然界中无处不在,并具有广泛的技术应用。例如,光异构化可以使具有光可切换支架的药物被光激活。原则上,具有所需光物理特性(如高异构化量子产率)的光开关,可以通过反应模拟的虚拟筛选来识别。然而在实践中,这些模拟很少用于筛选,因为它们需要数百条轨迹和昂贵的量子化学方法来解释非绝热激发态效应。在这里,哈佛大学与麻省理工学院的研究人员,开发了一种基于绝热状态的绝热人工神经网络(DANN),用于加速对偶氮苯衍生物及此类分子的模拟。该网络比用于训练的量子化学方法快六个数量级。DANN 可转移到训练集之外的偶氮苯分子,预测与实验相关的未见物种的量子产率。研究人员使用该模型虚拟筛选 3100 个假设分子,并识别具有高预测量子产率的「新物种」。使用高精度非绝热动力学确认模型预测。其结果为快速准确地虚拟筛选光活性化合物铺平了道路。该研究以「Excited state non-adiabatic dynamics of large photoswitchable molecules using a chemically transferable machine learning potential」为题,于 2022 年 6 月 15 日发布在《Nature Communications》。光是操纵分子系统的强大工具。它可以以高空间、光谱和时间精度进行控制,以促进各种过程,包括能量转移、分子间反应和光异构化。这些过程用于合成、能量存储、显示技术、生物成像、诊断和医学等多种领域。例如,光活性药物是可光切换的化合物,其生物活性可以通过光诱导异构化来切换。对生物活性的精确时空控制允许以高剂量递送光活性药物,同时具有最小的脱靶活性和副作用。这种疗法是治疗癌症、神经退行性疾病、细菌感染、糖尿病和失明的有希望的途径。理论在解释和预测光化学方面起着关键作用,因为从热激活基态过程中学到的经验启发式,通常不适用于激发态。基于量子力学的计算机模拟,可以在预测实验观测值方面达到令人印象深刻的准确性。这些包括光可切换化合物的异构化效率和吸收光谱,这是设计光活性药物的关键。然而,光化学中的从头算方法受到其计算成本的严重限制。为了收集一个分子的有意义的统计数据,需要进行数百次重复模拟,每个模拟都涉及以亚飞秒时间步长串联执行的数千次电子结构计算。单独的量子化学计算要求特别高,需要激发态梯度和多参考效应的一些处理。在某些情况下,每个时间步都需要基态梯度和激发态梯度。使用从头算方法计算数十或数百个分子的光化学性质是不切实际的,并且光动力学模拟尚未用于大规模虚拟筛选。其中最准确和最昂贵的电子结构方法是多参考扰动技术,但它们的成本和手动主动空间选择的要求限制了它们在虚拟筛选中的使用。多年来,光化学界为了克服这两个障碍,已经开发了一些令人振奋的方法。例如,缩减缩放技术和图形处理单元可以显著加速多参考计算。密度矩阵重整化组(DMRG)和多参考密度泛函理论(DFT)方法扩大了可以高精度处理的系统的规模。DMRG 还被用于自动选择多参考方法的活动空间。以及不太准确,但更实惠的黑盒方法,包括自旋翻转时间相关 DFT (SF-TDDFT) 和孔洞 Tamm-Dancoff DFT 等。尽管有这些发展,非绝热模拟的成本仍然很高。即使是相对实惠的 SF-TDDFT,对于虚拟筛选来说也是非常昂贵的。半经验方法是目前唯一可负担的大规模筛查方法。它们在许多系统中提供了定性正确的结果,但最终受限于它们的近似值,平均能量误差为 15 kcal/mol。另一种方法是使用数据驱动模型代替量子化学(QC)计算。在量子化学数据上训练的机器学习(ML)模型现在可以以亚化学精度常规预测基态能量和力,并且只需几毫秒即可做出预测。这些模型已成功用于各种基态模拟。它们还被用于加速许多模型系统中的非绝热模拟。然而,激发态 ML 尚未为数百个实际大小的分子提供负担得起的光动力学,这是光药理学预测模拟的最终目标。此外,尚未开发出可转移到不同化合物的激发态原子间势。因此,他们需要对每个「新物种」进行数千次 QC 计算来作为训练数据。在这里,哈佛与麻省理工的研究人员,在使用 ML 进行负担得起的大规模光化学模拟和虚拟筛选方面取得了重大进展。为了开发可转移的潜力,他们专注于来自同一化学家族的分子,研究偶氮苯的衍生物,一种原型光开关。图示:偶氮苯衍生物中势能表面的描述。(来源:论文)这里研究的衍生物包含多达 100 个原子,使其成为迄今为止符合激发态 ML 势的最大系统。结合等变神经网络和基于物理的绝热模型,以及化学空间组合探索产生的数据,以及通过主动学习进行的配置采样,他们生成了一个模型 DANN,该模型可转移应用到大型的、看不见的偶氮苯衍生物。图示:神经网络架构和主动学习循环。(来源:论文)这产生了超过六个数量级的计算节省。未知物种的预测异构化量子产率与实验值相关。该模型用于预测 3100 多种假设物种的量子产率,揭示了具有高顺式-反式和反式-顺式量子产率的稀有分子。图示:DANN-NAMD 的速度和准确性。(来源:论文)DANN 模型显示了偶氮苯衍生物之间的高精度和可转移性。一个限制是,看不见的物种包含在一定程度上存在于训练集中的功能组。对于更高代表性的功能组,模型性能通常更高,尽管一些组的代表性很高但难以拟合,而另一些组的代表性较弱且拟合良好。此外,如果没有额外的训练数据,该模型不能应用于其他化学家族。比如,它大大高估了许多反式衍生物的激发态寿命。另一方面,半经验方法在各种化学物质中提供了定性正确的预测,但无法与 DANN 的域内准确性相匹配,并且无法通过更多参考数据进行改进。如在 OrbNet 模型中所做的那样,从半经验计算中添加特征可能在未来证明是有用的。考虑到非局部效应和自旋态的最新发展提高了神经网络的可转移性,也可能对激发态有益。该模型可以通过高精度多参考计算、溶剂效应和包含明亮的 S2 状态来进一步改进。特别是自旋完全方法的使用至关重要,因为自旋污染阻碍了对基础化合物模型的微调。它也可能总体上影响了 DANN 模型的准确性。因此,自旋完成、负担得起的替代品特别令人感兴趣。主动学习可以通过具有对抗性不确定性攻击的可微采样来加速,这将改善激发态的寿命。迁移学习也可用于提高特定分子的性能。只需要少量的从头计算来微调单个物种的模型。Diabatization 也可能被证明对反应性基态有用。反应势垒通常可以理解为从一种绝热状态到另一种绝热状态的转变。非绝热基础可以使反应表面更容易适应神经网络。
图示:虚拟筛选的结果。(来源:论文)
总之,研究人员引入了一种非绝热多态神经网络潜力,在 SF-TDDFT BHHLYP/6-31G* 理论水平上对超过 630,000 个几何形状进行了训练,涵盖了超过 8000 个独特的偶氮苯分子。他们使用 DANN-NAMD 预测了训练集外衍生物的异构化量子产率,并将结果与实验相关联。该团队还确定了几种具有高量子产率、红移激发能量和反转稳定性的假设化合物。训练数据的网络架构、非分解方法以及化学和配置多样性使模型能够产生强大且可转移的潜力。该模型可以现成地应用于新分子,产生的结果近似于 SF-TDDFT 的结果,计算成本降低了几个数量级。论文链接:https://www.nature.com/articles/s41467-022-30999-w