比量子化学方法快六个数量级,一种基于绝热状态的绝热人工神经网络方法,可加速对偶氮苯衍生物及此类分子的模拟

简介: 比量子化学方法快六个数量级,一种基于绝热状态的绝热人工神经网络方法,可加速对偶氮苯衍生物及此类分子的模拟

光诱导化学过程在自然界中无处不在,并具有广泛的技术应用。例如,光异构化可以使具有光可切换支架的药物被光激活。原则上,具有所需光物理特性(如高异构化量子产率)的光开关,可以通过反应模拟的虚拟筛选来识别。然而在实践中,这些模拟很少用于筛选,因为它们需要数百条轨迹和昂贵的量子化学方法来解释非绝热激发态效应。在这里,哈佛大学与麻省理工学院的研究人员,开发了一种基于绝热状态的绝热人工神经网络(DANN),用于加速对偶氮苯衍生物及此类分子的模拟。该网络比用于训练的量子化学方法快六个数量级。DANN 可转移到训练集之外的偶氮苯分子,预测与实验相关的未见物种的量子产率。研究人员使用该模型虚拟筛选 3100 个假设分子,并识别具有高预测量子产率的「新物种」。使用高精度非绝热动力学确认模型预测。其结果为快速准确地虚拟筛选光活性化合物铺平了道路。该研究以「Excited state non-adiabatic dynamics of large photoswitchable molecules using a chemically transferable machine learning potential」为题,于 2022 年 6 月 15 日发布在《Nature Communications》。光是操纵分子系统的强大工具。它可以以高空间、光谱和时间精度进行控制,以促进各种过程,包括能量转移、分子间反应和光异构化。这些过程用于合成、能量存储、显示技术、生物成像、诊断和医学等多种领域。例如,光活性药物是可光切换的化合物,其生物活性可以通过光诱导异构化来切换。对生物活性的精确时空控制允许以高剂量递送光活性药物,同时具有最小的脱靶活性和副作用。这种疗法是治疗癌症、神经退行性疾病、细菌感染、糖尿病和失明的有希望的途径。理论在解释和预测光化学方面起着关键作用,因为从热激活基态过程中学到的经验启发式,通常不适用于激发态。基于量子力学的计算机模拟,可以在预测实验观测值方面达到令人印象深刻的准确性。这些包括光可切换化合物的异构化效率和吸收光谱,这是设计光活性药物的关键。然而,光化学中的从头算方法受到其计算成本的严重限制。为了收集一个分子的有意义的统计数据,需要进行数百次重复模拟,每个模拟都涉及以亚飞秒时间步长串联执行的数千次电子结构计算。单独的量子化学计算要求特别高,需要激发态梯度和多参考效应的一些处理。在某些情况下,每个时间步都需要基态梯度和激发态梯度。使用从头算方法计算数十或数百个分子的光化学性质是不切实际的,并且光动力学模拟尚未用于大规模虚拟筛选。其中最准确和最昂贵的电子结构方法是多参考扰动技术,但它们的成本和手动主动空间选择的要求限制了它们在虚拟筛选中的使用。多年来,光化学界为了克服这两个障碍,已经开发了一些令人振奋的方法。例如,缩减缩放技术和图形处理单元可以显著加速多参考计算。密度矩阵重整化组(DMRG)和多参考密度泛函理论(DFT)方法扩大了可以高精度处理的系统的规模。DMRG 还被用于自动选择多参考方法的活动空间。以及不太准确,但更实惠的黑盒方法,包括自旋翻转时间相关 DFT (SF-TDDFT) 和孔洞 Tamm-Dancoff DFT 等。尽管有这些发展,非绝热模拟的成本仍然很高。即使是相对实惠的 SF-TDDFT,对于虚拟筛选来说也是非常昂贵的。半经验方法是目前唯一可负担的大规模筛查方法。它们在许多系统中提供了定性正确的结果,但最终受限于它们的近似值,平均能量误差为 15 kcal/mol。另一种方法是使用数据驱动模型代替量子化学(QC)计算。在量子化学数据上训练的机器学习(ML)模型现在可以以亚化学精度常规预测基态能量和力,并且只需几毫秒即可做出预测。这些模型已成功用于各种基态模拟。它们还被用于加速许多模型系统中的非绝热模拟。然而,激发态 ML 尚未为数百个实际大小的分子提供负担得起的光动力学,这是光药理学预测模拟的最终目标。此外,尚未开发出可转移到不同化合物的激发态原子间势。因此,他们需要对每个「新物种」进行数千次 QC 计算来作为训练数据。在这里,哈佛与麻省理工的研究人员,在使用 ML 进行负担得起的大规模光化学模拟和虚拟筛选方面取得了重大进展。为了开发可转移的潜力,他们专注于来自同一化学家族的分子,研究偶氮苯的衍生物,一种原型光开关。图示:偶氮苯衍生物中势能表面的描述。(来源:论文)这里研究的衍生物包含多达 100 个原子,使其成为迄今为止符合激发态 ML 势的最大系统。结合等变神经网络和基于物理的绝热模型,以及化学空间组合探索产生的数据,以及通过主动学习进行的配置采样,他们生成了一个模型 DANN,该模型可转移应用到大型的、看不见的偶氮苯衍生物。图示:神经网络架构和主动学习循环。(来源:论文)这产生了超过六个数量级的计算节省。未知物种的预测异构化量子产率与实验值相关。该模型用于预测 3100 多种假设物种的量子产率,揭示了具有高顺式-反式和反式-顺式量子产率的稀有分子。图示:DANN-NAMD 的速度和准确性。(来源:论文)DANN 模型显示了偶氮苯衍生物之间的高精度和可转移性。一个限制是,看不见的物种包含在一定程度上存在于训练集中的功能组。对于更高代表性的功能组,模型性能通常更高,尽管一些组的代表性很高但难以拟合,而另一些组的代表性较弱且拟合良好。此外,如果没有额外的训练数据,该模型不能应用于其他化学家族。比如,它大大高估了许多反式衍生物的激发态寿命。另一方面,半经验方法在各种化学物质中提供了定性正确的预测,但无法与 DANN 的域内准确性相匹配,并且无法通过更多参考数据进行改进。如在 OrbNet 模型中所做的那样,从半经验计算中添加特征可能在未来证明是有用的。考虑到非局部效应和自旋态的最新发展提高了神经网络的可转移性,也可能对激发态有益。该模型可以通过高精度多参考计算、溶剂效应和包含明亮的 S2 状态来进一步改进。特别是自旋完全方法的使用至关重要,因为自旋污染阻碍了对基础化合物模型的微调。它也可能总体上影响了 DANN 模型的准确性。因此,自旋完成、负担得起的替代品特别令人感兴趣。主动学习可以通过具有对抗性不确定性攻击的可微采样来加速,这将改善激发态的寿命。迁移学习也可用于提高特定分子的性能。只需要少量的从头计算来微调单个物种的模型。Diabatization 也可能被证明对反应性基态有用。反应势垒通常可以理解为从一种绝热状态到另一种绝热状态的转变。非绝热基础可以使反应表面更容易适应神经网络。

图示:虚拟筛选的结果。(来源:论文)

总之,研究人员引入了一种非绝热多态神经网络潜力,在 SF-TDDFT BHHLYP/6-31G* 理论水平上对超过 630,000 个几何形状进行了训练,涵盖了超过 8000 个独特的偶氮苯分子。他们使用 DANN-NAMD 预测了训练集外衍生物的异构化量子产率,并将结果与实验相关联。该团队还确定了几种具有高量子产率、红移激发能量和反转稳定性的假设化合物。训练数据的网络架构、非分解方法以及化学和配置多样性使模型能够产生强大且可转移的潜力。该模型可以现成地应用于新分子,产生的结果近似于 SF-TDDFT 的结果,计算成本降低了几个数量级。论文链接:https://www.nature.com/articles/s41467-022-30999-w

相关文章
|
1月前
|
机器学习/深度学习 计算机视觉
TPAMI 2024:计算机视觉中基于图神经网络和图Transformers的方法和最新进展
【10月更文挑战第3天】近年来,图神经网络(GNNs)和图Transformers在计算机视觉领域取得显著进展,广泛应用于图像识别、目标检测和场景理解等任务。TPAMI 2024上的一篇综述文章全面回顾了它们在2D自然图像、视频、3D数据、视觉与语言结合及医学图像中的应用,并深入分析了其基本原理、优势与挑战。GNNs通过消息传递捕捉非欧式结构,图Transformers则结合Transformer模型提升表达能力。尽管存在图结构构建复杂和计算成本高等挑战,但这些技术仍展现出巨大潜力。论文详细内容见:https://arxiv.org/abs/2209.13232。
50 3
|
3月前
|
存储 缓存 网络协议
网络丢包排查方法
网络丢包排查方法
|
3月前
|
监控 安全 iOS开发
|
3月前
|
域名解析 运维 监控
网络故障排查的常用工具与方法:技术深度解析
【8月更文挑战第20天】网络故障排查是一项复杂而重要的工作,需要网络管理员具备扎实的网络知识、丰富的实践经验和灵活的问题解决能力。通过掌握常用工具和方法,遵循科学的排查流程,可以显著提高故障排查的效率和准确性。希望本文能为读者在网络故障排查方面提供有益的参考和启示。
|
3月前
|
人工智能 安全 网络安全
网络犯罪分子开始利用AI绕过现代电子邮件安全措施
网络犯罪分子开始利用AI绕过现代电子邮件安全措施
WK
|
2月前
|
机器学习/深度学习 自然语言处理 算法
PSO算法和人工神经网络有什么不同
PSO算法(粒子群优化)与人工神经网络(ANN)在原理、应用及优化方式上差异显著。PSO模拟鸟群行为,通过粒子协作在解空间中搜索最优解;而ANN模仿大脑神经元结构,通过训练学习输入输出映射,适用于模式识别、图像处理等领域。PSO主要用于优化问题,实时性高,结果直观;ANN则在处理复杂非线性关系方面更强大,但结构复杂,训练耗时长,结果解释性较差。实际应用中需根据需求选择合适技术。
WK
26 0
|
2月前
|
机器学习/深度学习 数据采集 算法
图像处理神经网络数据预处理方法
图像预处理步骤对于图像处理神经网络至关重要。这些步骤不仅保证了数据的一致性和质量,还可以通过数据增强等技术提高模型的泛化能力,从而提升模型的整体性能。每一步骤的选择和应用都基于具体任务和数据集的特性,并在模型训练和测试过程中起到关键作用。
58 0
|
3月前
|
存储 缓存 定位技术
如果遇到网络延迟问题,有哪些方法可以快速解决以保证视频源同步?
如果遇到网络延迟问题,有哪些方法可以快速解决以保证视频源同步?
|
3月前
|
机器学习/深度学习
【机器学习】面试题:LSTM长短期记忆网络的理解?LSTM是怎么解决梯度消失的问题的?还有哪些其它的解决梯度消失或梯度爆炸的方法?
长短时记忆网络(LSTM)的基本概念、解决梯度消失问题的机制,以及介绍了包括梯度裁剪、改变激活函数、残差结构和Batch Normalization在内的其他方法来解决梯度消失或梯度爆炸问题。
148 2
|
3月前
|
存储 监控 安全
确保大型组织网络安全的策略与方法
【8月更文挑战第24天】
94 0

热门文章

最新文章