编辑/凯霞核磁共振技术(NMR )可用于有机化合物结构鉴定,以及分子和材料的化学动力学研究。对有机材料进行 NMR 研究的先决条件是将每个实验化学位移分配给一组几何等效的原子核。然而,通过实验获得分配可能具有挑战性,并且通常需要耗时的多维相关实验。通过与实验化学位移数据库的统计分析进行比较分配将是一种解决方案,但没有这样的分子固体数据库。来自洛桑联邦理工学院的研究人员通过将剑桥结构数据库(CSD)与化学位移的机器学习模型(ShiftML)相结合,创建了自己的有机固体化学位移数据库,可以直接从分子固体结构预测化学位移。该研究以「Bayesian probabilistic assignment of chemical shifts in organic solids」为题,于 11 月 26 日发表在《Science Advances》上。NMR化学位移分配是 NMR 研究的起点。在天然同位素丰度的有机固体中,这仍然是一个费力且具有挑战性的过程。特别是,13C 共振分配通常需要使用直通键 13C-13C 双量子/单量子相关 (INADEQUATE) 实验。然而,在大多数应用中,完整的晶体结构是未知的,基于从头化学位移的 NMR 晶体学依靠化学位移赋值从一组候选晶体中确定晶体结构
利托那韦的 13C CPMAS 谱。
通过化学位移的统计分析,可以直接从其序列中获得蛋白质和 RNA 等生物分子的化学位移分配。此外,通过将原子接触与核 Overhauser 效应实验相匹配,可以同时获得化学位移分配和结构测定。这些方法依赖于实验化学位移和分子结构的大型数据库的存在。然而,据我们所知,对于有机晶体,这种庞大而多样的化学位移数据库并不存在。机器学习(ShiftML)模型本研究使用的机器学习算法 ShiftML,是该团队之前共同开发的(https://www.nature.com/articles/s41467-018-06972-x)。使用 DFT 计算进行训练,无需执行额外的量子计算,就可以对新结构进行准确预测。尽管达到了 DFT 精度,但该方法可以在几秒钟内计算出具有约 100 个原子的结构的化学位移,与当前的 DFT 化学位移计算相比,计算成本降低了 10,000 倍。该方法的精度与所检测的结构大小无关,预测时间与原子数成线性关系。这为在以前不可行的情况下计算化学位移奠定了基础。
用于化学位移预测的机器学习模型方案。
在新的研究中,该团队使用 ShiftML 来预测从 CSD 中提取的 200,000 多种化合物的变化,然后将获得的变化与分子环境的拓扑表示相关联。这涉及构建一个图来表示分子中原子之间共价键,将其扩展到远离中心原子的给定数量的键。然后,他们将数据库中所有相同的图形实例汇集在一起,从而获得每个基序的化学位移的统计分布。这种表示是分子中原子周围共价键的简化,不包含任何 3D 结构特征:这使他们能够通过结合分子中所有原子分布的边缘化方案,直接从其二维化学结构中获得有机晶体 NMR 光谱的概率分配。可行性证明在构建化学位移数据库后,该方法通过 11 种分子固体的 13C 和 1H 分配与实验位移进行了证明,这些有机分子的碳化学位移分配已经(至少部分)通过实验确定:茶碱、百里酚、可卡因、士的宁、AZD5718、赖诺普利、利托那韦、青霉素 G 的 K 盐、β-吡罗昔康、地西他滨和辛伐他汀。研究发现:在大多数情况下,直接从分子的二维表示中获得的分配概率与实验确定的分配相匹配。(研究结果对应原文图 2~图 7 所示)最后,研究人员在具有 10 到 20 个不同碳原子的 100 个晶体结构的基准集上评估了框架的性能。他们使用每个原子的 ShiftML 预测位移作为正确分配,并将它们从用于分配分子的统计分布中排除。模型性能。研究发现使用光谱编辑和相关的 1H-13C 化学位移分布,可以提高模型正确分配碳化学位移的能力。在超过 80% 的情况下,使用化学位移的二维统计分布、光谱编辑或两者的结合导致实验分配成为两个最可能的边缘分配之一。总体而言,实验基准集的性能与合成基准集一致,除了使用光谱编辑时,观察到实验集与合成集相比略有改进。该方法不限于 1H 和 13C,原则上可用于指定氢、碳、氮和氧的任何 NMR 活性同位素的各向同性位移。
AZD5718 的 15N 化学位移分配。
论文一作 Cordova 说:「这种方法可以通过简化这些研究的基本第一步之一,来显着加速核磁共振对材料的研究。」
论文链接:https://www.science.org/doi/10.1126/sciadv.abk2341
参考内容:https://phys.org/news/2021-11-machine-problem-nmr-spectra-crystals.html