机器学习解决核磁共振谱中「谁是谁」的问题,可直接从晶体结构预测化学位移

简介: 机器学习解决核磁共振谱中「谁是谁」的问题,可直接从晶体结构预测化学位移

编辑/凯霞核磁共振技术(NMR )可用于有机化合物结构鉴定,以及分子和材料的化学动力学研究。对有机材料进行 NMR 研究的先决条件是将每个实验化学位移分配给一组几何等效的原子核。然而,通过实验获得分配可能具有挑战性,并且通常需要耗时的多维相关实验。通过与实验化学位移数据库的统计分析进行比较分配将是一种解决方案,但没有这样的分子固体数据库。来自洛桑联邦理工学院的研究人员通过将剑桥结构数据库(CSD)与化学位移的机器学习模型(ShiftML)相结合,创建了自己的有机固体化学位移数据库,可以直接从分子固体结构预测化学位移。该研究以Bayesian probabilistic assignment of chemical shifts in organic solids为题,于 11 月 26 日发表在《Science Advances》上。NMR化学位移分配是 NMR 研究的起点。在天然同位素丰度的有机固体中,这仍然是一个费力且具有挑战性的过程。特别是,13C 共振分配通常需要使用直通键 13C-13C 双量子/单量子相关 (INADEQUATE) 实验。然而,在大多数应用中,完整的晶体结构是未知的,基于从头化学位移的 NMR 晶体学依靠化学位移赋值从一组候选晶体中确定晶体结构

利托那韦的 13C CPMAS 谱。

通过化学位移的统计分析,可以直接从其序列中获得蛋白质和 RNA 等生物分子的化学位移分配。此外,通过将原子接触与核 Overhauser 效应实验相匹配,可以同时获得化学位移分配和结构测定。这些方法依赖于实验化学位移和分子结构的大型数据库的存在。然而,据我们所知,对于有机晶体,这种庞大而多样的化学位移数据库并不存在。机器学习(ShiftML)模型本研究使用的机器学习算法 ShiftML,是该团队之前共同开发的https://www.nature.com/articles/s41467-018-06972-x)。使用 DFT 计算进行训练,无需执行额外的量子计算,就可以对新结构进行准确预测。尽管达到了 DFT 精度,但该方法可以在几秒钟内计算出具有约 100 个原子的结构的化学位移,与当前的 DFT 化学位移计算相比,计算成本降低了 10,000 倍。该方法的精度与所检测的结构大小无关,预测时间与原子数成线性关系。这为在以前不可行的情况下计算化学位移奠定了基础。

用于化学位移预测的机器学习模型方案。

在新的研究中,该团队使用 ShiftML 来预测从 CSD 中提取的 200,000 多种化合物的变化,然后将获得的变化与分子环境的拓扑表示相关联。这涉及构建一个图来表示分子中原子之间共价键,将其扩展到远离中心原子的给定数量的键。然后,他们将数据库中所有相同的图形实例汇集在一起,从而获得每个基序的化学位移的统计分布。这种表示是分子中原子周围共价键的简化,不包含任何 3D 结构特征:这使他们能够通过结合分子中所有原子分布的边缘化方案,直接从其二维化学结构中获得有机晶体 NMR 光谱的概率分配。可行性证明在构建化学位移数据库后,该方法通过 11 种分子固体的 13C 和 1H 分配与实验位移进行了证明,这些有机分子的碳化学位移分配已经(至少部分)通过实验确定:茶碱、百里酚、可卡因、士的宁、AZD5718、赖诺普利、利托那韦、青霉素 G 的 K 盐、β-吡罗昔康、地西他滨和辛伐他汀。研究发现:在大多数情况下,直接从分子的二维表示中获得的分配概率与实验确定的分配相匹配。研究结果对应原文图 2~图 7 所示最后,研究人员在具有 10 到 20 个不同碳原子的 100 个晶体结构的基准集上评估了框架的性能。他们使用每个原子的 ShiftML 预测位移作为正确分配,并将它们从用于分配分子的统计分布中排除。模型性能。研究发现使用光谱编辑和相关的 1H-13C 化学位移分布,可以提高模型正确分配碳化学位移的能力。在超过 80% 的情况下,使用化学位移的二维统计分布、光谱编辑或两者的结合导致实验分配成为两个最可能的边缘分配之一。总体而言,实验基准集的性能与合成基准集一致,除了使用光谱编辑时,观察到实验集与合成集相比略有改进。该方法不限于 1H 和 13C,原则上可用于指定氢、碳、氮和氧的任何 NMR 活性同位素的各向同性位移。

AZD5718 的 15N 化学位移分配。

论文一作 Cordova 说:这种方法可以通过简化这些研究的基本第一步之一,来显着加速核磁共振对材料的研究。

论文链接:https://www.science.org/doi/10.1126/sciadv.abk2341

参考内容:https://phys.org/news/2021-11-machine-problem-nmr-spectra-crystals.html


相关文章
|
机器学习/深度学习 算法 知识图谱
浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能
浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能
212 0
|
机器学习/深度学习 人工智能 自然语言处理
AI for Science:人工智能改变化学领域,机器学习范式加速化学物质发现
AI for Science:人工智能改变化学领域,机器学习范式加速化学物质发现
307 0
|
机器学习/深度学习 数据采集 人工智能
Angew. Chem. Int. Ed. | 分子机器学习是合成化学的未来吗?
Angew. Chem. Int. Ed. | 分子机器学习是合成化学的未来吗?
158 0
Angew. Chem. Int. Ed. | 分子机器学习是合成化学的未来吗?
|
机器学习/深度学习 算法 大数据
Nat. Commun. | 机器学习在化学发现中的应用
Nat. Commun. | 机器学习在化学发现中的应用
314 0
Nat. Commun. | 机器学习在化学发现中的应用
|
机器学习/深度学习 人工智能 算法
机器学习如何助力计算化学研究发展?
像许多实施机器学习的领域一样,它在计算化学领域的用途是从文献中获取所有已知数据,进行推断和分析,并预测最可能的结果。
1866 0
机器学习如何助力计算化学研究发展?
|
机器学习/深度学习 人工智能 数据挖掘
CCAI 2017 日本理化学研究所先进智能研究中心主任杉山将:弱监督机器学习的研究进展
7 月 22 - 23 日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办,云栖社区作为独家直播合作伙伴的 2017 中国人工智能大会(CCAI 2017)在杭州国际会议中心盛大召开。
1982 0
|
6月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
239 14
|
6月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
114 1
|
6月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
6月前
|
机器学习/深度学习 数据采集 算法
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
305 0