J Cheminform.｜基于子结构的神经机器翻译用于逆合成预测-阿里云开发者社区

J Cheminform.｜基于子结构的神经机器翻译用于逆合成预测

2021-12-11 161

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

文本翻译，文本翻译 100万字符

文档翻译，文档翻译 1千页

语种识别，语种识别 100万字符

简介： J Cheminform.｜基于子结构的神经机器翻译用于逆合成预测

随着机器翻译方法的快速改进，神经机器翻译已经开始在逆合成设计中发挥重要作用，为目标分子找到合理的合成路径。以往的研究表明，利用神经机器翻译的序列到序列框架是解决逆合成设计问题的一种有前途的方法。这项工作中，研究人员使用一个无模板的序列到序列的模型将逆合成设计问题重构为语言翻译问题。该模型是以端到端和完全数据驱动的方式进行训练。与之前翻译反应物和产物的SMILES字符串的模型不同，研究人员引入了一种基于分子片段的新的化学反应表示方式。事实证明，新方法比目前最先进的计算方法产生了更好的预测结果。新方法解决了现有逆合成方法的主要缺点，如生成无效的SMILES字符串。此外，研究人员的方法比现有的方法产生更稳健的预测。

方法

数据集

本研究中，研究人员使用了过滤后的美国专利反应数据集USPTO，该数据集是通过文本挖掘的方法获得的。Schwaller等人在没有原子映射的情况下，消除了数据集中重复的反应字符串。使用RDKit删除了780个由于SMILES规范化失败的反应。数据的固有局限性在于，绝大多数条目都是单产物反应。因此，本研究中只使用了对应92%的数据集的单产物案例。

研究人员的方法中，分子被表示为一组使用由166个预定义子结构组成的MACCS键的片段。这种基于二进制位的分子描述符将分子转换为166个位向量，其中每个位表示存在一个从预定义的SMARTS模式字典中提取的特征。

描述符策划

研究人员的方法中，一个分子被表示为一组使用MACCS键的片段。研究了数据集中每个MACCS键的出现次数。此外，研究人员还比较了100万个随机抽样的类药小分子的结果，是由9.75亿个分子组成的GDB-13的子集。本研究中，省略了5个从未出现过的键和9个在USPTO数据库中不常出现的键。根据比较，还排除了GDB-13数据库中从未或几乎没有观察到的另外26个密钥。

反应预处理

研究人员的模型只考虑策划MACCS键的非零指数。英语字母根据其频率的排序被分配到非零MACCS键上，形成独特的人工 "单词"。这种进一步的编码将产物和反应句转化为基于频率排序的字母键版本，意味着单词的位置信息，并使研究人员的方案适合使用序列到序列架构。单字母单词使用英语中最常见的21个字母的大写和小写生成。双字母词是通过为每42个单字母添加 "x "和 "z "来构建的，这使得可以覆盖所有126个MACCS键。因此，研究人员的字母片段词汇的长度固定为126个。

反应数据集管理

产物-反应物对数据集在经过研究人员的翻译机处理之前被进一步整理。用126个截短的MACCS键代表每个分子后，应用了一系列过滤器以去除相同的产物-反应物对和内部孪生分子。只要化学变化超出了基于MACCS键的表示的敏感性，它们就会出现。由于将分子与MACCS键关联以在子结构子空间上进行操作，因此会丢失一定数量的信息。

然后将产物-反应物对放入内射图生成器中，以确保产物和反应物句子之间一一对应。如果一个反应物句子由两个反应物组成，研究人员将根据它们的序列长度按降序对它们进行排序。反应物之间用“ –”号分隔。所整理的数据集总共包含352,546个产物-反应物对，进一步按每对中反应物分子的数量细分为两个不相交的子集：单一反应物和双重反应物数据集。以这种方式组织数据集对于独立评估模型性能至关重要。

模型架构

研究人员序列到序列神经网络由两个双向LSTM组成：一个用于编码器，另一个用于解码器。此外，他们使用单向LSTMs来量化使用双向LSTMs后模型性能的提升。编码器和解码器层通过Luong的全局注意力机制连接，该机制捕捉了源序列所有元素之间的非局部关系。注意机制允许神经网络关注源句子的不同部分，并在训练过程中考虑词之间的非线性关系。本研究中使用的全局注意力机制，本质上类似于Bahdanau等人提出的第一个注意力机制，用于机器翻译任务。全局方法将 "注意力 "集中在源句上的所有词上，以计算出解码单元中每个目标词在每个时间步的全局上下文向量。因此，全局上下文向量代表了所有源隐藏状态的加权和。这些上下文信息可以提高预测精度。

结果与讨论

预测精度

基于双向LSTM的模型优于基于单向LSTM的模型。对于所有数据集，精确匹配的成功率始终降低约6％。这可能是由于基于分子的MACCS密钥表示不依赖于密钥的顺序。换句话说，有关分子和化学反应的大多数信息都嵌入到键的共现中。

数据与代码

https://github.com/knu-chem-lcbc/fragment_based_retrosynthesis

结论

研究人员开发了一种序列到序列的NMT模型，通过学习子结构层面的关系，自动提取化学反应的反应规则。通过构建小尺寸固定长度词汇的MACCS键非零元素的抽象语言，共同解决了三个概念性问题。(1)不稳定的预测。基于SMILES的表示方法使得模型结果容易出错；（2）合成可用性：预测的分子可能无法合成；（3）精度指标：模型提出的建议可能因模型运行而不同。对比和质量检查表明，研究人员的方法在0.90<Tc≤1.00的区域内成功地产生了候选反应物，实现了较高的整体准确度，特别是在官能团互换或键的断开和反应性官能团处。研究人员认为，这种提出的方法在有机化学领域具有很高的广泛应用潜力。