2019年7月,普林斯顿大学的Ian W. Davies学者在Nature上发表了一篇文章——有机合成的数字化。
1
摘要
有机合成基本上是由学术实验室进行的,这些实验室由专门研究某些特定化合物或合成步骤的资助。尽管现代合成方法可以帮助我们获得相当复杂的分子,但是预测单个化学反应的结果依旧存在困难。只有通过智能决策帮我们选择最优的合成步骤(包括效率、质量和产量在内的指标为指导),关于预测“箭头上方”的反应条件的技术才能获得进步。因此通信和数据共享的方法需要从传统工具发展为机器可读的方法和开放式协作框架。这将会加速创新并需要创建具有标准化数据处理,管理和指标的化学物质公共资源。
2
背景
20世纪60年代,关于计算机辅助设计化学合成这个想法已初见苗头,但遭受到大多化学家的质疑,最终以失败告终。而如今,计算机辅助设计有机合成变得十分普遍。
3
简介
这篇文章从四个方面介绍了当前计算机辅助设计有机合成的情况。
面对传统文化和数据收集的挑战
有机化学合成的复杂性
新出现的利用强化数据的方法进行创新的例子
加速未来发展
4
面对传统文化和数据收集的挑战
4.1 深度学习算法概念
图 1
每一位化学家都接受过良好的训练,有着一定的知识储备量,当他们面临一个新的合成问题时,都会与自己之前所学习到的知识进行比较,这与深度学习算法概念类似。
在进行有机合成设计时,要考虑到很多因素,如:产率、选择性、温度、溶剂、配体等。如果只是人类依靠在笔记本上写写画画,很难进行顺利。这时我们不得不依靠深度学习算法,让计算机来帮助我们。
4.2 面临的挑战
(1)在没有多种起始材料的情况下,数据通常是破碎的且很难整理。
(2)与人性有关的另一个障碍是,当反应失败时,实验者通常不关心完整的实验记录,而是选择放弃,开始另一项任务。
4.3 解决方法
不得不进行统一收集、清理和标记数据,希望科学家们可以共享自己的实验数据并呼吁政府和慈善机构调整奖励机制,使数据广泛可得。
5
执行有机合成的复杂性
5.1 有机合成反应复杂
图 2 针对maoecrystal V化合物合成中某个步骤进行优化
上图中是天然产物Maoecrystal V合成路线中第七个步骤所要考虑的因素,包括:溶剂、试剂、添加顺序、温度、反应时间等16个因素。该图很好地说明了有机合成的复杂性。
5.2 文化影响
受过良好训练的有机化学家会阅读文献,并生成最合理地满足他们目标的反应步骤。但是,这些人为的预测通常会因为文化或公司以前的路线选择而有偏差。
5.3 商业利益和监管压力
商业和监管方面的压力使得科学家在早期发现的一系列潜在途径中,不得不采用单一方法进行验证从而商业化。
6
新出现的利用强化数据的方法进行创新的例子
6.1 Merk公司
Merk公司使用高通量实验和分析技术系统构建工具,以解决数据的空白。详情:以普遍的钯催化交叉偶联反应为例,结合机器人技术和高通量分析技术,在室温下进行自动化反应。使用这种装置,每天可以进行1500个实验,且每个反应只需要0.02mg的起始原料。为了减少分析时间,高通量实验可以与先进的质谱方法联用,在几分钟内对就可以对数千个实验进行分类。
6.2 The Doyle laboratory
Doyle实验室使用了一种机器人同时进行的评估方法,该方法具有三个1,536孔板,该板由芳基卤化物,Buchwald配体,碱和添加剂的完整矩阵组成,总共进行了4,608个反应。这些反应的产量用作模型输出,并提供了一个干净,结构化的数据集,其中包含的反应维数大大超过了以前使用机器学习检查的反应维数。大约30%的反应无法提供任何产物,其余的则在非零产量范围内相对均匀地分布。使用Sigman小组推广的概念,构建了脚本来计算和提取交叉耦合组件的原子,分子和振动描述符。使用这些描述符作为输入,并以反应产率作为输出,发现随机森林算法可提供较高的预测性能。
为了训练此反应的模型,对脱氧氟化反应的640个筛选反应中使用的底物和试剂制成表格。使用了随机森林算法,并对70%的筛选条目进行了训练。使用包含192个反应的测试集评估模型,并在训练集之外的5种结构不同的底物上进行验证。模型对这些反应的产率进行了合理的准确预测,可以让化学家评价反应的可行性和选择初始反应条件。与以前的研究相比,该训练集小80%,涵盖了更广泛的底物多样性,并纳入了多种机制。若将该脱氧氟化反应的训练集进行扩展,将其他变量(即化学计量,浓度,溶剂和温度)也考虑进去,从可能会使复杂反应空间更准确、更全面。
图 3 利用机器学习预测脱氧氟化反应
6.3 流体化学
流体化学为加速反应提供了另一个发展机会。辉瑞团队最新推出的基于连续流体化学的自动化合成平台,克服了一个常见的问题,即有限的材料量不允许应用流体化学筛选。该团队使用喹啉(3a-g)和吲唑酸(4a-d)证明平台具有制备有用数量材料的能力,该团队根据筛选的最佳条件对100个连续片段的进样进行了编程,从而每小时可制备约100 mg目标分子。
该团队对反应条件涉及到的4种溶剂,11种催化剂,7种碱,以及两个反应物可能带的不同活性基团的总计5760种反应组合进行了评估。并利用其液质联机实时分析的优势得到了产率热图(图4a)。
化学合成可能不再仅仅是人类活动。在一项Cronin实验室最近的研究表明,由机器学习算法控制的机器人反应处理系统可能能够比人工过程探索有机反应快一个数量级。机器人方法能够以结构化的方式捕获有关失败或非反应性实验的信息,使其可用于反应作图。在考虑大约10%的数据集结果后,强大的机器学习算法能够从上述辉瑞数据集中预测1,000种反应组合的反应性,且准确性高于80%。
这三个机器学习示例中的一个共同主题是:可以使用相对较小的数据集进行预测,在某些情况下,数据集仅占反应总数的10%,就可以预测剩下的90%的结果,而无需身体进行实验。高保真数据可以源自高通量筛选,流体化学或单个科学家,但最重要的是能够提供有效,安全和准确的数据。这很重要,因为目前尚不知道这些数据集需要多大才能预测药物空间的分子。自然地,某些反应性趋势可能反映了各个实验的进行方式,但并不能真正说明特定的催化剂或配体。作者提出了一种使用经整理后的类药物分子库进行诊断的方法,即“信息库”,以更好地捕获反应范围和反应条件,但是随着时代的发展,这只是我们要做的一小步。
图 4 加速流体化学和反应预测的发展
7
加速未来发展
在有机合成的200年历史中,还没有开发出合适的收集、清理和标记数据的方法。在人类基因组中,所有的DNA序列信息都是免费的且公开的。研究者可以在政府和慈善机构的帮助下进行数据共享,采用现代化方法避免主数据重复。未来,有机合成的数字化会持续发展,计算机能力不再是问题。