准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

简介: 【8月更文挑战第29天】浙江大学团队在《Nature》子刊上发表的论文介绍了一款名为EditRetro的基于Transformer架构的化学逆合成预测模型,其准确率高达60.8%,为化学合成领域带来了革命性的变化。此模型无需依赖传统化学反应模板,具备更强的泛化能力和多样化合成路线生成能力,在药物研发和材料科学领域展现出巨大潜力,尽管仍存在一定的错误率和计算资源需求高等挑战。论文详情见:https://www.nature.com/articles/s41467-024-50617-1。

最近,一篇由浙江大学团队发表在Nature子刊上的论文引起了广泛关注。该论文介绍了一种基于Transformer的化学逆合成预测模型,名为EditRetro,该模型在准确性方面取得了显著突破,准确率达到了60.8%。这一研究成果对于化学合成领域具有重要意义,有望为药物研发和材料科学等领域带来革命性的变化。

化学逆合成预测是化学合成领域的一项关键技术,它涉及将目标分子分解为更简单的前体分子,以便于合成。传统的逆合成预测方法主要依赖于化学家的经验和直觉,效率较低且容易出错。而EditRetro模型的出现,为解决这一问题提供了新的思路。

EditRetro模型基于Transformer架构,这是一种在自然语言处理领域广泛应用的深度学习模型。通过将化学逆合成预测问题转化为序列到序列的预测问题,EditRetro模型能够自动学习到化学反应的模式和规律,从而提高预测的准确性和效率。

在实验中,EditRetro模型在两个广泛使用的基准数据集上进行了评估,分别是USPTO-50K和USPTO-FULL。结果显示,EditRetro模型在准确性方面明显优于其他基线模型,包括基于模板的方法和无模板的方法。具体而言,EditRetro模型在USPTO-50K数据集上的准确率达到了60.8%,而在USPTO-FULL数据集上的准确率也达到了52.2%。

除了准确性方面的优势,EditRetro模型还具有其他一些优点。首先,它是一种无模板的方法,不需要依赖预先定义的化学反应模板,因此具有更好的泛化能力。其次,EditRetro模型能够生成多样化的合成路线,这对于药物研发等需要探索多种可能性的领域尤为重要。

然而,EditRetro模型也存在一些局限性。首先,它的准确率虽然已经很高,但仍然没有达到100%,这意味着在实际应用中仍然存在一定的错误率。其次,EditRetro模型的训练和推理过程相对复杂,需要大量的计算资源和时间。

尽管存在这些局限性,但EditRetro模型的出现仍然为化学逆合成预测领域带来了新的希望。它不仅提高了预测的准确性和效率,还为化学家提供了一种强大的工具,可以帮助他们更快地设计出新的合成路线。未来,随着技术的不断进步,相信EditRetro模型的性能还会进一步提升,并在更多的实际应用中发挥作用。

论文链接:https://www.nature.com/articles/s41467-024-50617-1

目录
相关文章
|
3月前
|
机器学习/深度学习 人工智能 芯片
牛津光计算论文登Nature正刊,分析帕金森患者步态准确率达92.2%
【9月更文挑战第23天】牛津大学研究人员在《自然》杂志上发表了一篇关于光计算的重要论文,展示了一种利用光的局部相干性增强光子计算并行性的新方法。该技术通过部分相干光与重建方法结合,提高了处理效率和并行性,同时降低了对相移器和微环谐振器的依赖,展示了在光子张量核心中的应用潜力,并在实际计算任务中实现了高准确率。这项突破有望推动光子处理器在人工智能领域的广泛应用。
46 5
|
3月前
|
人工智能 自然语言处理 算法
GPT-4无师自通预测蛋白质结构登Nature子刊!LLM全面进军生物学,AlphaFold被偷家?
【9月更文挑战第17天】近日,《自然》子刊发表的一篇论文展示了GPT-4在预测蛋白质结构方面的惊人能力,这一突破不仅揭示了大型语言模型在生物学领域的巨大潜力,还可能影响传统预测工具如AlphaFold的地位。研究人员发现,GPT-4仅通过自然语言处理就能准确预测蛋白质的三维结构,包括常见的氨基酸序列和复杂的α-螺旋结构。实验结果显示,其预测精度与实际结构非常接近。这一成果意味着自然语言处理技术也可应用于生物学研究,但同时也引发了关于其局限性和对现有工具影响的讨论。论文详情见:https://www.nature.com/articles/s41598-024-69021-2
62 8
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature
【9月更文挑战第24天】近年来,深度学习在人工智能领域取得巨大成功,但在连续学习任务中面临“损失可塑性”问题,尤其在深度强化学习中更为突出。加拿大阿尔伯塔大学的研究人员提出了一种名为“持续反向传播”的算法,通过选择性地重新初始化网络中的低效用单元,保持模型的可塑性。该算法通过评估每个连接和权重的贡献效用来决定是否重新初始化隐藏单元,并引入成熟度阈值保护新单元。实验表明,该算法能显著提升连续学习任务的表现,尤其在深度强化学习领域效果明显。然而,算法也存在计算复杂性和成熟度阈值设置等问题。
79 2
|
5月前
|
人工智能 算法 数据挖掘
语义熵识破LLM幻觉!牛津大学新研究登Nature
【7月更文挑战第22天】牛津大学研究者在Nature发布"使用语义熵检测大模型幻觉"。语义熵新方法有效识别大模型(LLMs)生成的不实或误导信息,通过聚类分析不同回答的语义等价性并计算概率,展示超越基线的幻觉检测能力,提升LLMs的可靠性。
182 7
|
6月前
|
数据采集 人工智能 算法
ICLR 2024 Spotlight:单模型斩获蛋白质突变预测榜一!西湖大学提出基于结构词表方法
【6月更文挑战第1天】西湖大学团队研发的蛋白质语言模型SaProt,在结构词表方法下,于蛋白质突变预测任务中荣登榜首。SaProt利用Foldseek编码的结构标记理解蛋白质行为,超越现有基准模型,在10个下游任务中表现出色。尽管训练资源需求大,且有特定任务优化空间,但该模型为生物医学研究带来新工具,促进科学理解与合作。论文链接:[https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4](https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4)
216 7
|
7月前
|
存储 计算机视觉
【论文速递】WACV2023 - 循环相似注意力的小样本医学图像分割
【论文速递】WACV2023 - 循环相似注意力的小样本医学图像分割
|
机器学习/深度学习 自然语言处理 算法
KDD 2023 | 第四范式开发用于分子性质预测的生成式3D预训练模型
KDD 2023 | 第四范式开发用于分子性质预测的生成式3D预训练模型
135 0
|
机器学习/深度学习 算法 决策智能
m基于HMM和博弈模型的LSTM互联网情感词性分类识别matlab仿真
m基于HMM和博弈模型的LSTM互联网情感词性分类识别matlab仿真
206 0
m基于HMM和博弈模型的LSTM互联网情感词性分类识别matlab仿真
|
机器学习/深度学习 算法 异构计算
突破神经网络限制,量子蒙特卡洛研究新进展登Nature子刊
突破神经网络限制,量子蒙特卡洛研究新进展登Nature子刊
170 0
|
机器学习/深度学习 编解码
Nature子刊 | 谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法
Nature子刊 | 谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法
下一篇
DataWorks