准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

简介: 【8月更文挑战第29天】浙江大学团队在《Nature》子刊上发表的论文介绍了一款名为EditRetro的基于Transformer架构的化学逆合成预测模型,其准确率高达60.8%,为化学合成领域带来了革命性的变化。此模型无需依赖传统化学反应模板,具备更强的泛化能力和多样化合成路线生成能力,在药物研发和材料科学领域展现出巨大潜力,尽管仍存在一定的错误率和计算资源需求高等挑战。论文详情见:https://www.nature.com/articles/s41467-024-50617-1。

最近,一篇由浙江大学团队发表在Nature子刊上的论文引起了广泛关注。该论文介绍了一种基于Transformer的化学逆合成预测模型,名为EditRetro,该模型在准确性方面取得了显著突破,准确率达到了60.8%。这一研究成果对于化学合成领域具有重要意义,有望为药物研发和材料科学等领域带来革命性的变化。

化学逆合成预测是化学合成领域的一项关键技术,它涉及将目标分子分解为更简单的前体分子,以便于合成。传统的逆合成预测方法主要依赖于化学家的经验和直觉,效率较低且容易出错。而EditRetro模型的出现,为解决这一问题提供了新的思路。

EditRetro模型基于Transformer架构,这是一种在自然语言处理领域广泛应用的深度学习模型。通过将化学逆合成预测问题转化为序列到序列的预测问题,EditRetro模型能够自动学习到化学反应的模式和规律,从而提高预测的准确性和效率。

在实验中,EditRetro模型在两个广泛使用的基准数据集上进行了评估,分别是USPTO-50K和USPTO-FULL。结果显示,EditRetro模型在准确性方面明显优于其他基线模型,包括基于模板的方法和无模板的方法。具体而言,EditRetro模型在USPTO-50K数据集上的准确率达到了60.8%,而在USPTO-FULL数据集上的准确率也达到了52.2%。

除了准确性方面的优势,EditRetro模型还具有其他一些优点。首先,它是一种无模板的方法,不需要依赖预先定义的化学反应模板,因此具有更好的泛化能力。其次,EditRetro模型能够生成多样化的合成路线,这对于药物研发等需要探索多种可能性的领域尤为重要。

然而,EditRetro模型也存在一些局限性。首先,它的准确率虽然已经很高,但仍然没有达到100%,这意味着在实际应用中仍然存在一定的错误率。其次,EditRetro模型的训练和推理过程相对复杂,需要大量的计算资源和时间。

尽管存在这些局限性,但EditRetro模型的出现仍然为化学逆合成预测领域带来了新的希望。它不仅提高了预测的准确性和效率,还为化学家提供了一种强大的工具,可以帮助他们更快地设计出新的合成路线。未来,随着技术的不断进步,相信EditRetro模型的性能还会进一步提升,并在更多的实际应用中发挥作用。

论文链接:https://www.nature.com/articles/s41467-024-50617-1

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 芯片
牛津光计算论文登Nature正刊,分析帕金森患者步态准确率达92.2%
【9月更文挑战第23天】牛津大学研究人员在《自然》杂志上发表了一篇关于光计算的重要论文,展示了一种利用光的局部相干性增强光子计算并行性的新方法。该技术通过部分相干光与重建方法结合,提高了处理效率和并行性,同时降低了对相移器和微环谐振器的依赖,展示了在光子张量核心中的应用潜力,并在实际计算任务中实现了高准确率。这项突破有望推动光子处理器在人工智能领域的广泛应用。
41 5
|
2月前
|
人工智能 自然语言处理 算法
GPT-4无师自通预测蛋白质结构登Nature子刊!LLM全面进军生物学,AlphaFold被偷家?
【9月更文挑战第17天】近日,《自然》子刊发表的一篇论文展示了GPT-4在预测蛋白质结构方面的惊人能力,这一突破不仅揭示了大型语言模型在生物学领域的巨大潜力,还可能影响传统预测工具如AlphaFold的地位。研究人员发现,GPT-4仅通过自然语言处理就能准确预测蛋白质的三维结构,包括常见的氨基酸序列和复杂的α-螺旋结构。实验结果显示,其预测精度与实际结构非常接近。这一成果意味着自然语言处理技术也可应用于生物学研究,但同时也引发了关于其局限性和对现有工具影响的讨论。论文详情见:https://www.nature.com/articles/s41598-024-69021-2
50 8
|
2月前
|
机器学习/深度学习
数百万晶体数据训练、解决晶体学相位问题,深度学习方法PhAI登Science
【9月更文挑战第5天】近期,《科学》杂志报道了一项名为PhAI的深度学习技术,在晶体学相位问题上取得重要突破。相位问题旨在确定晶体中分子或原子的位置与方向,对理解其物理化学特性至关重要。PhAI通过数百万晶体数据训练,能高效准确地解决这一难题,有望大幅提升研究效率,加速新材料和药物的设计。但其准确性及对未知结构处理能力仍面临挑战。论文详情参见:https://www.science.org/doi/10.1126/science.adn2777。
42 1
|
4月前
|
人工智能 算法 数据挖掘
语义熵识破LLM幻觉!牛津大学新研究登Nature
【7月更文挑战第22天】牛津大学研究者在Nature发布"使用语义熵检测大模型幻觉"。语义熵新方法有效识别大模型(LLMs)生成的不实或误导信息,通过聚类分析不同回答的语义等价性并计算概率,展示超越基线的幻觉检测能力,提升LLMs的可靠性。
137 7
|
5月前
|
数据采集 人工智能 算法
ICLR 2024 Spotlight:单模型斩获蛋白质突变预测榜一!西湖大学提出基于结构词表方法
【6月更文挑战第1天】西湖大学团队研发的蛋白质语言模型SaProt,在结构词表方法下,于蛋白质突变预测任务中荣登榜首。SaProt利用Foldseek编码的结构标记理解蛋白质行为,超越现有基准模型,在10个下游任务中表现出色。尽管训练资源需求大,且有特定任务优化空间,但该模型为生物医学研究带来新工具,促进科学理解与合作。论文链接:[https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4](https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4)
190 7
|
人工智能 算法 图形学
山大SIGGRAPH 2023 最佳论文得主分享:点云法向估计及保特征重建
山大SIGGRAPH 2023 最佳论文得主分享:点云法向估计及保特征重建
231 0
|
6月前
|
存储 计算机视觉
【论文速递】WACV2023 - 循环相似注意力的小样本医学图像分割
【论文速递】WACV2023 - 循环相似注意力的小样本医学图像分割
|
机器学习/深度学习 自然语言处理 算法
KDD 2023 | 第四范式开发用于分子性质预测的生成式3D预训练模型
KDD 2023 | 第四范式开发用于分子性质预测的生成式3D预训练模型
124 0
|
机器学习/深度学习 人工智能 编解码
ICLR 2023 | 初探AI拼图模型预测蛋白质复合物结构
ICLR 2023 | 初探AI拼图模型预测蛋白质复合物结构
125 0
|
机器学习/深度学习 编解码
Nature子刊 | 谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法
Nature子刊 | 谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法