一天之内,两大AI预测蛋白结构算法开源,分别登上Nature、Science

简介: 这是科学激动人心的新一步。我们将直播解读这两研究,详见文后。

使用 氨基酸 序列预测蛋白质形状的 AphaFold2,终于开源了。


众所周知,蛋白质是生命活动的基本组件,它们可以单独存在,也会协同工作。为了发挥作用,这些长链氨基酸扭曲、折叠并交织成复杂的形状,这些形状可能很难,甚至根本不可能破译。


科学家们一直在梦想通过基因序列简单地预测蛋白质形状——如果能够成功,这将开启一个洞察生命运作机理的新世界。然而近五十年来,人们的进展缓慢。


7 月 15 日,《自然》杂志一篇论文被接收的消息引发了人们的关注,谷歌旗下人工智能公司 DeepMind 在研究《Highly accurate protein structure prediction with AlphaFold》中宣布,人们首次发现了一种通过计算来预测蛋白质结构的方法。即使在不知道相似结构的情况下,AI 也可以在原子层面上精确预测蛋白质结构。也就是说,之前备受关注的 AlphaFold2 终于开源了。


image.png


无独有偶,作为相当热门的研究领域,Science 同样在今天发表了一篇论文,介绍并开源了一个可媲美 AlphaFold2 的新工具 RoseTTAFold。


所以说,赛马了,感兴趣的同学可以自由选择。


AlphaFold2 开源,原子精度预测蛋白质结构


2020 年 12 月的国际蛋白质结构预测竞赛 CASP ,一项重磅成果引发了科技界所有人的关注:由 DeepMind 开发的 AlphaFold 2 击败一众选手,在准确性方面达到比肩人类实验结果,被认为是蛋白质折叠问题的解决方案。


image.png

在两年一次的 CASP 竞赛中,各组争先预测蛋白质的 3D 结构。2020,AlphaFold 击败了所有其他小组,并在准确性方面与实验结果相匹配。它能以就计算机方法而言前所未有的准确度根据蛋白质的氨基酸序列预测其三维结构。


这破解了出现五十年之久的蛋白质分子折叠问题,同时证明了 AI 对于科学发现,尤其是基础科学研究的影响。


科学家们纷纷表示,这项突破极具意义。Alphafold 的突破性研究成果将帮助科研人员弄清引发某些疾病的机制,并为设计药物、农作物增产,以及可降解塑料的「超级酶」研发铺平道路。


因此,这段时间以来,科研圈也在等待 AlphaFold 2 的技术细节。


不久之前,Demis Hassabis 就曾在 Twitter 上表示 DeepMind 将开源 AlphaFold2,如今终于兑现承诺。


7 月 15 日,Demis Hassabis、John Jumper 等人在 Nature 杂志上发表了文章《Highly accurate protein structure prediction with AlphaFold》,描述并开源了 AlphaFold2,它预测的蛋白质结构能达到原子水平的准确度。


image.png



在文章中,DeepMind 表示 AlphaFold 可以周期性的以原子精度预测蛋白质结构。在技术上,AlphaFold 利用多序列对齐,进行深度学习算法的设计,还结合了关于蛋白质结构的物理和生物学知识提升效果。


作为通讯作者之一,Demis Hassabis 在一段声明中写到,「去年在 CASP14 大会上我们揭晓了一个可以将蛋白质 3D 结构预测精确到原子水平的全新 AlphaFold 系统,此后我们承诺会分享我们的方法,并为科学共同体提供广泛、免费的获取途径。今天我们迈出了承诺的第一步,在《自然》期刊上分享 AlphaFold 的开源代码,并发表了系统的完整方法论,详尽细致说明 AlphaFold 是如何做到精确预测蛋白质 3D 结构的。作为一家致力于推动科学进步的公司,我们期待看到我们的方法将为科学界启发出什么其他新的研究方法,也期待很快能和大家分享更多我们的新进展。」


AlphaFlod 首次参加 CASP 就在 98 名参赛者中名列榜首,准确地从 43 种蛋白质中预测出了 25 种蛋白质的结构。而同组比赛中获得第二名的参赛者仅准确预测出了 3 种。AlphaFold 专注于从头开始建模目标形状,且并不使用先前已经解析的蛋白质作为模板。在大多数情况下,AlphaFold 的准确性与实验相媲美,大大优于其他方法。


image.png

图 1:AlphaFold 产出高准确度的架构。


AlphaFold 网络直接预测给定蛋白质的所有重原子的三维坐标,使用基本氨基酸序列和同源序列的对齐序列作为输入 (如图 1e)。


AlphaFold 网络由两个主要部分组成。首先,网络的主干通过一个称为 Evoformer 的新神经网络块的重复层来处理输入,产生一个 Nseq × Nres 阵列 (Nseq: 序列数,Nres: 残差数) ,它表示一个处理过的 MSA 和一个表示剩余对的 Nres × Nres 阵列。Evoformer 块包含许多新颖的基于注意力和非基于注意力的成分,它的关键创新是与 MSA 交换信息的新机制,并能直接推理空间和进化关系的配对表征。


网络的主干之后是结构模块(Structure Module),该模块以蛋白质的每个残基的旋转和平移的形式引入了显式的 3-D 结构。这些表征在微不足道的状态下初始化,所有旋转设置为同一性(identity),所有位置设置为原点,但能够快速开发和完善具有精确原子细节的高度准确的蛋白质结构。这部分网络的关键创新包括打破链原子结构,允许同时局部细化结构的所有部分,一个新的「equivariant transformer」允许网络隐式地推理未表示的侧链原子,以及损失项可对残基方向的正确性赋予重要权重。


image.png

图 3:架构细节


image.png

图 4:解释神经网络


更多细节大家可以查看 Nature 原文与 DeepMind 提供的补充材料。


最后提一句,也不知是何原因,该论文未经编辑就出版了(5 月接收、7 月发表),难道是知道今天 Science 也将发表论文介绍一个可与 AlphaFold2 相匹配的研究?也就是下面这一篇。


华盛顿大学等开发媲美 AlphaFold2 的新工具 RoseTTAFold

DeepMind 在 2020 年的 CASP14 会议上展示了其在该领域的显著成果AlphaFold2,当时该技术在预测蛋白质方面取得了排名第一的准确率。


华盛顿大学医学院蛋白质设计研究所(Institute for Protein Design)的研究者们很大程度上重现了 DeepMind 在蛋白质预测任务上的表现,他们联合哈佛大学、德克萨斯大学西南医学中心、剑桥大学、劳伦斯伯克利国家实验室等机构研发出了一款基于深度学习的蛋白质预测新工具 RoseTTAFold,在预测蛋白质结构上取得了媲美 AlphaFold2 的超高准确率,而且速度更快、所需要的计算机处理能力也较低


这项研究已经在 Science 上发表。


image.png


论文链接:https://science.sciencemag.org/content/early/2021/07/14/science.abj8754


华盛顿大学医学院团队也向社区开源了该工具,来自世界各地的科学家都可以使用它来构建蛋白质模型,加速自己的研究。在上传至 GitHub 后不久,该工具就已被 140 多个独立研究团队下载。


image.png


项目地址 https://github.com/RosettaCommons/RoseTTAFold


具体地,在这项研究中,华盛顿大学医学院生物化学系教授、蛋白质设计研究所所长 David Baker 领导的计算生物学家团队开发了一款叫做「RoseTTAFold」的软件工具,该工具利用深度学习技术,根据有限信息准确、快速地预测蛋白质结构,原本这一工作需要数年的实验室研究。


从结构上来看,RoseTTAFold 是一个三轨(three-track)神经网络,意味着它可以兼顾蛋白质序列的模式、氨基酸如何相互作用以及蛋白质可能的三维结构。在这种结构中,一维、二维、三维信息来回流动,使得网络能够集中推理蛋白质的化学部分与它的折叠结构。


下图 A 为具有 1D、2D 和 3D 注意力轨迹(attention track)的 RoseTTAFold 架构;B 为 CASP14 目标上蛋白质预测方法的平均 TM-score;C 为 CAMEO 中介(medium)和硬(hard)目标的盲基准测试结果。


image.png

RoseTTAFold 方法的准确率比目前可用的方法高得多,因而研究者想要测试是否可以利用它解决以前未解决且具有挑战性的 MR 问题,并改进临界个案的解决方案。四个最近的晶体数据集,包括牛属甘氨酸 N - 酰基转移酶(GLYAT)、细菌氧化还原酶以及细菌表面层蛋白(SLP)(下图 A)和来自真菌平革菌属金孢子菌属的分泌蛋白(下图 B),基于 PDB 蛋白质数据库中可用的模型无法利用 MR 解决,因此研究者使用 RoseTTAFold 模型进行了重新分析:


image.png


另一方面,RoseTTAFold 能够利用一台游戏计算机在短短 10 分钟内计算出蛋白质结构。研究者使用 RoseTTAFold 计算出了数百种新的蛋白质结构,其中包括许多人类基因组中认知甚少的蛋白质。此外,他们还生成了与人类健康直接相关的一些蛋白质结构,包括与有问题的脂质代谢、炎症和癌细胞生长相关的蛋白质。他们还表明,RoseTTAFold 可以用于建立复杂生物的模型,所需时间只是以前所需时间的一小部分。


下图为使用 RoseTTAFold 的蛋白质预测流程。其中,A 和 B 是从序列信息中预测大肠杆菌蛋白复合物的结构;C 表示由 RoseTTAFold 生成的 IL-12R/IL-12 复合结构符合以前发表的低温电子显微镜(cryo-EM)密度(EMD-21645)。


image.png



论文一作、华盛顿大学博士后研究员 Minkyung Baek 表示:「我们希望这个新工具将造福整个研究领域。」


参考链接:https://newsroom.uw.edu/news/accurate-protein-structure-prediction-now-accessible-all

https://www.nature.com/articles/s41586-021-03819-2

相关文章
|
8天前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
34 6
|
25天前
|
机器学习/深度学习 人工智能
打开AI黑匣子,三段式AI用于化学研究,优化分子同时产生新化学知识,登Nature
【10月更文挑战第11天】《自然》杂志发表了一项突破性的化学研究,介绍了一种名为“Closed-loop transfer”的AI技术。该技术通过数据生成、模型训练和实验验证三个阶段,不仅优化了分子结构,提高了光稳定性等性质,还发现了新的化学现象,为化学研究提供了新思路。此技术的应用加速了新材料的开发,展示了AI在解决复杂科学问题上的巨大潜力。
25 1
|
26天前
|
存储 人工智能 uml
介绍一款好用的开源画图神器-draw.io | AI应用开发
draw.io 是一款基于浏览器的开源绘图工具,无需安装即可使用,支持多种操作系统和设备。其简洁的界面、丰富的形状库、智能对齐功能和强大的云端协作能力,使其成为专业人士和创意爱好者的首选。无论是产品设计、流程图绘制还是思维导图构建,draw.io 都能满足你的多样化需求。【10月更文挑战第7天】
82 0
|
8天前
|
存储 人工智能 SEO
全开源免费AI网址导航网站源码
Aigotools 可以帮助用户快速创建和管理导航站点,内置站点管理和自动收录功能,同时提供国际化、SEO、多种图片存储方案。让用户可以快速部署上线自己的导航站。
19 1
|
24天前
|
人工智能 Java API
阿里云开源 AI 应用开发框架:Spring AI Alibaba
近期,阿里云重磅发布了首款面向 Java 开发者的开源 AI 应用开发框架:Spring AI Alibaba(项目 Github 仓库地址:alibaba/spring-ai-alibaba),Spring AI Alibaba 项目基于 Spring AI 构建,是阿里云通义系列模型及服务在 Java AI 应用开发领域的最佳实践,提供高层次的 AI API 抽象与云原生基础设施集成方案,帮助开发者快速构建 AI 应用。本文将详细介绍 Spring AI Alibaba 的核心特性,并通过「智能机票助手」的示例直观的展示 Spring AI Alibaba 开发 AI 应用的便利性。示例源
|
22天前
|
机器学习/深度学习 人工智能 算法
"拥抱AI规模化浪潮:从数据到算法,解锁未来无限可能,你准备好迎接这场技术革命了吗?"
【10月更文挑战第14天】本文探讨了AI规模化的重要性和挑战,涵盖数据、算法、算力和应用场景等方面。通过使用Python和TensorFlow的示例代码,展示了如何训练并应用一个基本的AI模型进行图像分类,强调了AI规模化在各行业的广泛应用前景。
27 5
|
29天前
|
人工智能 Java API
阿里云开源 AI 应用开发框架:Spring AI Alibaba
阿里云开源 Spring AI Alibaba,旨在帮助 Java 开发者快速构建 AI 应用,共同构建物理新世界。
|
29天前
|
机器学习/深度学习 人工智能 TensorFlow
解锁AI潜力:让开源模型在私有环境绽放——手把手教你搭建专属智能服务,保障数据安全与性能优化的秘密攻略
【10月更文挑战第8天】本文介绍了如何将开源的机器学习模型(如TensorFlow下的MobileNet)进行私有化部署,包括环境准备、模型获取与转换、启动TensorFlow Serving服务及验证部署效果等步骤,适用于希望保护用户数据并优化服务性能的企业。
48 4
|
30天前
|
机器学习/深度学习 人工智能 算法
Nature子刊:AI模型测大脑年龄,究竟哪些因素会加速大脑衰老?
【10月更文挑战第7天】《自然医学》杂志近期发布了一项研究,介绍了一种名为BrainAge的人工智能模型,该模型可预测个体的大脑年龄并分析影响大脑衰老的因素。研究团队来自美国加州大学旧金山分校,利用英国生物银行的近50,000名参与者的数据,发现高血压、糖尿病、肥胖、吸烟、饮酒、缺乏运动及遗传因素均与大脑衰老有关。尽管存在数据集限制等局限性,BrainAge模型仍为研究大脑衰老和相关疾病提供了重要工具。
41 1
|
1月前
|
人工智能 编解码 文字识别
阿里国际AI开源Ovis1.6,多项得分超GPT-4o-mini!
阿里国际AI团队提出了一种名为Ovis (Open VISion)的新型多模态大模型的架构。
下一篇
无影云桌面