ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: ProtGPS 是麻省理工学院和怀特黑德研究所联合开发的蛋白质语言模型,能够预测蛋白质在细胞内的亚细胞定位,并设计具有特定亚细胞定位的新型蛋白质。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🧪 「Western Blot再见!MIT蛋白质AI颠覆实验室:亚细胞定位5分钟出结果,还能设计「导航蛋白」」

大家好,我是蚝油菜花。如果你也在生物实验室经历过——

  • 👉 花3周做荧光标记,只为一个蛋白质的亚定位
  • 👉 熬夜设计突变体,却被导师说「定位预测不靠谱」
  • 👉 想定制靶向蛋白,却卡在序列设计第一步...

今天介绍的 MIT ProtGPS 将彻底改变游戏规则!这个登上《Nature Machine Intelligence》的AI模型,只需输入氨基酸序列:

  • ✅ 5分钟预测12种亚细胞定位概率
  • ✅ 自动生成能精准导航到核仁/核斑点的蛋白质
  • ✅ 揪出导致定位异常的致病突变

现在,连诺奖得主实验室都在用它加速癌症靶点研究——你的移液枪准备好迎接AI革命了吗?

🚀 快速阅读

ProtGPS 是一个基于深度学习的蛋白质语言模型,主要用于预测蛋白质在细胞内的亚细胞定位。

  1. 核心功能:预测蛋白质在12种不同亚细胞区域的分布概率,生成具有特定亚细胞定位的新型蛋白质序列。
  2. 技术原理:基于 ESM2 架构的 Transformer 模型,结合神经网络分类器,学习蛋白质序列中的复杂模式和相互关系。

ProtGPS 是什么

ProtGPS

ProtGPS(Protein Localization Prediction Model)是由麻省理工学院(MIT)和怀特黑德生物医学研究所联合开发的蛋白质语言模型。该模型旨在通过分析蛋白质的氨基酸序列,预测其在细胞内的亚细胞定位。ProtGPS 基于进化尺度的蛋白质变换器(Transformer)架构,能够学习蛋白质序列中的复杂模式和相互关系,从而预测蛋白质在12种不同亚细胞区域(如核仁、核斑点等)的分布概率。

ProtGPS 的独特之处在于它不仅能预测蛋白质的定位,还能生成新的蛋白质序列,使其特异性地组装到特定的亚细胞区域。此外,ProtGPS 还可以识别导致蛋白质亚细胞定位改变的致病突变,为理解细胞功能和疾病机制提供了新的工具和视角。

ProtGPS 的主要功能

  • 预测蛋白质定位:预测蛋白质在12种不同亚细胞区域(如核仁、核斑点、应激颗粒等)的定位概率。
  • 设计特异性蛋白质:生成新的蛋白质序列,使其特异性地组装到目标亚细胞区域(如核仁或核斑点)。
  • 识别致病突变:分析突变对蛋白质亚细胞定位的影响,预测致病突变是否会导致蛋白质分布异常。

ProtGPS 的技术原理

  • 基于 Transformer 的序列学习:ProtGPS 使用 ESM2(Evolutionary Scale Model 2)架构,这是一种基于 Transformer 的蛋白质语言模型。它能够同时学习输入序列中所有氨基酸之间的关系,捕捉蛋白质序列中的复杂模式和相互作用。
  • 神经网络分类器联合训练:将 ESM2 与神经网络分类器联合训练,分类器的任务是根据 ESM2 提取的特征,预测蛋白质在不同亚细胞区域的定位概率。训练数据集包括5480个人类蛋白质序列,这些序列被注释为属于12种不同的亚细胞区域。
  • 生成蛋白质序列的算法:为了设计具有特定亚细胞定位的蛋白质,ProtGPS 使用马尔可夫链蒙特卡洛(MCMC)算法。该算法在生成蛋白质序列时考虑了蛋白质的化学空间和内在无序性,确保生成的序列符合自然蛋白质的分布,并能特异性地定位到目标亚细胞区域。
  • 致病突变分析:ProtGPS 通过比较野生型和突变型蛋白质的定位预测结果,识别那些导致蛋白质分布改变的突变。使用信息论中的 Shannon 熵和 Wasserstein 距离来量化突变对蛋白质定位预测不确定性的影响。

如何运行 ProtGPS

1. 安装环境

首先,安装 mamba(推荐)或 conda:

bash Miniforge-pypy3-Linux-x86_64.sh

然后创建并激活环境:

mamba env create -f environment.yml
mamba activate protgps

2. 下载模型检查点

zenodo下载模型检查点并解压到 checkpoints/protgps 文件夹。

3. 加载预训练模型

加载 ESM2 和 DR-BERT 模型:

import torch
torch.hub.set_dir("checkpoints/esm2")
model, alphabet = torch.hub.load("facebookresearch/esm:main", "esm2_t6_8M_UR50D")

from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Dr-BERT/DrBERT-7GB", cache_dir="checkpoints/drbert")
model = AutoModel.from_pretrained("Dr-BERT/DrBERT-7GB", cache_dir="checkpoints/drbert")

4. 训练

运行以下命令进行训练:

python scripts/dispatcher.py --config configs/protein_localization/full_prot_comp_pred.json --log_dir /path/to/logdir

5. 推理

编辑并运行 notebook/Predict.ipynb 笔记本来进行预测。

6. 生成蛋白质

生成具有特定亚细胞定位的蛋白质:

cd esm/examples/lm-design
./generate_nucleolus.sh
./generate_nuclear_speckle.sh

7. 分析

分析脚本位于 notebook/Analysis.ipynb,使用的数据可以从zenodo repository获取。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
用AI精准定位问题代码,调试时间直接砍半!LocAgent:斯坦福开源代码调试神器,多跳推理锁定问题代码
LocAgent是由斯坦福大学、耶鲁大学等顶尖机构联合开发的代码定位框架,通过将代码库转化为图结构并利用大语言模型的多跳推理能力,实现精准的问题代码定位。
409 1
用AI精准定位问题代码,调试时间直接砍半!LocAgent:斯坦福开源代码调试神器,多跳推理锁定问题代码
|
6月前
|
机器学习/深度学习 人工智能 算法
PRefLexOR:MIT自进化AI框架上线!动态知识图谱+跨域推理,重塑自主思考
PRefLexOR 是 MIT 团队推出的新型自学习 AI 框架,结合偏好优化和强化学习,通过递归推理和多步反思,动态生成知识图谱,支持跨领域推理和自主学习。
292 3
PRefLexOR:MIT自进化AI框架上线!动态知识图谱+跨域推理,重塑自主思考
|
6月前
|
人工智能
MIT 76页深度报告:AI加速创新马太效应,科学家产出分化加剧!缺乏判断力将被淘汰
近日,麻省理工学院(MIT)发布了一份76页的深度研究报告,探讨AI对科学发现和创新的影响。研究对象为1018名美国科学家,结果显示AI使新材料发现增加44%,专利申请增长39%,产品创新提升17%。然而,AI对高能力科学家的产出提升更显著,加剧了科学家间的分化。AI还改变了科学家的工作内容,减少了创意构思时间,增加了评估任务,导致工作满意度下降,但科学家对AI的信心增强。报告全面分析了AI带来的机遇与挑战。论文地址:https://conference.nber.org/conf_papers/f210475.pdf
244 14
|
7月前
|
人工智能 监控 自动驾驶
Migician:清北华科联手放大招!多图像定位大模型问世:3秒锁定跨画面目标,安防监控迎来AI革命!
Migician 是北交大联合清华、华中科大推出的多模态视觉定位模型,支持自由形式的跨图像精确定位、灵活输入形式和多种复杂任务。
210 3
Migician:清北华科联手放大招!多图像定位大模型问世:3秒锁定跨画面目标,安防监控迎来AI革命!
|
7月前
|
机器学习/深度学习 人工智能 搜索推荐
BioEmu:微软黑科技炸场!生成式AI重构蛋白质模拟:千倍效率碾压传统计算,新药研发周期砍半
BioEmu 是微软推出的生成式深度学习系统,可在单个 GPU 上每小时生成数千种蛋白质结构样本,支持模拟动态变化、预测热力学性质,并显著降低计算成本。
350 2
BioEmu:微软黑科技炸场!生成式AI重构蛋白质模拟:千倍效率碾压传统计算,新药研发周期砍半
|
8月前
|
机器学习/深度学习 人工智能
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
近日,斯坦福大学和加州大学伯克利分校在《科学》杂志发表重要成果,发现DNA Scaling Law规律,揭示了DNA、RNA和蛋白质分子长度与碱基对数量之间的比例关系。该研究为AI设计生物分子带来突破,通过数据收集、模型训练和优化设计等步骤,显著提高设计效率和准确性,降低成本,并拓展应用范围。论文地址:https://www.science.org/doi/10.1126/science.ado9336。
185 26
|
7月前
|
存储 人工智能
Scaling Law或将终结?哈佛MIT预警:低精度量化已无路可走,重磅研究掀翻AI圈
哈佛大学和麻省理工学院的研究人员最近发布了一项重磅研究,对Scaling Law在低精度量化中的应用提出严重质疑。研究表明,随着训练数据增加,低精度量化带来的性能损失也增大,且与模型大小无关。这挑战了通过增加规模提升性能的传统观点,提醒我们在追求效率时不能忽视性能损失。该研究结果在AI圈内引发广泛讨论,提示未来需探索其他方法来提高模型效率,如混合精度训练、模型压缩及新型硬件架构。论文地址:https://arxiv.org/pdf/2411.04330。
164 11
|
8月前
|
机器学习/深度学习 人工智能 算法
Nature:AI也许可以拥有常识,但不是现在
人工智能(AI)的快速发展引发了关于其是否能拥有常识的讨论。尽管AI在特定任务上取得进展,但目前仍缺乏真正的常识理解。常识涉及对物理世界、社会规范和文化背景的理解,难以通过数据和算法完全捕捉。研究人员正通过大规模语言模型和强化学习等方法提升AI的常识能力,但仍面临显著局限性,如对物理世界的直观理解不足、社会文化背景理解欠缺以及常识能力的通用性差等问题。未来,多模态学习和与人类交互有望增强AI的常识能力。
174 20
|
7月前
|
机器学习/深度学习 存储 人工智能
预定下一个诺奖级AI?谷歌量子纠错AlphaQubit登Nature,10万次模拟实验创新里程碑
谷歌的量子纠错算法AlphaQubit近日登上《自然》杂志,被誉为量子计算纠错领域的重大突破。量子比特易受环境噪声干扰,导致计算错误,而AlphaQubit通过神经网络学习噪声模式,显著提升纠错准确性。实验结果显示,它在Sycamore处理器和Pauli+模拟器上表现优异,优于现有解码算法。尽管面临资源需求高等挑战,AlphaQubit为实用化量子计算带来新希望,并可能推动其他领域创新。论文详见:https://www.nature.com/articles/s41586-024-08148-8
159 5
|
8月前
|
机器学习/深度学习 人工智能 测试技术
登上Nature的AI芯片设计屡遭质疑,谷歌发文反击,Jeff Dean:质疑者连预训练都没做
2020年,谷歌的AlphaChip在Nature上发表并开源,其深度强化学习方法能生成超越人类水平的芯片布局,引发AI在芯片设计领域的研究热潮。然而,ISPD 2023的一篇论文对其性能提出质疑,指出未按Nature论文方法运行、计算资源不足等问题。谷歌DeepMind团队回应,强调AlphaChip已在多代TPU和Alphabet芯片中成功应用,并批驳ISPD论文的主要错误。此外,针对Igor Markov的“元分析”和无根据猜测,谷歌提供了详细的时间线和非机密部署情况,澄清事实并重申AlphaChip的开放性和透明度。
147 13

热门文章

最新文章