Prot2Chat:融合蛋白质序列与结构的新型问答框架

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: Prot2Chat:融合蛋白质序列与结构的新型问答框架

论文标题:

Prot2Chat: Protein LLM with Early Fusion of Sequence and Structure

论文链接:

https://arxiv.org/abs/2502.06846

模型链接:

https://www.modelscope.cn/models/wangzc025/prot2chat/files

01.论文解读

蛋白质在生物体中起着关键作用,但理解其功能面临诸多挑战,包括分类方法的灵活性不足、无法有效利用空间结构信息,以及缺乏系统的蛋白质问答系统评估指标。为了解决这些问题,本文提出了Prot2Chat,这是一个将蛋白质序列和结构信息与自然语言结合的新型框架,通过统一模块实现多模态蛋白质表示与自然语言的融合,并利用大语言模型(LLM)驱动答案生成。采用改进的ProteinMPNN编码器,以统一方式编码蛋白质序列和结构信息,并通过蛋白质-文本适配器和LLaMA3解码器实现跨注意力机制。为优化训练效率,本文作者冻结了编码器,并在解码器中应用了LoRA技术。实验结果表明,该模型在两个数据集上均表现出色,零样本预测结果也展示了其强大的泛化能力。

 

02.主要方法

2.1 序列和结构融合的蛋白质编码器作者改进了ProteinMPNN编码器,实现了序列和结构的早期融合。ProteinMPNN原本用于基于骨架结构设计蛋白质序列,输入为蛋白质残基原子的3D坐标。作者通过在解码器中引入序列嵌入,使得序列和结构信息在模型初始化时即融合。最终的蛋白质节点向量作为蛋白质特征输入到适配器中。

2.2 蛋白质-文本适配器

适配器通过线性投影层、位置编码和跨注意力机制将蛋白质编码器的信息与自然语言对齐。通过引入可学习的查询向量,适配器能够提取蛋白质特征中的关键语义信息,并将其转换为蛋白质提示。随后将蛋白质提示与文本问题结合后输入到LLM中,通过LoRA技术对LLM进行微调,以提高模型的领域适应性。Prot2Chat的总训练参数为93M,显著低于其他现有模型。

 

03.主要改进

3.1 改进现有的结构编码器 ProteinMPNN,无需训练即可实现结构和序列的早期融合。

3.2 基于这个蛋白质编码器,我们实现了一个仅含 93M 个训练参数的轻量级高效蛋白质大语言模型,能够实现蛋白质和文本信息的早期融合。

3.3 我们在各种评估数据集上进行了系统评估,以验证模型的生成能力和泛化能力。评估方式包括传统指标评估、在线大模型评估和人工专家评估。

04.解决的问题

该方法主要为解决蛋白质问答系统中分类方法生成内容灵活性不足、无法有效利用空间结构信息,以及缺乏系统的蛋白质问答系统评估指标等问题提出了新实现路径。

05.论文实验

本文通过利用Mol-Instructions和UniProtQA数据集以及多种不同的基线模型(如LLaMA3和BioMedGPT)来进行对比试验;并且使用BLEU和ROUGE等传统指标评估文本生成效果的同时利用在线KIMI模型评估生成答案与目标文本的相似度。还进行了专家手动评估,以验证模型输出的质量。

 

实验结果表明,直接将蛋白质序列输入LLM会导致生成的文本混乱无序。而整合结构信息后,模型性能显著提升。Prot2Chat在Mol-Instructions和UniProtQA数据集上的表现均优于其他基线模型,验证了其强大的泛化能力。

06.模型实践

python generate.py

-base_model_path=your_path_to_base_model

-lora_weight_path=your_path_to_lora_weight.pth

-pdb_path=your_path_to_pdbs

-checkpoint_path=your_path_to_adapter_checkpoint

-conversation_data_path=your_path_to_QAdata_test.json

image.gif 编辑

 

点击链接, 即可跳转模型链接~

https://www.modelscope.cn/models/wangzc025/prot2chat/files


目录
相关文章
|
6月前
|
人工智能 自然语言处理 物联网
"一丹一世界"二等奖 | TPSZ_二次元卡通梦幻插画风格-童梦拾光 创作分享
"一丹一世界"二等奖 | TPSZ_二次元卡通梦幻插画风格-童梦拾光 创作分享
141 7
|
6月前
|
机器学习/深度学习 编解码 缓存
通义万相2.1首尾帧模型开源!细节真实生动+过渡丝滑,指令遵循表现出色!
通义万相2.1首尾帧模型开源!细节真实生动+过渡丝滑,指令遵循表现出色!
754 7
|
6月前
|
人工智能 JavaScript Serverless
从零开始开发 MCP Server
本文介绍如何使用Serverless Devs CLI工具从零开发并一键部署MCP Server到阿里云函数计算(FC)。首先通过初始化MCP Server项目,完成本地代码编写,利用Node.js实现一个简单的Hello World工具。接着对代码进行打包,并通过Serverless Devs工具将项目部署至云端。部署完成后,提供三种客户端接入方式:官方Client、其他本地Client及在FC上部署的Client。最后可通过内置大模型的inspector测试部署效果。Serverless Devs简化了开发流程,提升了MCP Server的构建效率。
1268 120
|
6月前
|
人工智能 程序员 测试技术
AI 时代,为什么编程能力≠ 开发门槛
在 2.0 阶段,我们目标是实现面向任务的协同编码模式,人的主要职责转变为任务的下发、干预以及最后结果的审查。在这个过程中,人的实际工作量开始减轻,AI 工作的占比显著提升。目前的 2.0 版本是我们最近上线的。
498 93
|
6月前
|
人工智能 自然语言处理 监控
基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%
微软开源的MAI-DS-R1是基于DeepSeek R1改进的AI模型,通过后训练优化将敏感话题响应率提升至99.3%,同时将有害内容风险降低50%,保持原版推理能力并增强多语言支持。
527 3
基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%
|
6月前
|
编解码 开发者
ImagePulse图律脉动数据集开源发布:解码GPT-4o级图像生成能力,四大原子数据集+自动生成工具开放
ImagePulse图律脉动数据集开源发布:解码GPT-4o级图像生成能力,四大原子数据集+自动生成工具开放
136 3
|
6月前
|
消息中间件 人工智能 运维
乐言科技:云原生加速电商行业赋能,云消息队列助力降本 37%
乐言科技依托云原生架构及阿里云云原生产品体系,实现基础设施与业务解耦以及弹性调度,在提升业务稳定性的同时,显著增加研发效能并降低运维成本,加速电商客户定制化需求交付,推动云计算与 AI 技术在电商领域的深度融合。
389 102
|
人工智能 运维 数据可视化
阿里云百炼 MCP服务使用教程合集
阿里云百炼推出首个全生命周期MCP服务,支持一键部署、无需运维,具备高可用与低成本特点。该服务提供多类型供给、低成本托管及全链路工具兼容,帮助企业快速构建专属智能体。MCP(模型上下文协议)作为标准化开源协议,助力大模型与外部工具高效交互。教程涵盖简单部署、GitHub运营、数据分析可视化及文档自动化等场景,助您快速上手。欢迎加入阿里云百炼生态,共同推动AI技术发展!
5983 0
|
6月前
|
人工智能 Cloud Native Serverless
从理论到落地:MCP 实战解锁 AI 应用架构新范式
本文旨在从 MCP 的技术原理、降低 MCP Server 构建复杂度、提升 Server 运行稳定性等方面出发,分享我们的一些实践心得。
2493 103

热门文章

最新文章