OneLLM,将所有模态和LLM Align的统一框架

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: OneLLM使用通用编码器和统一的投影模块与LLM对齐多模式输入,它还利用modality tokens 实现了在模态之间的切换。

引言


OneLLM使用通用编码器和统一的投影模块与LLM对齐多模式输入,它还利用modality tokens 实现了在模态之间的切换。



上图展现了OneLLM的四个重要的组件:不同模态的tokenizer,通用编码器,统一的投影模块,大语言模型。


  • 多模态token的tokenizer:将输入的各种模态的信号转换为token序列。
  • 通用编码器:通用编码器是在LAION上训练的CLIP VIT Large。
  • 统一的投影模块(UPM):统一投影模块将各个模块投影到LLM的embedding向量空间中。UPM有K=3个投影专家,每个专家有8个transformers块和88M个参数。
  • 大语言模型:OneLLM采用开源LLaMA2-7B。


OneLLM支持8种不同模态的数据的理解,包括:图像、音频、视频、点云、深度/法线图、IMU 和 fMRI 大脑活动。



OneLLM在视频-文本、音频-视频-文本、音频-文本等任务中优于现有方法,凸显了多模理解中的零样本能力。我们相信OneLLM会推动AI在语义理解上的进一步的发展。



模型使用和链接

OneLLM的模型权重已经开源到魔搭社区


论文链接:

https://arxiv.org/abs/2312.03700


模型权重链接:

https://modelscope.cn/models/csuhan/OneLLM-7B


模型下载代码:

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('csuhan/OneLLM-7B')

模型创空间:

https://modelscope.cn/studios/csuhan/OneLLM


image understanding:


video understanding:


audio understanding:



Github代码链接:https://github.com/csuhan/OneLLM


点击跳转Github链接~

https://github.com/csuhan/OneLLM

相关文章
|
15天前
|
机器学习/深度学习 自然语言处理
大语言模型(LLM)框架及微调 (Fine Tuning)
大语言模型(LLM)框架及微调 (Fine Tuning)
285 0
|
15天前
|
存储 人工智能 机器人
使用CLIP和LLM构建多模态RAG系统
在本文中我们将探讨使用开源大型语言多模态模型(Large Language Multi-Modal)构建检索增强生成(RAG)系统。本文的重点是在不依赖LangChain或LLlama index的情况下实现这一目标,这样可以避免更多的框架依赖。
257 0
|
10月前
|
机器学习/深度学习 存储 人工智能
LLM系列 | 19: ChatGPT应用框架LangChain实践速成
本文以实践的方式将OpenAI接口、ChatOpenAI接口、Prompt模板、Chain、Agent、Memory这几个LangChain核心模块串起来,从而希望能够让小伙伴们快速地了解LangChain的使用。
|
1天前
|
缓存 人工智能 自然语言处理
LLM 大模型学习必知必会系列(三):LLM和多模态模型高效推理实践
LLM 大模型学习必知必会系列(三):LLM和多模态模型高效推理实践
LLM 大模型学习必知必会系列(三):LLM和多模态模型高效推理实践
|
15天前
开箱黑盒LLM!谷歌大一统框架Patchscopes实战教程来了
【5月更文挑战第7天】谷歌推出Patchscopes框架,提升大型语言模型(LLM)的可解释性,通过分解LLM为可解释的Patch模型进行调试。本文提供实战教程,介绍如何安装Patchscopes库、加载预训练模型并查看模型解释性报告。虽然优势在于增强理解与问题定位,但Patchscopes适用模型有限,报告理解需专业知识,且计算成本高。[论文链接](https://arxiv.org/pdf/2401.06102.pdf)
13 1
|
15天前
|
开发框架 数据可视化 Windows
如何提升大模型Agent的能力 ——LLM Agent框架 Modelscope-Agent 实战
本文介绍Agent到底是什么 ,如何进行优化,以及如何使用Agen框架。
|
15天前
|
人工智能 自然语言处理 算法
分享几个.NET开源的AI和LLM相关项目框架
分享几个.NET开源的AI和LLM相关项目框架
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
|
15天前
|
机器学习/深度学习 人工智能 JSON
Prompt进阶系列1:LangGPT(从编程语言反思LLM的结构化可复用提示设计框架)
Prompt进阶系列1:LangGPT(从编程语言反思LLM的结构化可复用提示设计框架)
Prompt进阶系列1:LangGPT(从编程语言反思LLM的结构化可复用提示设计框架)
|
15天前
|
存储 JavaScript 测试技术
LangChain 开发LLM的框架
LangChain 开发LLM的框架

热门文章

最新文章