Ola:清华联合腾讯等推出的全模态语言模型!实现对文本、图像、视频和音频的全面理解

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: Ola 是由清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型,支持文本、图像、视频和音频输入,并具备实时流式解码功能。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


大家好,我是蚝油菜花,今天跟大家分享一下 Ola 这个由清华大学、腾讯等团队联合推出的全模态语言模型。

🚀 快速阅读

Ola 是一个支持多种模态输入的语言模型,旨在实现对文本、图像、视频和音频的全面理解。

  1. 核心功能:支持多模态输入和实时流式解码。
  2. 技术原理:采用渐进式模态对齐策略,逐步扩展语言模型支持的模态,从图像和文本开始,再引入语音和视频数据。

Ola 是什么

Ola

Ola 是由清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型。该模型通过渐进式模态对齐策略,逐步扩展语言模型支持的模态,从图像和文本开始,再引入语音和视频数据,最终实现对多种模态的理解。Ola 的架构支持全模态输入,包括文本、图像、视频和音频,能够同时处理这些输入。

Ola 的设计不仅注重多模态输入的支持,还特别强调用户友好的实时流式解码功能,用于提升交互体验。这种设计使得 Ola 在多模态基准测试中表现出色,超越了现有的开源全模态 LLMs,在某些任务上甚至与专门的单模态模型相当。

Ola 的主要功能

  • 多模态理解:支持文本、图像、视频和音频四种模态的输入,能同时处理这些输入,在理解任务中表现出色。
  • 实时流式解码:支持用户友好的实时流式解码,可用于文本和语音生成,提供流畅的交互体验。
  • 渐进式模态对齐:通过逐步扩展语言模型支持的模态,从图像和文本开始,再引入语音和视频数据,实现对多种模态的理解。
  • 高性能表现:在多模态基准测试中性能卓越,超越了现有的开源全模态 LLMs,在某些任务上与专门的单模态模型相当。

Ola 的技术原理

Ola-Training

  • 渐进式模态对齐策略:Ola 的训练流程从最基础的模态(图像和文本)开始,逐步引入语音数据(连接语言和音频知识)以及视频数据(连接所有模态)。这种渐进式学习方法使模型能逐步扩展其模态理解能力,保持了跨模态对齐数据的规模相对较小,降低了从现有视觉-语言模型开发全模态模型的难度和成本。
  • 多模态输入与实时流式解码:Ola 支持全模态输入,包括文本、图像、视频和音频,能同时处理这些输入。Ola 设计了逐句解码方案,用于流式语音生成,支持用户友好的实时交互体验。
  • 跨模态数据的高效利用:为了更好地捕捉模态之间的关系,Ola 的训练数据包括传统的视觉和音频数据,还设计了跨模态视频-音频数据。数据通过视频中的视觉和音频信息构建桥梁,帮助模型学习模态之间的内在联系。
  • 高性能架构设计:Ola 的架构支持高效的多模态处理,包括视觉编码器、音频编码器、文本解码器和语音解码器。通过局部-全局注意力池化(Local-Global Attention Pooling)等技术,模型能更好地融合不同模态的特征。

如何运行 Ola

1. 克隆仓库

git clone https://github.com/Ola-Omni/Ola
cd Ola

2. 安装依赖包

conda create -n ola python=3.10 -y
conda activate ola
pip install --upgrade pip
pip install -e .

3. 安装额外的训练包

pip install -e ".[train]"
pip install flash-attn --no-build-isolation

4. 下载模型权重

下载 Ola-7b 模型权重,可以从HuggingFace获取,或者直接使用在线权重。

5. 下载音频编码器

HuggingFace下载音频编码器权重 large-v3.ptBEATs_iter3_plus_AS2M_finetuned_on_AS2M_cpt2.pt,并将它们放置在 path/to/Ola/pretrained 目录下。

6. 运行推理脚本

  • 文本与图像理解

    python3 inference/infer.py --image_path *.png,jpg --text user_instruction
    
  • 文本与视频理解

    python3 inference/infer.py --video_path *.mp4 --text user_instruction
    
  • 文本与音频理解

    python3 inference/infer.py --audio_path *.wav,mp3 --text user_instruction
    
  • 音频与图像理解

    python3 inference/infer.py --audio_path *.png,jpg --audio_path *.wav,mp3
    

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
4月前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
252 17
|
5月前
|
人工智能 中间件 API
别让创意卡在工具链!MiniMax MCP Server:MiniMax 开源 MCP 服务打通多模态生成能力,视频语音图像一键全搞定
MiniMax MCP Server 是基于模型上下文协议的多模态生成中间件,支持通过文本指令调用视频生成、图像创作、语音合成及声音克隆等能力,兼容主流客户端实现跨平台调用,采用检索增强生成技术保障内容准确性。
476 3
别让创意卡在工具链!MiniMax MCP Server:MiniMax 开源 MCP 服务打通多模态生成能力,视频语音图像一键全搞定
|
19天前
|
传感器 机器学习/深度学习 监控
【图像融合】差异的高斯:一种简单有效的通用图像融合方法[用于融合红外和可见光图像、多焦点图像、多模态医学图像和多曝光图像](Matlab代码实现)
【图像融合】差异的高斯:一种简单有效的通用图像融合方法[用于融合红外和可见光图像、多焦点图像、多模态医学图像和多曝光图像](Matlab代码实现)
|
编解码 人工智能 API
通义万相2.1视频/图像模型新升级!可在阿里云百炼直接体验
通义万相2.1模型推出新特征,包括复杂人物运动的稳定展现、现实物理规律的逼真还原及中英文视频特效的绚丽呈现。通过自研的高效VAE和DiT架构,增强时空上下文建模能力,支持无限长1080P视频的高效编解码,并首次实现中文文字视频生成功能。升级后的通义万相荣登VBench榜单第一,提供电影级分镜效果、四格漫画故事速览及情侣头像创意定制等多种玩法,满足多样化的视觉创作需求。可直接在阿里云百炼平台调用API体验这些功能。
3939 0
|
4月前
|
人工智能 弹性计算 智能设计
🎨 三步打造AI创意工坊 | 通义万相图像生成服务极速部署指南
🚀 从零到大师 | 通义万相智能创作系统部署指南
|
5月前
|
人工智能 自然语言处理 图形学
多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容
Neural4D 2o是DreamTech推出的突破性3D大模型,通过文本、图像、3D和运动数据的联合训练,实现高精度3D生成与智能编辑,为创作者提供全新的多模态交互体验。
253 0
多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容
|
7月前
|
人工智能 监控 自动驾驶
Migician:清北华科联手放大招!多图像定位大模型问世:3秒锁定跨画面目标,安防监控迎来AI革命!
Migician 是北交大联合清华、华中科大推出的多模态视觉定位模型,支持自由形式的跨图像精确定位、灵活输入形式和多种复杂任务。
198 3
Migician:清北华科联手放大招!多图像定位大模型问世:3秒锁定跨画面目标,安防监控迎来AI革命!
|
6月前
|
人工智能 自然语言处理 计算机视觉
StarVector:图像秒变矢量代码!开源多模态模型让SVG生成告别手绘
StarVector是由ServiceNow Research等机构联合开发的开源多模态视觉语言模型,能够将图像和文本转换为可编辑的SVG矢量图形,支持1B和8B两种规模,在SVG生成任务中表现出色。
380 0
StarVector:图像秒变矢量代码!开源多模态模型让SVG生成告别手绘
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
Baichuan-Omni-1.5:百川智能开源全模态理解与生成模型,支持文本、图像、音频和视频的多模态输入和输出
Baichuan-Omni-1.5 是百川智能开源的全模态理解模型,支持文本、图像、音频和视频的多模态输入和输出,显著提升多模态交互体验。
578 22
Baichuan-Omni-1.5:百川智能开源全模态理解与生成模型,支持文本、图像、音频和视频的多模态输入和输出
|
6月前
|
数据采集 机器学习/深度学习 数据挖掘
基于DeepSeek的多模态融合技术:实现图像、视频与音频的协同分析
随着多媒体数据的爆炸式增长,单一模态数据分析已无法满足复杂场景需求。多模态融合技术通过整合图像、视频、音频等多源数据,提供更全面精准的分析结果。DeepSeek作为强大的深度学习框架,在多模态融合领域展现巨大潜力。本文深入探讨基于DeepSeek的多模态融合技术,结合代码示例展示其在图像、视频与音频协同分析中的实际应用,涵盖数据预处理、特征融合、模型训练及评估等环节,并展望未来发展方向。
1265 13

热门文章

最新文章