VITRON:开源像素级视觉大模型,同时满足图像与视频理解、生成、分割和编辑等视觉任务

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
简介: VITRON 是由 Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大模型,支持图像与视频的理解、生成、分割和编辑,适用于多种视觉任务。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能全面:VITRON 支持图像与视频的理解、生成、分割和编辑,涵盖多种视觉任务。
  2. 技术先进:基于编码器-LLM-解码器架构,结合离散文本指令和连续信号嵌入,实现精确功能调用。
  3. 应用广泛:适用于图像编辑、视频内容创作、在线教育、电子商务和新闻媒体等多个领域。

正文(附运行示例)

VITRON 是什么

公众号: 蚝油菜花 - Vitron

VITRON 是由 Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大型语言模型(LLM)。它能够全面理解和处理静态图像与动态视频,支持从视觉理解到视觉生成的多种任务。VITRON 结合了前端的视觉编码器和后端的视觉专家系统,通过混合方法传递信息,结合离散文本指令和连续信号嵌入,实现精确的功能调用。

VITRON 的设计目标是解决现有视觉大模型在实例级理解、图像与视频统一支持以及视觉任务覆盖范围方面的不足。通过跨任务协同模块,VITRON 增强了不同视觉任务间的协同效应,使其在图像和视频处理方面表现出色。

VITRON 的主要功能

  • 视觉理解:包括图像和视频的问答(QA)、指代表达(Referring Expression)和视觉推理。
  • 视觉生成:从文本生成图像(Text-to-Image)和从文本生成视频(Text-to-Video)。
  • 视觉分割:包括图像和视频的分割任务,如实例分割、全景分割等。
  • 视觉编辑:对图像和视频进行编辑,如添加、替换、移除和颜色改变等操作。
  • 交互式用户输入:处理用户的点击、绘制框或多边形、涂鸦等交互式输入。

VITRON 的技术原理

  • 编码器-LLM-解码器架构:基于常见的编码器-大型语言模型(LLM)-解码器架构,其中编码器负责处理图像和视频输入,LLM 负责语义理解和决策,解码器负责执行具体的视觉任务。
  • 前端视觉-语言编码:使用 CLIP ViT-L/14@336px 作为图像和视频的编码器,处理每一帧视频进行平均池化获得整体的时间表示特征。使用区域像素感知视觉提取器作为草图编码器,处理用户的交互式输入。
  • 核心 LLM:使用 Vicuna(7B, 版本1.5)作为 LLM,处理来自语言和视觉模态的输入,执行语义理解和推理,生成决策。
  • 后端视觉专家:集成一系列单一视觉专家,如 GLIGEN 用于图像生成和编辑,SEEM 用在图像和视频分割,ZeroScope 和 I2VGen-XL 用在文本到视频和图像到视频的任务,StableVideo 用于视频编辑。
  • 混合方法指令传递:推出一种新颖的混合方法,基于离散文本指令和连续信号特征嵌入确保 LLM 的决策能精确地传递给后端模块。

如何运行 VITRON

1. 环境配置

首先,确保你的环境满足以下要求:

  • Python >= 3.8
  • Pytorch == 2.1.0
  • CUDA Version >= 11.8

然后,安装所需的依赖包:

git clone https://github.com/SkyworkAI/Vitron
cd Vitron
conda create -n vitron python=3.10 -y
conda activate vitron
pip install --upgrade pip 
pip install -e .
pip install -e ".[train]"
pip install flash-attn --no-build-isolation
pip install decord opencv-python git+https://github.com/facebookresearch/pytorchvideo.git@28fe037d212663c6a24f373b94cc5d478c8c1a1d

2. 运行 Gradio Demo

首先,准备好检查点文件,然后运行以下命令启动本地演示:

python app.py

3. 微调模型

首先,准备好数据集,然后修改 finetune_lora.sh 脚本中的路径配置,最后运行以下命令进行微调:

bash scripts/fine_lora.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
18天前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
117 2
|
2月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
238 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
1月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
337 2
|
29天前
|
机器学习/深度学习 人工智能 前端开发
通义DeepResearch全面开源!同步分享可落地的高阶Agent构建方法论
通义研究团队开源发布通义 DeepResearch —— 首个在性能上可与 OpenAI DeepResearch 相媲美、并在多项权威基准测试中取得领先表现的全开源 Web Agent。
1842 89
|
2月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
356 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
1月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
839 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
2月前
智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!
视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
459 0
|
2月前
|
编解码 算法 测试技术
MiniCPM-V4.0开源,多模态能力进化,手机可用,还有最全CookBook!
今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,官方也正式开源了 推理部署工具 MiniCPM-V CookBook,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。
364 0
|
28天前
|
人工智能 自然语言处理 测试技术
有没有可能不微调也能让大模型准确完成指定任务?(少样本学习)
对于我这种正在从0到1构建AI产品的一人公司来说,Few Shots学习的最大价值在于:用最少的资源获得最大的效果。我不需要大量的标注数据,不需要复杂的模型训练,只需要精心设计几个示例,就能让大模型快速理解我的业务场景。
155 43
|
2月前
|
编解码 自然语言处理
通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作
今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。
580 29

热门文章

最新文章