VITRON:开源像素级视觉大模型,同时满足图像与视频理解、生成、分割和编辑等视觉任务

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: VITRON 是由 Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大模型,支持图像与视频的理解、生成、分割和编辑,适用于多种视觉任务。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能全面:VITRON 支持图像与视频的理解、生成、分割和编辑,涵盖多种视觉任务。
  2. 技术先进:基于编码器-LLM-解码器架构,结合离散文本指令和连续信号嵌入,实现精确功能调用。
  3. 应用广泛:适用于图像编辑、视频内容创作、在线教育、电子商务和新闻媒体等多个领域。

正文(附运行示例)

VITRON 是什么

公众号: 蚝油菜花 - Vitron

VITRON 是由 Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大型语言模型(LLM)。它能够全面理解和处理静态图像与动态视频,支持从视觉理解到视觉生成的多种任务。VITRON 结合了前端的视觉编码器和后端的视觉专家系统,通过混合方法传递信息,结合离散文本指令和连续信号嵌入,实现精确的功能调用。

VITRON 的设计目标是解决现有视觉大模型在实例级理解、图像与视频统一支持以及视觉任务覆盖范围方面的不足。通过跨任务协同模块,VITRON 增强了不同视觉任务间的协同效应,使其在图像和视频处理方面表现出色。

VITRON 的主要功能

  • 视觉理解:包括图像和视频的问答(QA)、指代表达(Referring Expression)和视觉推理。
  • 视觉生成:从文本生成图像(Text-to-Image)和从文本生成视频(Text-to-Video)。
  • 视觉分割:包括图像和视频的分割任务,如实例分割、全景分割等。
  • 视觉编辑:对图像和视频进行编辑,如添加、替换、移除和颜色改变等操作。
  • 交互式用户输入:处理用户的点击、绘制框或多边形、涂鸦等交互式输入。

VITRON 的技术原理

  • 编码器-LLM-解码器架构:基于常见的编码器-大型语言模型(LLM)-解码器架构,其中编码器负责处理图像和视频输入,LLM 负责语义理解和决策,解码器负责执行具体的视觉任务。
  • 前端视觉-语言编码:使用 CLIP ViT-L/14@336px 作为图像和视频的编码器,处理每一帧视频进行平均池化获得整体的时间表示特征。使用区域像素感知视觉提取器作为草图编码器,处理用户的交互式输入。
  • 核心 LLM:使用 Vicuna(7B, 版本1.5)作为 LLM,处理来自语言和视觉模态的输入,执行语义理解和推理,生成决策。
  • 后端视觉专家:集成一系列单一视觉专家,如 GLIGEN 用于图像生成和编辑,SEEM 用在图像和视频分割,ZeroScope 和 I2VGen-XL 用在文本到视频和图像到视频的任务,StableVideo 用于视频编辑。
  • 混合方法指令传递:推出一种新颖的混合方法,基于离散文本指令和连续信号特征嵌入确保 LLM 的决策能精确地传递给后端模块。

如何运行 VITRON

1. 环境配置

首先,确保你的环境满足以下要求:

  • Python >= 3.8
  • Pytorch == 2.1.0
  • CUDA Version >= 11.8

然后,安装所需的依赖包:

git clone https://github.com/SkyworkAI/Vitron
cd Vitron
conda create -n vitron python=3.10 -y
conda activate vitron
pip install --upgrade pip 
pip install -e .
pip install -e ".[train]"
pip install flash-attn --no-build-isolation
pip install decord opencv-python git+https://github.com/facebookresearch/pytorchvideo.git@28fe037d212663c6a24f373b94cc5d478c8c1a1d

2. 运行 Gradio Demo

首先,准备好检查点文件,然后运行以下命令启动本地演示:

python app.py

3. 微调模型

首先,准备好数据集,然后修改 finetune_lora.sh 脚本中的路径配置,最后运行以下命令进行微调:

bash scripts/fine_lora.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
21天前
|
编解码 人工智能
FreeScale:无需微调即可提升模型的图像生成能力,生成 8K 分辨率的高质量图像
FreeScale是一个无需微调的推理框架,旨在提升扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息,首次实现了8K分辨率图像的生成,显著提高了生成内容的质量和保真度,同时减少了推理时间。
69 20
FreeScale:无需微调即可提升模型的图像生成能力,生成 8K 分辨率的高质量图像
|
20天前
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
65 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
18天前
|
机器学习/深度学习 人工智能 算法
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具,支持图像和视频的多样化标注样式,适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。
88 2
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
|
2月前
|
人工智能 自然语言处理 网络性能优化
Kandinsky-3:开源的文本到图像生成框架,适应多种图像生成任务
Kandinsky-3 是一个开源的文本到图像生成框架,基于潜在扩散模型,能够适应多种图像生成任务。该框架支持高质量和逼真的图像合成,包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等功能。Kandinsky-3 通过简化模型架构,提高了推理速度,同时保持了图像质量。
53 2
Kandinsky-3:开源的文本到图像生成框架,适应多种图像生成任务
|
3月前
|
编解码 人工智能 数据可视化
imagen: 具有深度语言理解的逼真的文本到图像扩散模型
imagen: 具有深度语言理解的逼真的文本到图像扩散模型
41 0
|
3月前
|
数据采集
遥感语义分割数据集中的切图策略
该脚本用于遥感图像的切图处理,支持大尺寸图像按指定大小和步长切割为多个小图,适用于语义分割任务的数据预处理。通过设置剪裁尺寸(cs)和步长(ss),可灵活调整输出图像的数量和大小。此外,脚本还支持标签图像的转换,便于后续模型训练使用。
27 0
|
4月前
MUMU:用文本、图像引导,多模态图像生成模型
【9月更文挑战第19天】随着人工智能技术的发展,多模态模型因其能处理文本、图像、音频等多种信息而备受关注。在图像生成领域,一种名为MUMU的新模型展现出巨大潜力。MUMU可接收文本和图像提示并生成相应图像,如根据“一个<图片:男人>男人和他的<图片:狗>狗在一个<图片:卡通>动画风格中”生成图像。通过训练包含文本-图像数据集的视觉-语言编码器及扩散解码器,MUMU能实现风格转换和角色一致性等任务,并在图像编辑和合成方面展示出潜力。然而,其仍受限于复杂场景处理能力和计算资源需求。论文详情见链接:https://arxiv.org/abs/2406.18790。
54 1
|
7月前
|
编解码 文字识别 算法
视觉智能开放平台产品使用合集之通用分割和通用高清分割、人体分割和高清人体分割具体有哪些区别
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
人工智能 数据挖掘 PyTorch
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
|
8月前
|
机器学习/深度学习 人工智能 达摩院
DDColor:AI图像着色工具,优秀的黑白图像上色模型,支持双解码器!
DDColor:AI图像着色工具,优秀的黑白图像上色模型,支持双解码器!
416 3

热门文章

最新文章