Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二

简介: Valley 是字节跳动推出的多模态大模型,能够处理文本、图像和视频数据,在电子商务和短视频领域表现优异,并在 OpenCompass 测试中排名第二。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/-W-nCb9_PzZokttQT01fpw


🚀 快速阅读

  1. 功能:Valley 能够处理文本、图像和视频数据,支持多种多模态任务。
  2. 性能:在电子商务和短视频基准测试中表现优异,OpenCompass 测试中排名第二。
  3. 技术:结合 LargeMLP 和 ConvAdapter,引入 VisionEncoder 增强模型性能。

正文(附运行示例)

Valley 是什么

公众号: 蚝油菜花 - Valley

Valley 是字节跳动推出的多模态大模型,专门用于处理涉及文本、图像和视频数据的多样化任务。该模型在内部电子商务和短视频基准测试中取得了最佳成绩,并在 OpenCompass 测试中展现出色性能,尤其是在小于 10B 参数规模的模型中排名第二。

Valley-Eagle 版本基于引入 VisionEncoder 增强模型在极端场景下的性能,能灵活调整令牌数量,并与原始视觉令牌并行处理。这使得 Valley 在处理复杂多模态数据时表现出色,尤其是在需要高效处理大量视觉数据的场景中。

Valley 的主要功能

  • 多模态理解:能处理文本、图像和视频数据,提供对不同模态数据的深入理解。
  • 任务处理:支持多种涉及多模态数据的任务,如图像和视频描述、内容分析等。
  • 性能优化:在内部基准测试和 OpenCompass 测试中展现出色性能,特别是在电子商务和短视频领域。
  • 模型扩展性:引入 VisionEncoder,Valley 能灵活调整令牌数量,增强在极端场景下的性能。

Valley 的技术原理

  • LargeMLP 和 ConvAdapter:结合 LargeMLP(大型多层感知机)和 ConvAdapter(卷积适配器)构建投影器,有助于模型在处理视觉数据时的性能。
  • VisionEncoder:Valley-Eagle 版本引入 VisionEncoder,一个额外的编码器,能并行处理视觉令牌,且能灵活调整令牌数量,适应不同的处理需求。
  • 并行处理:与原始视觉令牌并行处理,增强模型在处理大量视觉数据时的效率和效果。
  • 模型对齐:Valley 与 Siglip 和 Qwen2.5 等其他模型对齐,在设计上参考这些模型的成功元素,确保性能和兼容性。

如何运行 Valley

环境配置

pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt

单张图片推理示例

from valley_eagle_chat import ValleyEagleChat
model = ValleyEagleChat(
    model_path='bytedance-research/Valley-Eagle-7B',
    padding_side = 'left',
)

url = 'http://p16-goveng-va.ibyteimg.com/tos-maliva-i-wtmo38ne4c-us/4870400481414052507~tplv-wtmo38ne4c-jpeg.jpeg'
img = urllib.request.urlopen(url=url, timeout=5).read()

request = {
   
    "chat_history": [
        {
   'role': 'system', 'content': 'You are Valley, developed by ByteDance. Your are a helpfull Assistant.'},
        {
   'role': 'user', 'content': 'Describe the given image.'},
    ],
    "images": [img],
}

result = model(request)
print(f"\n>>> Assistant:\n")
print(result)

视频推理示例

from valley_eagle_chat import ValleyEagleChat
import decord
import requests
import numpy as np
from torchvision import transforms

model = ValleyEagleChat(
    model_path='bytedance-research/Valley-Eagle-7B',
    padding_side = 'left',
)

url = 'https://videos.pexels.com/video-files/29641276/12753127_1920_1080_25fps.mp4'
video_file = './video.mp4'
response = requests.get(url)
if response.status_code == 200:
    with open("video.mp4", "wb") as f:
        f.write(response.content)
else:
    print("download error!")
    exit(1)

video_reader = decord.VideoReader(video_file)
decord.bridge.set_bridge("torch")
video = video_reader.get_batch(
    np.linspace(0,  len(video_reader) - 1, 8).astype(np.int_)
).byte()
print([transforms.ToPILImage()(image.permute(2, 0, 1)).convert("RGB") for image in video])

request = {
   
    "chat_history": [
        {
   'role': 'system', 'content': 'You are Valley, developed by ByteDance. Your are a helpfull Assistant.'},
        {
   'role': 'user', 'content': 'Describe the given video.'},
    ],
    "images": [transforms.ToPILImage()(image.permute(2, 0, 1)).convert("RGB") for image in video],
}
result = model(request)
print(f"\n>>> Assistant:\n")
print(result)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
6月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
583 2
|
5月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
689 120
|
6月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
1296 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
|
5月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
1394 2
|
5月前
|
存储 数据采集 自然语言处理
56_大模型微调:全参数与参数高效方法对比
随着大型语言模型(LLM)规模的不断增长,从数百亿到数千亿参数,传统的全参数微调方法面临着计算资源消耗巨大、训练效率低下等挑战。2025年,大模型微调技术已经从早期的全参数微调发展到如今以LoRA、QLoRA为代表的参数高效微调方法,以及多种技术融合的复杂策略。本文将深入对比全参数微调和参数高效微调的技术原理、适用场景、性能表现和工程实践,为研究者和工程师提供全面的技术参考。
|
5月前
|
存储 机器学习/深度学习 人工智能
54_模型优化:大模型的压缩与量化
随着大型语言模型(LLM)的快速发展,模型规模呈指数级增长,从最初的数亿参数到如今的数千亿甚至万亿参数。这种规模扩张带来了惊人的能源消耗和训练成本,同时也给部署和推理带来了巨大挑战。2025年,大模型的"瘦身"已成为行业发展的必然趋势。本文将深入剖析大模型压缩与量化的核心技术、最新进展及工程实践,探讨如何通过创新技术让大模型在保持高性能的同时实现轻量化部署,为企业和开发者提供全面的技术指导。
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
38_多模态模型:CLIP的视觉-语言对齐_深度解析
想象一下,当你看到一张小狗在草地上奔跑的图片时,你的大脑立刻就能将视觉信息与"小狗"、"草地"、"奔跑"等概念联系起来。这种跨模态的理解能力对于人类来说似乎是理所当然的,但对于人工智能系统而言,实现这种能力却经历了长期的技术挑战。多模态学习的出现,标志着AI从单一模态处理向更接近人类认知方式的综合信息处理迈出了关键一步。

热门文章

最新文章