书生·万象InternVL 2.5：上海 AI Lab 开源的多模态大语言模型，超越了目前许多商业模型

2024-12-12 9

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

图像搜索，7款服务类型 1个月

简介： 书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准（MMMU）上表现优异，超越了许多商业模型，适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

模型介绍：InternVL 2.5是上海AI实验室推出的开源多模态大语言模型，支持从1B到78B的多种规模。
主要功能：模型具备多模态理解、多学科推理、多语言处理等功能，适用于多种应用场景。
技术原理：基于ViT-MLP-LLM架构，采用动态高分辨率训练和渐进式扩展策略，提升模型性能。

正文（附运行示例）

书生·万象InternVL 2.5是什么

公众号: 蚝油菜花 - InternVL

书生·万象InternVL 2.5是上海AI实验室的OpenGVLab团队推出的开源多模态大型语言模型（MLLM）系列。该系列模型在InternVL 2.0的基础上进行了显著增强，特别是在训练和测试策略及数据质量方面。InternVL 2.5包括从1B到78B不同规模的模型，适应不同的使用场景和硬件需求。

InternVL2_5-78B是首个在多模态理解基准（MMMU）上得分超过70的开源模型，超越了ChatGPT-4o和Claude-3.5-Sonnet等商业模型。InternVL 2.5基于链式思考（CoT）推理技术实现性能提升，在多学科推理、文档理解、多图像/视频理解等多个基准测试中展现了强大的多模态能力。

书生·万象InternVL 2.5的主要功能

多模态理解：处理和理解来自不同模态（文本、图像、视频）的信息。
多学科推理：在多个学科领域内进行复杂推理和问题解决。
现实世界理解：对现实世界场景和事件进行理解和分析。
多模态幻觉检测：识别和区分真实和虚构的视觉信息。
视觉地面化：将文本描述与图像中的实际对象相匹配。
多语言处理：支持多种语言的理解和生成能力。
纯语言处理：执行文本分析、生成和理解等语言任务。

书生·万象InternVL 2.5的技术原理

ViT-MLP-LLM架构：结合视觉Transformer（ViT）和大型语言模型（LLM）基于MLP投影器。
动态高分辨率训练：适应不同分辨率的输入，优化多图像和视频数据的处理。
像素逆置操作：减少视觉tokens数量，提高模型效率。
渐进式扩展策略：从小规模LLM开始训练，逐步扩展到更大规模的模型。
随机JPEG压缩：模拟互联网图像退化，增强模型对噪声图像的鲁棒性。
损失重加权：平衡不同长度响应的NTP损失，优化模型训练。

如何运行书生·万象InternVL 2.5

使用HuggingFace进行快速开始

以下是一个简单的示例，展示如何使用HuggingFace加载和运行InternVL 2.5模型。

import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor

model = AutoModel.from_pretrained(
    'OpenGVLab/InternVL2_5-78B',
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    trust_remote_code=True).cuda().eval()

image = Image.open('./examples/image1.jpg').convert('RGB')

image_processor = CLIPImageProcessor.from_pretrained('OpenGVLab/InternVL2_5-78B')

pixel_values = image_processor(images=image, return_tensors='pt').pixel_values
pixel_values = pixel_values.to(torch.bfloat16).cuda()

outputs = model(pixel_values)

资源

项目官网：https://internvl.github.io/blog/
GitHub 仓库：https://github.com/OpenGVLab/InternVL
HuggingFace 模型库：https://huggingface.co/OpenGVLab/InternVL2_5
arXiv 技术论文：https://arxiv.org/pdf/2412.05271
在线体验Demo：https://huggingface.co/spaces/OpenGVLab/InternVL