书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型

简介: 书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 模型介绍:InternVL 2.5是上海AI实验室推出的开源多模态大语言模型,支持从1B到78B的多种规模。
  2. 主要功能:模型具备多模态理解、多学科推理、多语言处理等功能,适用于多种应用场景。
  3. 技术原理:基于ViT-MLP-LLM架构,采用动态高分辨率训练和渐进式扩展策略,提升模型性能。

正文(附运行示例)

书生·万象InternVL 2.5是什么

公众号: 蚝油菜花 - InternVL

书生·万象InternVL 2.5是上海AI实验室的OpenGVLab团队推出的开源多模态大型语言模型(MLLM)系列。该系列模型在InternVL 2.0的基础上进行了显著增强,特别是在训练和测试策略及数据质量方面。InternVL 2.5包括从1B到78B不同规模的模型,适应不同的使用场景和硬件需求。

InternVL2_5-78B是首个在多模态理解基准(MMMU)上得分超过70的开源模型,超越了ChatGPT-4o和Claude-3.5-Sonnet等商业模型。InternVL 2.5基于链式思考(CoT)推理技术实现性能提升,在多学科推理、文档理解、多图像/视频理解等多个基准测试中展现了强大的多模态能力。

书生·万象InternVL 2.5的主要功能

  • 多模态理解:处理和理解来自不同模态(文本、图像、视频)的信息。
  • 多学科推理:在多个学科领域内进行复杂推理和问题解决。
  • 现实世界理解:对现实世界场景和事件进行理解和分析。
  • 多模态幻觉检测:识别和区分真实和虚构的视觉信息。
  • 视觉地面化:将文本描述与图像中的实际对象相匹配。
  • 多语言处理:支持多种语言的理解和生成能力。
  • 纯语言处理:执行文本分析、生成和理解等语言任务。

书生·万象InternVL 2.5的技术原理

  • ViT-MLP-LLM架构:结合视觉Transformer(ViT)和大型语言模型(LLM)基于MLP投影器。
  • 动态高分辨率训练:适应不同分辨率的输入,优化多图像和视频数据的处理。
  • 像素逆置操作:减少视觉tokens数量,提高模型效率。
  • 渐进式扩展策略:从小规模LLM开始训练,逐步扩展到更大规模的模型。
  • 随机JPEG压缩:模拟互联网图像退化,增强模型对噪声图像的鲁棒性。
  • 损失重加权:平衡不同长度响应的NTP损失,优化模型训练。

如何运行书生·万象InternVL 2.5

使用HuggingFace进行快速开始

以下是一个简单的示例,展示如何使用HuggingFace加载和运行InternVL 2.5模型。

import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor

model = AutoModel.from_pretrained(
    'OpenGVLab/InternVL2_5-78B',
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    trust_remote_code=True).cuda().eval()

image = Image.open('./examples/image1.jpg').convert('RGB')

image_processor = CLIPImageProcessor.from_pretrained('OpenGVLab/InternVL2_5-78B')

pixel_values = image_processor(images=image, return_tensors='pt').pixel_values
pixel_values = pixel_values.to(torch.bfloat16).cuda()

outputs = model(pixel_values)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
机器学习/深度学习 数据采集 人工智能
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
1075 9
|
8月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
7921 112
|
8月前
|
人工智能 API 开发工具
构建AI智能体:一、初识AI大模型与API调用
本文介绍大模型基础知识及API调用方法,涵盖阿里云百炼平台密钥申请、DashScope SDK使用、Python调用示例(如文本情感分析、图像文字识别),助力开发者快速上手大模型应用开发。
2873 18
构建AI智能体:一、初识AI大模型与API调用
|
8月前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
771 5
我们开源了一款 AI 驱动的用户社区
|
9月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
1373 109
|
9月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
759 2
|
8月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
1158 120

热门文章

最新文章