社区供稿 | 元象首个多模态大模型XVERSE-V开源,刷新权威大模型榜单,支持任意宽高比输入

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 元象公司发布了开源多模态大模型XVERSE-V,该模型在图像输入的宽高比方面具有灵活性,并在多项评测中展现出优越性能,超越了包括谷歌在内的多个知名模型。XVERSE-V采用创新方法结合全局和局部图像信息,适用于高清全景图识别、文字检测等任务,且已在Hugging Face、ModelScope和GitHub上开放下载。此外,模型在视障场景、内容创作、教育解题、百科问答和代码生成等领域有广泛应用,并在VizWiz等测试集中表现出色。元象致力于推动AI技术的普惠,支持中小企业、研究者和开发者进行研发和应用创新。

前言

人类获取的信息83%来自视觉,图文多模态大模型能感知更丰富和精确的真实世界信

息,构建更全面的认知智能,从而向AGI(通用人工智能)迈出更大步伐。

元象今日发布多模态大模型XVERSE-V,支持任意宽高比图像输入,在主流评测中效

果领先。该模型全开源,无条件免费商用,持续推动海量中小企业、研究者和开发者

的研发和应用创新。

image.png

XVERSE-V 性能优异,在多项权威多模态评测中超过零一万物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等开源模型,在综合能力测评MMBench中超过了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名闭源模型。

image.png

图. 多模态大模型综合评测

融合整体和局部的高清图像表示

传统的多模态模型的图像表示只有整体,XVERSE-V  创新性地采用了融合整体和局部的策略,支持输入任意宽高比的图像。兼顾全局的概览信息和局部的细节信息,能够识别和分析图像中的细微特征,看的更清楚,理解的更准确。

image.png

image.png

注:Concate* 表示按列进行拼接

这样的处理方式使模型可以应用于广泛的领域,包括全景图识别、卫星图像、古文物扫描分析等。

示例- 高清全景图识别 、图片细节文字识别

image.png

image.png

模型效果

免费下载大模型

Hugging Face:

https://huggingface.co/xverse/XVERSE-V-13B

ModelScope魔搭:

https://modelscope.cn/models/xverse/XVERSE-V-13B

Github:

https://github.com/xverse-ai/XVERSE-V-13B

元象持续打造国内开源标杆,在 国内最早开源最大参数65B 、 全球最早开源最长上下文256K 以及 国际前沿的MoE模型 , 并在 SuperCLUE测评全国领跑 。此次推出MoE模型, 填补 国产开源空白,更将其 推向了国际领先水平。

商业应用上,元象大模型是 广东最早获得国家备案的模型之一 ,可向全社会提供服务。元象大模型去年起已和多个腾讯产品,包括 QQ音乐 、虎牙直播、全民K歌、腾讯云等,进行深度合作与应用探索,为文化、娱乐、旅游、金融领域打造创新领先的用户体验。

image.png

多方向实际应用表现突出

模型不仅在基础能力上表现出色,在实际的应用场景中也有着出色的表现。具备不同场景下的理解能力,能够处理信息图、文献、现实场景、数理题目、科学文献、代码转化等不同需求。

图表理解

不论是复杂图文结合的信息图理解,还是单一图表的分析与计算,模型都能够自如应对。

image.png

image.png

视障真实场景

在真实视障场景测试集VizWiz中,XVERSE-V 表现出色,超过了InternVL-Chat-V1.5、DeepSeek-VL-7B 等几乎所有主流的开源多模态大模型。该测试集包含了来自真实视障用户提出的超过31,000个视觉问答,能准确反映用户的真实需求与琐碎细小的问题,帮助视障人群克服他们日常真实的视觉挑战。

image.png

VizWiz测试示例

看图内容创作

XVERSE-V 具备多模态能力的同时保持强大的文本生成能力,能够很好胜任理解图像后创造性文本生成的任务。

image.png

教育解题

模型具备了广泛的知识储备和逻辑推理能力,能够识别图像解答不同学科的问题。

image.png

百科解答

模型储备了历史、文化、科技、安全等各类主题的知识。

image.png

代码撰写

image.png

自动驾驶

image.png

情感理解与识别

218635c5-ef47-4766-bded-f7e0307ea4d3[1].png

点击即可跳转模型链接

XVERSE-V-13B · 模型库 (modelscope.cn)

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
人类通过自然监督,即探索视觉世界和倾听他人描述情况,学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习,并将其与口语词汇联系起来,从而形成了丰富的视觉和语义词汇,不仅可以用于检测物体,还可以用于其他任务,如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
|
1天前
|
人工智能 搜索推荐 API
Perplexica:开源 AI 搜索引擎,Perplexity AI 的开源替代品,支持多种搜索模式、实时信息更新
Perplexica 是一款开源的 AI 驱动搜索引擎,支持多种搜索模式和实时信息更新,适用于个人、学术和企业等不同场景。
24 6
Perplexica:开源 AI 搜索引擎,Perplexity AI 的开源替代品,支持多种搜索模式、实时信息更新
|
30天前
|
机器学习/深度学习 人工智能 文字识别
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
【10月更文挑战第12天】多模态理解是人工智能的重要研究方向,华人团队改进了现有的MMMU基准,推出MMMU-Pro,以更严格地评估模型的多模态理解和推理能力。MMMU-Pro通过过滤纯文本问题、增加候选选项和引入纯视觉问答设置,提高了评估难度。实验结果显示,模型在MMMU-Pro上的性能明显下降,但CoT推理有助于提升表现。MMMU-Pro为多模态理解提供了更严格的评估工具,但也面临一些挑战。
39 1
|
3月前
|
数据采集 人工智能 监控
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具,支持团队协作,让标注工作变得简单高效。它不仅涵盖丰富的任务类型,如回答采集、偏好收集和内容评估等,还支持多模态数据标注,包括图像、视频和音频。Label-LLM具备预标注载入功能,能大幅提升工作效率,并提供全方位的任务管理与可视化分析,确保标注质量。快来体验这款强大的标注平台吧![部署文档](https://github.com/opendatalab/LabelLLM)
635 0
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
|
4月前
|
数据采集 边缘计算 自然语言处理
谷歌推出创新方法:通过自然文本提示,快速训练视觉模型
【7月更文挑战第5天】谷歌研究者提出新方法,通过自然语言提示训练视觉模型,减少人工标注需求。"建模合作者"框架结合大型语言模型与视觉语言模型,以对话理解视觉概念并自动生成标注,降低训练成本,提高效率。实验显示定义概念工作量减少90%,并在多种任务上超越现有技术。尽管有限制,但此框架为资源受限环境提供了更高效模型训练方案。[论文链接](https://arxiv.org/abs/2403.02626)
32 1
|
6月前
|
数据采集 人工智能 文字识别
高能力全透明双语大语言模型MAP-Neo完全开源,开放所有细节!
近年来,大型语言模型 (LLMs) 在各种任务中取得了前所未有的性能提升。然而,由于商业利益,最强大的模型(如 GPT、Gemini 和Claude)只能通过API访问,并未公开训练细节。
|
6月前
|
人工智能 自然语言处理 搜索推荐
只用文本,3分钟生成一个网站!首个ChatGPT版网站开发平台
【2月更文挑战第30天】Dora AI是一个创新的生成式AI网站开发平台,让用户通过文本输入快速创建各类网站,无需模板,支持动态生成和个性化定制。平台提供直观的拖拽编辑,降低使用门槛,3分钟内即可生成网页。用户输入提示词或选择“Surprise Me”可获得不同风格的页面。尽管部分高级功能需会员,但基本编辑功能对所有用户开放。Dora AI正研发更多高级功能,如文本生成动画和3D网站,以提升用户体验。
147 2
只用文本,3分钟生成一个网站!首个ChatGPT版网站开发平台
|
人工智能 自然语言处理 达摩院
社区供稿 | 达摩院自研开放域文本理解大模型登陆魔搭社区
SeqGPT是一个不限领域的文本理解大模型。无需训练,即可完成实体识别、文本分类、阅读理解等多种任务。该模型基于Bloomz在数以百计的任务数据上进行指令微调获得。模型可以在低至16G显存的显卡上免费使用。目前SeqGPT已经在魔搭社区开源,欢迎体验!
社区供稿 | 达摩院自研开放域文本理解大模型登陆魔搭社区
|
数据挖掘 测试技术
【论文速递】EMNLP 2022 - 一种大规模中文标题数据集的开放事件抽取基准
事件抽取(EE)对于新聚合和事件知识图构建等下游任务至关重要。大多数现有的EE数据集手动定义固定的事件类型,并为每种事件设计特定的模式
203 0
|
人工智能 算法 数据可视化
ECCV 2022 | 字节提出业内首个通用视频转场方案AutoTransition,数据集和代码已开源
ECCV 2022 | 字节提出业内首个通用视频转场方案AutoTransition,数据集和代码已开源
190 0

热门文章

最新文章