社区供稿 | 元象首个多模态大模型XVERSE-V开源，刷新权威大模型榜单，支持任意宽高比输入

2024-05-06 49

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 元象公司发布了开源多模态大模型XVERSE-V，该模型在图像输入的宽高比方面具有灵活性，并在多项评测中展现出优越性能，超越了包括谷歌在内的多个知名模型。XVERSE-V采用创新方法结合全局和局部图像信息，适用于高清全景图识别、文字检测等任务，且已在Hugging Face、ModelScope和GitHub上开放下载。此外，模型在视障场景、内容创作、教育解题、百科问答和代码生成等领域有广泛应用，并在VizWiz等测试集中表现出色。元象致力于推动AI技术的普惠，支持中小企业、研究者和开发者进行研发和应用创新。

前言

人类获取的信息83%来自视觉，图文多模态大模型能感知更丰富和精确的真实世界信

息，构建更全面的认知智能，从而向AGI（通用人工智能）迈出更大步伐。

元象今日发布多模态大模型XVERSE-V，支持任意宽高比图像输入，在主流评测中效

果领先。该模型全开源，无条件免费商用，持续推动海量中小企业、研究者和开发者

的研发和应用创新。

XVERSE-V 性能优异，在多项权威多模态评测中超过零一万物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等开源模型，在综合能力测评MMBench中超过了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名闭源模型。

图. 多模态大模型综合评测

融合整体和局部的高清图像表示

传统的多模态模型的图像表示只有整体，XVERSE-V 创新性地采用了融合整体和局部的策略，支持输入任意宽高比的图像。兼顾全局的概览信息和局部的细节信息，能够识别和分析图像中的细微特征，看的更清楚，理解的更准确。

注：Concate* 表示按列进行拼接

这样的处理方式使模型可以应用于广泛的领域，包括全景图识别、卫星图像、古文物扫描分析等。

示例- 高清全景图识别、图片细节文字识别

模型效果

免费下载大模型

Hugging Face：

https://huggingface.co/xverse/XVERSE-V-13B

ModelScope魔搭：

https://modelscope.cn/models/xverse/XVERSE-V-13B

Github：

https://github.com/xverse-ai/XVERSE-V-13B

元象持续打造国内开源标杆，在国内最早开源最大参数65B 、全球最早开源最长上下文256K 以及国际前沿的MoE模型，并在 SuperCLUE测评全国领跑。此次推出MoE模型，填补国产开源空白，更将其推向了国际领先水平。

商业应用上，元象大模型是广东最早获得国家备案的模型之一，可向全社会提供服务。元象大模型去年起已和多个腾讯产品，包括 QQ音乐、虎牙直播、全民K歌、腾讯云等，进行深度合作与应用探索，为文化、娱乐、旅游、金融领域打造创新领先的用户体验。

多方向实际应用表现突出

模型不仅在基础能力上表现出色，在实际的应用场景中也有着出色的表现。具备不同场景下的理解能力，能够处理信息图、文献、现实场景、数理题目、科学文献、代码转化等不同需求。

图表理解

不论是复杂图文结合的信息图理解，还是单一图表的分析与计算，模型都能够自如应对。

视障真实场景

在真实视障场景测试集VizWiz中，XVERSE-V 表现出色，超过了InternVL-Chat-V1.5、DeepSeek-VL-7B 等几乎所有主流的开源多模态大模型。该测试集包含了来自真实视障用户提出的超过31,000个视觉问答，能准确反映用户的真实需求与琐碎细小的问题，帮助视障人群克服他们日常真实的视觉挑战。