社区供稿 | 元象首个多模态大模型XVERSE-V开源,刷新权威大模型榜单,支持任意宽高比输入

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 元象公司发布了开源多模态大模型XVERSE-V,该模型在图像输入的宽高比方面具有灵活性,并在多项评测中展现出优越性能,超越了包括谷歌在内的多个知名模型。XVERSE-V采用创新方法结合全局和局部图像信息,适用于高清全景图识别、文字检测等任务,且已在Hugging Face、ModelScope和GitHub上开放下载。此外,模型在视障场景、内容创作、教育解题、百科问答和代码生成等领域有广泛应用,并在VizWiz等测试集中表现出色。元象致力于推动AI技术的普惠,支持中小企业、研究者和开发者进行研发和应用创新。

前言

人类获取的信息83%来自视觉,图文多模态大模型能感知更丰富和精确的真实世界信

息,构建更全面的认知智能,从而向AGI(通用人工智能)迈出更大步伐。

元象今日发布多模态大模型XVERSE-V,支持任意宽高比图像输入,在主流评测中效

果领先。该模型全开源,无条件免费商用,持续推动海量中小企业、研究者和开发者

的研发和应用创新。

image.png

XVERSE-V 性能优异,在多项权威多模态评测中超过零一万物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等开源模型,在综合能力测评MMBench中超过了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名闭源模型。

image.png

图. 多模态大模型综合评测

融合整体和局部的高清图像表示

传统的多模态模型的图像表示只有整体,XVERSE-V  创新性地采用了融合整体和局部的策略,支持输入任意宽高比的图像。兼顾全局的概览信息和局部的细节信息,能够识别和分析图像中的细微特征,看的更清楚,理解的更准确。

image.png

image.png

注:Concate* 表示按列进行拼接

这样的处理方式使模型可以应用于广泛的领域,包括全景图识别、卫星图像、古文物扫描分析等。

示例- 高清全景图识别 、图片细节文字识别

image.png

image.png

模型效果

免费下载大模型

Hugging Face:

https://huggingface.co/xverse/XVERSE-V-13B

ModelScope魔搭:

https://modelscope.cn/models/xverse/XVERSE-V-13B

Github:

https://github.com/xverse-ai/XVERSE-V-13B

元象持续打造国内开源标杆,在 国内最早开源最大参数65B 、 全球最早开源最长上下文256K 以及 国际前沿的MoE模型 , 并在 SuperCLUE测评全国领跑 。此次推出MoE模型, 填补 国产开源空白,更将其 推向了国际领先水平。

商业应用上,元象大模型是 广东最早获得国家备案的模型之一 ,可向全社会提供服务。元象大模型去年起已和多个腾讯产品,包括 QQ音乐 、虎牙直播、全民K歌、腾讯云等,进行深度合作与应用探索,为文化、娱乐、旅游、金融领域打造创新领先的用户体验。

image.png

多方向实际应用表现突出

模型不仅在基础能力上表现出色,在实际的应用场景中也有着出色的表现。具备不同场景下的理解能力,能够处理信息图、文献、现实场景、数理题目、科学文献、代码转化等不同需求。

图表理解

不论是复杂图文结合的信息图理解,还是单一图表的分析与计算,模型都能够自如应对。

image.png

image.png

视障真实场景

在真实视障场景测试集VizWiz中,XVERSE-V 表现出色,超过了InternVL-Chat-V1.5、DeepSeek-VL-7B 等几乎所有主流的开源多模态大模型。该测试集包含了来自真实视障用户提出的超过31,000个视觉问答,能准确反映用户的真实需求与琐碎细小的问题,帮助视障人群克服他们日常真实的视觉挑战。

image.png

VizWiz测试示例

看图内容创作

XVERSE-V 具备多模态能力的同时保持强大的文本生成能力,能够很好胜任理解图像后创造性文本生成的任务。

image.png

教育解题

模型具备了广泛的知识储备和逻辑推理能力,能够识别图像解答不同学科的问题。

image.png

百科解答

模型储备了历史、文化、科技、安全等各类主题的知识。

image.png

代码撰写

image.png

自动驾驶

image.png

情感理解与识别

218635c5-ef47-4766-bded-f7e0307ea4d3[1].png

点击即可跳转模型链接

XVERSE-V-13B · 模型库 (modelscope.cn)

相关文章
|
2月前
|
自然语言处理 数据可视化 数据挖掘
闭源与开源嵌入模型比较以及提升语义搜索效果的技术探讨
本文探讨了自然语言处理中嵌入技术的应用,重点在于语义搜索及聚类方法。通过对比不同规模的开源与闭源模型,文章展示了如何利用聚类技术过滤无关结果,提高搜索精度。实验结果显示,较小模型如mxbai在某些任务上表现优异,提示我们在追求高性能的同时不应忽视计算效率与成本效益。最后,文章还介绍了重新排序技术,进一步优化检索结果的相关性。
101 6
闭源与开源嵌入模型比较以及提升语义搜索效果的技术探讨
|
4月前
|
数据采集 人工智能 监控
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具,支持团队协作,让标注工作变得简单高效。它不仅涵盖丰富的任务类型,如回答采集、偏好收集和内容评估等,还支持多模态数据标注,包括图像、视频和音频。Label-LLM具备预标注载入功能,能大幅提升工作效率,并提供全方位的任务管理与可视化分析,确保标注质量。快来体验这款强大的标注平台吧![部署文档](https://github.com/opendatalab/LabelLLM)
859 0
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
|
5月前
|
数据采集 边缘计算 自然语言处理
谷歌推出创新方法:通过自然文本提示,快速训练视觉模型
【7月更文挑战第5天】谷歌研究者提出新方法,通过自然语言提示训练视觉模型,减少人工标注需求。"建模合作者"框架结合大型语言模型与视觉语言模型,以对话理解视觉概念并自动生成标注,降低训练成本,提高效率。实验显示定义概念工作量减少90%,并在多种任务上超越现有技术。尽管有限制,但此框架为资源受限环境提供了更高效模型训练方案。[论文链接](https://arxiv.org/abs/2403.02626)
34 1
|
7月前
|
人工智能 自然语言处理 搜索推荐
只用文本,3分钟生成一个网站!首个ChatGPT版网站开发平台
【2月更文挑战第30天】Dora AI是一个创新的生成式AI网站开发平台,让用户通过文本输入快速创建各类网站,无需模板,支持动态生成和个性化定制。平台提供直观的拖拽编辑,降低使用门槛,3分钟内即可生成网页。用户输入提示词或选择“Surprise Me”可获得不同风格的页面。尽管部分高级功能需会员,但基本编辑功能对所有用户开放。Dora AI正研发更多高级功能,如文本生成动画和3D网站,以提升用户体验。
169 2
只用文本,3分钟生成一个网站!首个ChatGPT版网站开发平台
|
7月前
|
存储 自然语言处理 负载均衡
元象开源首个MoE大模型:4.2B激活参数,效果堪比13B模型,魔搭社区最佳实践来了
近日,元象发布其首个Moe大模型 XVERSE-MoE-A4.2B, 采用混合专家模型架构 (Mixture of Experts),激活参数4.2B,效果即可媲美13B模型。该模型全开源,无条件免费商用,支持中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用,推动低成本部署。
|
7月前
|
人工智能 自然语言处理 算法
准确写汉字的文生图AnyText,魔搭社区最佳实践来啦!
AnyText模型所涉及的文字生成技术为电商海报、Logo设计、创意涂鸦、表情包等新型AIGC应用提供了可能性。
|
人工智能 自然语言处理 达摩院
社区供稿 | 达摩院自研开放域文本理解大模型登陆魔搭社区
SeqGPT是一个不限领域的文本理解大模型。无需训练,即可完成实体识别、文本分类、阅读理解等多种任务。该模型基于Bloomz在数以百计的任务数据上进行指令微调获得。模型可以在低至16G显存的显卡上免费使用。目前SeqGPT已经在魔搭社区开源,欢迎体验!
社区供稿 | 达摩院自研开放域文本理解大模型登陆魔搭社区
|
人工智能 算法 数据可视化
ECCV 2022 | 字节提出业内首个通用视频转场方案AutoTransition,数据集和代码已开源
ECCV 2022 | 字节提出业内首个通用视频转场方案AutoTransition,数据集和代码已开源
200 0
|
机器学习/深度学习 人工智能 自然语言处理
对标Copilot,国内首个:自然语言一键生成方法级代码aiXcoder XL来了
对标Copilot,国内首个:自然语言一键生成方法级代码aiXcoder XL来了
221 0
|
机器学习/深度学习 数据采集 人工智能
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
248 0

热门文章

最新文章