大规模中文多模态评测基准MUGE发布

简介: MUGE全称是Multimodal Understanding and Generation Evaluation Benchmark,是由达摩院智能计算实验室认知智能团队推出了大规模中文多模态评测基准,拥有当前最大规模的中文多模态评测数据集,覆盖多种类型的任务,包括图文描述、基于文本的图像生成、跨模态检索等。MUGE的推出旨在解决当前中文多模态领域下游任务数据集匮乏的问题,并且为广大研究者提供平台和评测基准去衡量算法模型的有效性。

1440-330.png

背景


近年来,大规模神经网络模型以及预训练等技术的成功实践推动着计算机视觉和自然语言处理等领域快速发展,同时也推动了多模态表征学习的研究。2020年Jeff Dean就曾指出,多模态研究将会是未来研究一大趋势。在国内,目前阿里巴巴达摩院智能计算实验室也在深度探索中文多模态预训练及超大规模预训练,近期相继推出了百亿、千亿和万亿参数M6模型[1],实现了当前最大规模的多模态预训练模型,并将其应用到各大下游任务,广泛落地到搜索、推荐、服饰设计、智能文案等真实场景中。


然而,目前多模态领域的评测基准和数据集多以英文为主,如MSCOCO的Image Captioning[2],VQA[3][4],textVQA,VCR等,并且缺乏一个统一的评测基准让研究人员可以全面评测自己的模型在不同场景以及不同任务类型的表现。当前中文领域的多模态公开数据集和榜单更是乏善可陈。考虑到中文多模态领域的蓬勃发展,达摩院智能计算实验室认知智能团队推出了大规模中文多模态评测基准MUGE,拥有当前最大规模的中文多模态评测数据集,覆盖多种类型的任务,包括图文描述、基于文本的图像生成、跨模态检索等,对模型展开了全方位的评测,帮助研究人员对自己的模型得到更好的理解。

MUGE介绍


MUGE全称是Multimodal Understanding and Generation Evaluation Benchmark,首期主要开放中文多模态相关下游任务数据集和评测榜单,旨在帮助中文多模态研究人员全方位评估算法模型。MUGE将实现多场景多任务的覆盖,其中包括理解类任务,如跨模态检索、跨模态分类等,以及生成类任务,如图文描述、基于文本的图像生成等,研究人员能够从理解能力和生成能力两大角度去评估算法模型。首期开放了包括了如下3个任务:

E-Commerce IC(Image Caption)

图像描述生成是一项经典的多模态任务,任务目标是根据一张图像生成相应的文字描述,要求生成的描述须如实反映图中的物体以及关键细节。电商领域有着众多的商品图片,将图像描述技术应用于电商领域,为每个商品生成一段富含吸引力的描述,对于吸引用户的点击、提高转化率有着重要的意义。


本次发布E-Commerce IC数据集涵盖了服装、食品、化妆品、3C数码配件等众多商品类目,所有数据均来源于真实的淘宝电商场景。其中,商品对应的文字描述由商家根据商品特性来撰写,不同文案间的风格差异很大,这给图像描述的生成带来了很多挑战。ECommerce-IC共包含5w条训练数据和5k条验证集数据,同时提供1w张图片用于在线评测,是目前业界最大的中文电商Caption数据集。


下面是两个样例:


例子1:

  • 输入(商品图片):


1628503009012-3a72266a-eb18-47bf-8b04-7542b602ed29.png


  • 输出(商品文案描述):使用原始北欧风格,崇尚自然,以木色、黑色、白色作为整体色调,给人舒适宁静的感觉,轻松就餐,才能留住好食光,在极简风的北欧餐厅中,尽情享受美食。


例子2:

  • 输入(商品图片):

1628503094301-be4f2951-7264-4447-a289-3582f54fc177.png


  • 输出(商品文案描述):西装印花裙的两件套,知性中又有带着优雅洒脱。雅致的印花裙邂逅西服,轻松打造精致的职场女神。脱掉外套依然美丽优雅,不失为明智的穿搭。V领的设计更显女性的性感魅力。如行走的时装画册精致,有品位更具有风度。



E-Commerce T2I(Text to Image):

文本到图像生成是一项具有挑战性的任务,它需要图像生成以及对跨模态理解的能力。任务目标是根据一段文本描述,生成符合相应描述的图像,同时要求图像清晰且逼真。电商领域有着众多的商品图片,将文本到图像生成技术应用于电商领域,对于商品上新、设计、分发,减少商家运营成本,提高用户体验有着重要的意义。


本次发布的ECommerce-T2I数据集涵盖了服装、饰品、化妆品内的多个商品类目,所有数据均来源于真实淘宝电商场景。整个数据集由训练集、验证集和测试集组成。其中训练集有9w张图片,验证集和测试集各有5k张。此外,本数据集内的图片均为白底图,选手无需额外的精力放在背景生成上,主要考查模型对商品文本的理解和生成能力,提高物体的生成质量。


下面是两个样例:


例子一:

  • 输入(文本):绵羊毛商务休闲西服套装
  • 输出(生成图像):


1628502923419-9c1c0856-63c0-4ff6-9acf-95d9122c8d34.png


例子二:

  • 输入(文本):减震透气跑鞋
  • 输出(生成图像):


1628502966243-265dfda0-01fc-4bc8-b6f9-e8dfccb52c57.png


Multimodal Retrieval Dataset

多模态检索评价模型进行图文理解和匹配的能力,是电商场景中满足用户需求、促成点击交易不可缺少的一环。在此次任务中,我们准备了来自于淘宝电商平台的真实搜索query及商品图,要求模型从给定的商品池中检索出与搜索query相匹配的商品(样例如下图)。为了更好评价模型跨模态理解的效果,我们此次不公开商品的标题以及其他信息,要求模型仅基于商品图片进行检索召回,具有一定的挑战性。


此次公开的电商图文检索数据集由训练集、验证集和测试集组成,其中训练集包含25w搜索query-商品图构成的图文对,涵盖约12w商品图片。对于验证集和测试集,我们各准备了5k搜索query和3w候选商品图片。数据集类目涵盖广泛,涉及服装、家居、电子、化妆品等多个领域,是目前最大的中文全领域电商图文检索数据集,对模型的泛化能力提出了考验。


下面是两个样例:


例子1:

  • 输入(Query):纯棉碎花吊带裙
  • 输出:商品图片


1628507828298-d361ad10-2341-43cd-87e6-9a3480505443.png1628564113296-b0b27450-cbab-4d49-9f9d-7218883b35e5.png1628564176367-467cc730-154a-4f8d-81fe-ce65e4ed8dc3.png1628564213062-18e2e56d-e5ad-4cca-ab8d-4516e5336ce4.png1628564267504-f6f362ee-4f56-4755-b0c4-9f65e190bda2.png1628564294301-09a90345-b2c5-4add-bea0-f5c727cdf6d2.png


例子2:

  • 输入(Query):北欧轻奢边几
  • 输出:商品图片


1628508316958-77df547e-4fae-4ae2-b4f7-ac50b94c2c71.png1628564343312-4dd79073-d2c7-47e7-91bf-da50c8135dbb.png1628564374478-a9d4c761-276a-4888-8ec3-b8f1c93e69e3.png1628564393194-4f436c5c-b218-48ac-9e69-3f8384050a93.png1628564425669-0b9c7e4c-fa9f-443b-9aba-9f730835420a.png1628564451100-0e9d9ca0-a6a0-4cfb-98c8-36bdf1f3c3ca.png


MUGE挑战榜

MUGE的提出旨在解决当前中文多模态领域下游任务数据集匮乏的问题,并且为广大研究者提供平台和评测基准去衡量算法模型的有效性。此外,相较于传统榜单,MUGE的覆盖面更全,涵盖理解和生成两大类任务,并开创性地将基于文本的图像生成纳入其中。未来,MUGE也会持续地扩增更多的多模态任务及数据规模,进一步为研究人员和开发者提升算法模型效果而提供支持。


MUGE目前已经在阿里云天池平台开放,感兴趣的研究者们可以访问如下链接进入MUGE leaderboard参与挑战,平台会在每个月的月底评出榜单Top8选手,并赠予天池定制礼品!

MUGE挑战榜地址:https://tianchi.aliyun.com/specials/promotion/mugemultimodalunderstandingandgenerationevaluation?spm=a2c41.24125772.0.0

关于M6:

此前,达摩院智能计算实验室认知智能组大力推进超大规模中文多模态预训练工作研究,先后发布了百亿、千亿和万亿参数规模的大规模预训练模型M6,在多项下游任务上取得突出的效果提升,同时也在大规模预训练基础技术上做了深度的探索,包括如何训练超大模型和如何设计MoE模型架构等。M6的工作目前已被KDD 2021录用。


达摩院智能计算实验室认知智能组隶属于达摩院,致力于推进认知智能研究,在大量真实的商业场景中实现大规模落地,并在多模态预训练、大规模图神经网络等多个领域得到开创性的世界领先结果。团队研发的认知智能计算平台荣获2019年世界人工智能创新大赛的最高荣誉SAIL奖项,并且入选发改委国家重大建设项目库。团队曾荣获2020年国家科学技术进步奖二等奖和杭州市领军型创新团队,人员和技术实力雄厚,累计在CCF-A类会议和期刊上发表文章超百篇。


参考资料:

[1] Junyang Lin, Rui Men, An Yang, Chang Zhou, Ming Ding, Yichang Zhang, Peng Wang, Ang Wang, Le Jiang, Xianyan Jia, Jie Zhang, Jianwei Zhang, Xu Zou, Zhikang Li, Xiaodong Deng, Jie Liu, Jinbao Xue, Huiling Zhou, Jianxin Ma, Jin Yu, Yong Li, Wei Lin, Jingren Zhou, Jie Tang, and Hongxia Yang. 2021. M6: A chinese multimodal pretrainer. CoRR, abs/2103.00823.

[2] Chen, X., Fang, H., Lin, T., Vedantam, R., Gupta, S., Dollár, P., & Zitnick, C.L. (2015). Microsoft COCO Captions: Data Collection and Evaluation Server. ArXiv, abs/1504.00325.

[3] Agrawal, A., Lu, J., Antol, S., Mitchell, M., Zitnick, C.L., Parikh, D., & Batra, D. (2015). VQA: Visual Question Answering. International Journal of Computer Vision, 123, 4-31.

[4] Goyal, Y., Khot, T., Summers-Stay, D., Batra, D., & Parikh, D. (2017). Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 6325-6334.

相关文章
|
2月前
|
机器学习/深度学习 人工智能 测试技术
探索 Qwen2.5-Max 的智能:大规模 MoE 模型的飞跃
Qwen2.5-Max 是通义实验室推出的最先进MoE模型,在推理、知识和代码任务中表现卓越,已在超20万亿token上预训练,并通过SFT和RLHF优化。在多项基准测试中领先,如Arena-Hard达89.4,MMLU-Pro为76.1,性能超越DeepSeek V3、GPT-4o等模型,成为当前最佳开源模型。可通过Qwen Chat和API使用,适用于开发者、研究者及AI爱好者探索前沿AI能力。
426 2
|
7月前
|
人工智能 测试技术 vr&ar
DataDoP :一个大规模多模态数据集,包含 29K 真实世界的自由运动相机轨迹、深度图和详细的动作描述,目的支持艺术化相机轨迹生成。
2025-04-10 ,由浙江大学、上海人工智能实验室、斯坦福大学、香港中文大学和南洋理工大学联合创建了 DataDoP 数据集。该数据集包含 29K 真实世界的自由运动相机轨迹、深度图和详细的动作描述,目的为艺术化相机轨迹生成提供高质量的训练数据,推动基于学习的电影摄影技术发展。 一、研究背景 在视频制作中,相机轨迹设计是传达导演意图和增强视觉叙事的关键工具。传统方法依赖于几何优化或手工设计的程序系统,而近年来的基于学习的方法则继承了结构偏差或缺乏文本对齐,限制了创意合成。 目前遇到困难和挑战: 1、传统方法的局限性:传统方法依赖于几何建模或成本函数工程,限制了创意合成。 2、现有数据集的
|
9月前
|
机器学习/深度学习 人工智能 测试技术
Qwen2.5-Max 发布,探索大规模 MoE 模型的智能
Qwen2.5-Max 发布,探索大规模 MoE 模型的智能
|
数据采集 存储 自然语言处理
基于Qwen2.5的大规模ESG数据解析与趋势分析多Agent系统设计
2022年中国上市企业ESG报告数据集,涵盖制造、能源、金融、科技等行业,通过Qwen2.5大模型实现报告自动收集、解析、清洗及可视化生成,支持单/多Agent场景,大幅提升ESG数据分析效率与自动化水平。
744 0
|
JSON 编解码 物联网
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
|
机器学习/深度学习 人工智能 编解码
「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景(2)
「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景
668 0
|
SQL 自然语言处理 达摩院
「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景(1)
「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景
1642 0
|
机器学习/深度学习 人工智能 达摩院
最大数据集、多任务覆盖,阿里达摩院发布首个大规模中文多模态评测基准MUGE
最大数据集、多任务覆盖,阿里达摩院发布首个大规模中文多模态评测基准MUGE
735 0
|
机器学习/深度学习 人工智能 达摩院
大规模中文多模态评测基准MUGE发布
近年来,大规模神经网络模型以及预训练等技术的成功实践推动着计算机视觉和自然语言处理等领域快速发展,同时也推动了多模态表征学习的研究。2020年Jeff Dean就曾指出,多模态研究将会是未来研究一大趋势。在国内,目前阿里巴巴达摩院智能计算实验室也在深度探索中文多模态预训练及超大规模预训练,近期相继推出了百亿、千亿和万亿参数M6模型 [1],实现了当前最大规模的多模态预训练模型,并将其应用到各大下游任务,广泛落地到搜索、推荐、服饰设计、智能文案等真实场景中。
439 0
大规模中文多模态评测基准MUGE发布
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
253 2

热门文章

最新文章

下一篇
oss云网关配置