大规模中文多模态评测基准MUGE发布

简介: 近年来,大规模神经网络模型以及预训练等技术的成功实践推动着计算机视觉和自然语言处理等领域快速发展,同时也推动了多模态表征学习的研究。2020年Jeff Dean就曾指出,多模态研究将会是未来研究一大趋势。在国内,目前阿里巴巴达摩院智能计算实验室也在深度探索中文多模态预训练及超大规模预训练,近期相继推出了百亿、千亿和万亿参数M6模型 [1],实现了当前最大规模的多模态预训练模型,并将其应用到各大下游任务,广泛落地到搜索、推荐、服饰设计、智能文案等真实场景中。

截屏2021-11-23 下午2.47.17.png

|背景

近年来,大规模神经网络模型以及预训练等技术的成功实践推动着计算机视觉和自然语言处理等领域快速发展,同时也推动了多模态表征学习的研究。2020年Jeff Dean就曾指出,多模态研究将会是未来研究一大趋势。在国内,目前阿里巴巴达摩院智能计算实验室也在深度探索中文多模态预训练及超大规模预训练,近期相继推出了百亿、千亿和万亿参数M6模型 [1],实现了当前最大规模的多模态预训练模型,并将其应用到各大下游任务,广泛落地到搜索、推荐、服饰设计、智能文案等真实场景中。

然而,目前多模态领域的评测基准和数据集多以英文为主,如MSCOCO的Image Captioning [2],VQA [3][4],textVQA,VCR等,并且缺乏一个统一的评测基准让研究人员可以全面评测自己的模型在不同场景以及不同任务类型的表现。当前中文领域的多模态公开数据集和榜单更是乏善可陈。考虑到中文多模态领域的蓬勃发展,达摩院智能计算实验室认知智能团队推出了大规模中文多模态评测基准MUGE,拥有当前最大规模的中文多模态评测数据集,覆盖多种类型的任务,包括图文描述、基于文本的图像生成、跨模态检索等,对模型展开了全方位的评测,帮助研究人员对自己的模型得到更好的理解。

MUGE介绍|

MUGE全称是Multimodal Understanding and Generation Evaluation Benchmark,首期主要开放中文多模态相关下游任务数据集和评测榜单,旨在帮助中文多模态研究人员全方位评估算法模型。MUGE将实现多场景多任务的覆盖,其中包括理解类任务,如跨模态检索、跨模态分类等,以及生成类任务,如图文描述、基于文本的图像生成等,研究人员能够从理解能力和生成能力两大角度去评估算法模型。首期开放了包括了如下3个任务:

E-Commerce IC(Image Caption)

图像描述生成是一项经典的多模态任务,任务目标是根据一张图像生成相应的文字描述,要求生成的描述须如实反映图中的物体以及关键细节。电商领域有着众多的商品图片,将图像描述技术应用于电商领域,为每个商品生成一段富含吸引力的描述,对于吸引用户的点击、提高转化率有着重要的意义。

本次发布E-Commerce IC数据集涵盖了服装、食品、化妆品、3C数码配件等众多商品类目,所有数据均来源于真实的淘宝电商场景。其中,商品对应的文字描述由商家根据商品特性来撰写,不同文案间的风格差异很大,这给图像描述的生成带来了很多挑战。ECommerce-IC共包含5w条训练数据和5k条验证集数据,同时提供1w张图片用于在线评测,是目前业界最大的中文电商Caption数据集。

下面是两个样例:

例子1:

输入(商品图片):

截屏2021-11-23 下午2.47.29.png

输出(商品文案描述):使用原始北欧风格,崇尚自然,以木色、黑色、白色作为整体色调,给人舒适宁静的感觉,轻松就餐,才能留住好食光,在极简风的北欧餐厅中,尽情享受美食。

例子2:

输入(商品图片):

截屏2021-11-23 下午2.47.38.png

输出(商品文案描述):西装印花裙的两件套,知性中又带着优雅洒脱。雅致的印花裙邂逅西服,轻松打造精致的职场女神。脱掉外套依然美丽优雅,不失为明智的穿搭。V领的设计更显女性的性感魅力。如行走的时装画册精致,有品位更具有风度。

E-Commerce T2I(Text to Image):

文本到图像生成是一项具有挑战性的任务,要求模型具有在跨模态理解的基础上生成图像的能力。任务目标是根据一段文本描述,生成符合相应描述的图像,同时要求图像清晰且逼真。电商领域有着众多的商品图片,将文本到图像生成技术应用于电商领域,对于商品上新、设计、分发,减少商家运营成本,提高用户体验有着重要的意义。

本次发布的ECommerce-T2I数据集涵盖了服装、饰品、化妆品内的多个商品类目,所有数据均来源于真实淘宝电商场景。整个数据集由训练集、验证集和测试集组成。其中训练集有9w张图片,验证集和测试集各有5k张。此外,本数据集内的图片均为白底图,选手无需额外的精力放在背景生成上,主要考察模型对商品文本的理解和生成能力,提高物体的生成质量。

下面是两个样例:

例子1:

输入(文本):绵羊毛商务休闲西服套装

输出(生成图像):

截屏2021-11-23 下午2.47.56.png

例子2:

输入(文本):减震透气跑鞋

输出(生成图像):

截屏2021-11-23 下午2.48.05.png

Multimodal Retrieval Dataset

多模态检索评价模型进行图文理解和匹配的能力,是电商场景中满足用户需求、促成点击交易不可缺少的一环。在此次任务中,我们准备了来自于淘宝电商平台的真实搜索query及商品图,要求模型从给定的商品池中检索出与搜索query相匹配的商品(样例如下图)。为了更好评价模型跨模态理解的效果,我们此次不公开商品的标题以及其他信息,要求模型仅基于商品图片进行检索召回,具有一定的挑战性。

此次公开的电商图文检索数据集由训练集、验证集和测试集组成,其中训练集包含25w搜索query-商品图构成的图文对,涵盖约12w商品图片。对于验证集和测试集,我们各准备了5k搜索query和3w候选商品图片。数据集类目涵盖广泛,涉及服装、家居、电子、化妆品等多个领域,是目前最大的中文全领域电商图文检索数据集,对模型的泛化能力提出了考验。

下面是两个样例:

例子1:

输入(Query):纯棉碎花吊带裙

输出:商品图片

截屏2021-11-23 下午2.48.22.png截屏2021-11-23 下午2.48.32.png

例子2:

输入(Query):北欧轻奢边几

输出:商品图片

截屏2021-11-23 下午2.48.43.png截屏2021-11-23 下午2.48.52.png

MUGE挑战榜|

MUGE的提出旨在解决当前中文多模态领域下游任务数据集匮乏的问题,并且为广大研究者提供平台和评测基准去衡量算法模型的有效性。此外,相较于传统榜单,MUGE的覆盖面更全,涵盖理解和生成两大类任务,并开创性地将基于文本的图像生成纳入其中。未来,MUGE也会持续地扩增更多的多模态任务及数据规模,进一步为研究人员和开发者提升算法模型效果而提供支持。

MUGE目前已经在阿里云天池平台开放,感兴趣的研究者们可以访问如下链接进入MUGE leaderboard参与挑战,平台会在每个月的月底评出榜单Top8选手,并赠予天池定制礼品!

MUGE挑战榜地址:

https://tianchi.aliyun.com/specials/promotion/mugemultimodalunderstandingandgenerationevaluation

关于M6|

此前,达摩院智能计算实验室认知智能组大力推进超大规模中文多模态预训练工作研究,先后发布了百亿、千亿和万亿参数规模的大规模预训练模型M6,在多项下游任务上取得突出的效果提升,同时也在大规模预训练基础技术上做了深度的探索,包括如何训练超大模型和如何设计MoE模型架构等。M6的工作目前已被KDD 2021录用。

达摩院智能计算实验室认知智能组隶属于达摩院,致力于推进认知智能研究,在大量真实的商业场景中实现大规模落地,并在多模态预训练、大规模图神经网络等多个领域得到开创性的世界领先结果。团队研发的认知智能计算平台荣获2019年世界人工智能创新大赛的最高荣誉SAIL奖项,并且入选发改委国家重大建设项目库。团队曾荣获2020年国家科学技术进步奖二等奖和杭州市领军型创新团队,人员和技术实力雄厚,累计在CCF-A类会议和期刊上发表文章超百篇。

参考资料:

[1] Lin, J., Men, R., Yang, A., Zhou, C., Ding, M., Zhang, Y., Wang, P., Wang, A., Jiang, L., Jia, X., Zhang, J., Zhang, J., Zou, X., Li, Z., Deng, X., Liu, J., Xue, J., Zhou H., Ma, J., Yu, J., Li, Y., Zhou, J., Tang, J., & Yang, H. (2021). M6: A chinese multimodal pretrainer. ArXiv, abs/2103.00823.

[2] Chen, X., Fang, H., Lin, T., Vedantam, R., Gupta, S., Dollár, P., & Zitnick, C.L. (2015). Microsoft COCO Captions: Data Collection and Evaluation Server. ArXiv, abs/1504.00325.

[3] Agrawal, A., Lu, J., Antol, S., Mitchell, M., Zitnick, C.L., Parikh, D., & Batra, D. (2015). VQA: Visual Question Answering. International Journal of Computer Vision, 123, 4-31.

[4] Goyal, Y., Khot, T., Summers-Stay, D., Batra, D., & Parikh, D. (2017). Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 6325-6334.

相关文章
|
10天前
|
开发框架 自然语言处理 JavaScript
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。
|
2月前
|
人工智能 算法 测试技术
PAI 大语言模型评测平台现已支持裁判员模型评测
本文将为您介绍如何在 PAI 大语言模型评测平台,基于裁判员模型,评价开源模型或者微调后模型的性能。该功能限时免费,欢迎使用。
|
自然语言处理 测试技术 vr&ar
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
271 0
|
3月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
90 10
|
5月前
|
测试技术
谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力
【7月更文挑战第10天】DeepMind的ToT基准测试了大型语言模型的时间推理能力,分为ToT-Semantic(合成数据,评估时间逻辑理解)和ToT-Arithmetic(真实数据,检查时间计算)。研究使用Claude-3-Sonnet、GPT-4和Gemini 1.5 Pro进行评估,发现模型在时间逻辑理解上表现各异,而时间计算上均较强。 Gemini 1.5 Pro在复杂问题上表现出色,而GPT-4在数学相关问题上较弱。[[1](https://arxiv.org/pdf/2406.09170)]
67 1
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
502 42
|
自然语言处理 Python
中文大模型评测
中文大模型评测
806 3
|
7月前
|
机器学习/深度学习 数据采集 存储
百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4
百川智能发布大语言模型Baichuan 3,参数超千亿,表现出色。在CMMLU、GAOKAO等中文任务评测中超越GPT-4,且在MATH、HumanEval等专项评测中证明其自然语言处理和代码生成实力。Baichuan 3在医疗领域,如MCMLE、MedExam等评测中成绩突出,成为中文医疗任务的最佳模型。此外,它通过“迭代式强化学习”提升语义理解和生成能力,诗词创作能力远超其他模型。Baichuan 3的推出标志着百川智能在大模型技术上的新里程碑。
156 0
|
7月前
|
机器学习/深度学习 存储
百川智能发布超千亿大模型Baichuan3,中文评测超GPT-4
1月29日午间消息,百川智能宣布发布超千亿参数的大语言模型Baichuan 3。在 CMMLU、GAOKAO 和 AGI-Eval 等评测中,Baichuan 3 号称在中文任务上超越了 GPT-4。
下一篇
DataWorks