「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景(1)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景

1、首个大规模中文多模态评测基准 MUGE



MUGE(Multimodal Understanding and Generation Evaluation)是业界首个大规模中文多模态评测基准,由达摩院联合浙江大学、阿里云天池平台联合发布,中国计算机学会计算机视觉专委会(CCF-CV专委)协助推出。MUGE榜单为研究者们提供了统一的数据和评测基准,旨在促进多模态理解与生成领域的技术发展。


到目前为止,MUGE 包括:多模态理解和生成任务的基准,包括电子商务图像字幕、文本到图像生成和多模态图文检索任务,供研究人员跟踪其模型性能的公共排行榜。



2、中文医疗信息处理评测基准 CBLUE



中文医疗信息处理评测基准 CBLUE(Chinese Biomedical Language Understanding Evaluation)是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办,并由医渡云(北京)技术有限公司、平安医疗科技、阿里夸克、腾讯天衍实验室、北京大学、鹏城实验室、哈尔滨工业大学(深圳)、郑州大学、同济大学、中山大学、复旦大学等开展智慧医疗研究的单位共同协办,旨在推动中文医学 NLP 技术和社区的发展。


榜单在设计上综合考虑了任务类型和任务难度两个维度,目标是建设一个任务类型覆盖广、同时也要保证任务的难度的 benchmark,因此榜单在吸收往届 CHIP/CCKS/CCL 等学术评测任务的同时也适当增加了业界数据集,业务数据集的特点是数据真实且有噪音,对模型的鲁棒性提出了更高的要求。CBLUE 评测基准 2.0 包括医学文本信息抽取(实体识别、关系抽取、事件抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医疗对话理解与生成共 5 大类任务 14 个子任务。



3、黑盒优化 Benchmark——RABBO



RABBO(Real-Aplication Black-Box Optimization benchmark)榜单由达摩院决策智能实验室倾力维护,依托于阿里云天池平台的支持,提供具有实际应用背景的黑盒优化测试问题及评测方案,旨在帮助算法研发者打磨求解真实场景问题的黑盒优化算法,为算法使用者提供各类算法特点与适用场景分析以及使用参考。


RABBO 提供了针对黑盒优化问题的数学建模和优化求解的思路,提供了黑盒优化接口规范代码、实际应用背景的测试问题、和效果评测的方案。2021 年 10 月发布的是 RABBO V1.0 版本,数据集的题目包含包含:经典题目集、金属冶炼配比优化、火星路径规划、风场微观选址。



4、人类动作识别的大规模数据集 NTU RGB+D



NTU RGB+D 是一个用于 RGB-D 人类动作识别的大规模数据集。它涉及从 40 名受试者身上收集的 60 个动作类别的 56,880 个样本。这些动作一般可分为三类。40 个日常动作(如喝水、吃饭、阅读),9 个与健康有关的动作(如打喷嚏、踉跄、跌倒),以及 11 个相互间的动作(如打拳、踢腿、拥抱)。这些动作发生在 17 个不同的场景条件下,对应 17 个视频序列(即 S001-S017)。


这些动作是用三台摄像机拍摄的,它们具有不同的水平成像视角,即 -45∘、0∘ 和 +45∘。为动作特征提供了多模式信息,包括深度图、三维骨架关节位置、RGB 帧和红外序列。性能评估是通过将 40 名受试者分成训练组和测试组的交叉测试,以及采用一台摄像机(+45∘)进行测试,另外两台摄像机进行训练的跨视角测试来进行的。



5、大规模的分层图像数据库 ImageNet



ImageNet 数据集根据 WordNet 层次结构包含 14,197,122 个带注释的图像。自 2010 年以来,该数据集被用于 ImageNet 大规模视觉识别挑战赛 (ImageNet Large Scale Visual Recognition Challenge, ILSVRC),这是图像分类和对象检测的基准。公开发布的数据集包含一组手动注释的训练图像。还发布了一组测试图像,保留了手动注释。


ILSVRC 注释属于以下两类之一:

(1)图像级二进制标签的注释,用于表示图像中是否存在对象类,例如,“这张图像中有汽车”但“没有老虎, ”

(2)图像中对象实例周围的紧密边界框和类标签的对象级注释,例如,“有一把螺丝刀以 (20,25) 位置为中心,宽度为 50 像素,高度为 30 像素”。



6、六千万微小图片数据集 CIFAR-10



CIFAR -10(Canadian Institute for Advanced Research, 10 classes)是 Tiny Images 数据集的子集,由 60000 张 32x32 彩色图像组成,它们由 Alex Krizhevsky、Vinod Nair 和 Geoffrey Hinton 收集。这些图像标有 10 个相互排斥的类别之一:飞机、汽车(但不是卡车或皮卡车)、鸟、猫、鹿、狗、青蛙、马、船和卡车(但不是皮卡车)。每类有 6000 张图像,每类有 5000 张训练图像和 1000 张测试图像。



7、大型的手写数字集合 MNIST



MNIST 数据库(Modified National Institute of Standards and Technology database)是一个大型的手写数字集合。它有一个包含 60,000 个例子的训练集和一个包含 10,000 个例子的测试集。


它是更大的 NIST 特别数据库 3(由美国人口普查局雇员书写的数字)和特别数据库 1(由高中学生书写的数字)的一个子集,其中包含手写数字的单色图像。这些数字的大小已被规范化,并在一个固定尺寸的图像中居中。来自 NIST 的原始黑白(二层)图像被归一化,以适合 20x20 像素的盒子,同时保留其长宽比。



8、通用语言理解评估基准 GLUE



为了使自然语言理解(NLU)技术在实践中和作为科学研究对象发挥最大的作用,它必须是通用的:它必须能够以一种不专门针对任何一个特定任务或数据集的方式来处理语言。


为此,来自纽约大学、华盛顿大学、DeepMind 等机构的研究者提出通用语言理解评估基准(General Language Understanding Evaluation benchmark, GLUE),它是 9 个自然语言理解任务的集合,包括单句任务 CoLA 和 SST-2 ,相似性和转述任务 MRPC 、STS-B 和 QQP ,以及自然语言推理任务 MNLI、QLNLI、RTE 和 WNLI 。



9、用于为关系数据库开发自然语言界面的大型众包数据集 WikiSQL



WikiSQL 包括一个由 87,726 个手工注释的 SQL 查询和自然语言问题对组成的语料库,由 Salesforce Research 发布。这些 SQL 查询被进一步分成训练(61297个例子)、开发(9145个例子)和测试集(17284个例子)。它可用于与关系型数据库有关的自然语言推理任务。



10、来自维基百科文章的问题-答案对的集合 SQuAD



Stanford Question Answering Dataset (SQuAD)是一个来自维基百科文章的问题-答案对的集合,由斯坦福大学发布。在 SQuAD 中,问题的正确答案可以是给定文本中的任何标记序列。由于问题和答案是由人类通过众包产生的,因此它比其他一些问题-答案数据集更加多样化。


SQuAD 1.1 包含了 536 篇文章的 107,785 个问题-答案对。SQuAD 2.0(开放域 SQuAD,SQuAD-Open)是最新的版本,它将 SQuAD 1.1 中的 100,000 个问题与超过 50,000 个由众包者以类似于可回答问题的形式逆向编写的不可回答的问题相结合。




相关文章
|
5月前
|
人工智能 测试技术 vr&ar
DataDoP :一个大规模多模态数据集,包含 29K 真实世界的自由运动相机轨迹、深度图和详细的动作描述,目的支持艺术化相机轨迹生成。
2025-04-10 ,由浙江大学、上海人工智能实验室、斯坦福大学、香港中文大学和南洋理工大学联合创建了 DataDoP 数据集。该数据集包含 29K 真实世界的自由运动相机轨迹、深度图和详细的动作描述,目的为艺术化相机轨迹生成提供高质量的训练数据,推动基于学习的电影摄影技术发展。 一、研究背景 在视频制作中,相机轨迹设计是传达导演意图和增强视觉叙事的关键工具。传统方法依赖于几何优化或手工设计的程序系统,而近年来的基于学习的方法则继承了结构偏差或缺乏文本对齐,限制了创意合成。 目前遇到困难和挑战: 1、传统方法的局限性:传统方法依赖于几何建模或成本函数工程,限制了创意合成。 2、现有数据集的
|
JSON 编解码 物联网
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
|
机器学习/深度学习 人工智能 编解码
「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景(2)
「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景
572 0
|
机器学习/深度学习 人工智能 达摩院
最大数据集、多任务覆盖,阿里达摩院发布首个大规模中文多模态评测基准MUGE
最大数据集、多任务覆盖,阿里达摩院发布首个大规模中文多模态评测基准MUGE
618 0
|
机器学习/深度学习 人工智能 达摩院
大规模中文多模态评测基准MUGE发布
近年来,大规模神经网络模型以及预训练等技术的成功实践推动着计算机视觉和自然语言处理等领域快速发展,同时也推动了多模态表征学习的研究。2020年Jeff Dean就曾指出,多模态研究将会是未来研究一大趋势。在国内,目前阿里巴巴达摩院智能计算实验室也在深度探索中文多模态预训练及超大规模预训练,近期相继推出了百亿、千亿和万亿参数M6模型 [1],实现了当前最大规模的多模态预训练模型,并将其应用到各大下游任务,广泛落地到搜索、推荐、服饰设计、智能文案等真实场景中。
395 0
大规模中文多模态评测基准MUGE发布
|
机器学习/深度学习 人工智能 达摩院
大规模中文多模态评测基准MUGE发布
MUGE全称是Multimodal Understanding and Generation Evaluation Benchmark,是由达摩院智能计算实验室认知智能团队推出了大规模中文多模态评测基准,拥有当前最大规模的中文多模态评测数据集,覆盖多种类型的任务,包括图文描述、基于文本的图像生成、跨模态检索等。MUGE的推出旨在解决当前中文多模态领域下游任务数据集匮乏的问题,并且为广大研究者提供平台和评测基准去衡量算法模型的有效性。
1255 0
大规模中文多模态评测基准MUGE发布
|
19天前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
268 109
|
25天前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
286 2
|
1月前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
334 23
|
1月前
|
人工智能 JavaScript 测试技术
Cradle:颠覆AI Agent 操作本地软件,AI驱动的通用计算机控制框架,如何让基础模型像人一样操作你的电脑?
Cradle 是由 BAAI‑Agents 团队开源的通用计算机控制(GCC)多模态 AI Agent 框架,具备视觉输入、键鼠操作输出、自主学习与反思能力,可操作各类本地软件及游戏,实现任务自动化与复杂逻辑执行。
178 6

热门文章

最新文章