「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景(1)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景

1、首个大规模中文多模态评测基准 MUGE



MUGE(Multimodal Understanding and Generation Evaluation)是业界首个大规模中文多模态评测基准,由达摩院联合浙江大学、阿里云天池平台联合发布,中国计算机学会计算机视觉专委会(CCF-CV专委)协助推出。MUGE榜单为研究者们提供了统一的数据和评测基准,旨在促进多模态理解与生成领域的技术发展。


到目前为止,MUGE 包括:多模态理解和生成任务的基准,包括电子商务图像字幕、文本到图像生成和多模态图文检索任务,供研究人员跟踪其模型性能的公共排行榜。



2、中文医疗信息处理评测基准 CBLUE



中文医疗信息处理评测基准 CBLUE(Chinese Biomedical Language Understanding Evaluation)是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办,并由医渡云(北京)技术有限公司、平安医疗科技、阿里夸克、腾讯天衍实验室、北京大学、鹏城实验室、哈尔滨工业大学(深圳)、郑州大学、同济大学、中山大学、复旦大学等开展智慧医疗研究的单位共同协办,旨在推动中文医学 NLP 技术和社区的发展。


榜单在设计上综合考虑了任务类型和任务难度两个维度,目标是建设一个任务类型覆盖广、同时也要保证任务的难度的 benchmark,因此榜单在吸收往届 CHIP/CCKS/CCL 等学术评测任务的同时也适当增加了业界数据集,业务数据集的特点是数据真实且有噪音,对模型的鲁棒性提出了更高的要求。CBLUE 评测基准 2.0 包括医学文本信息抽取(实体识别、关系抽取、事件抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医疗对话理解与生成共 5 大类任务 14 个子任务。



3、黑盒优化 Benchmark——RABBO



RABBO(Real-Aplication Black-Box Optimization benchmark)榜单由达摩院决策智能实验室倾力维护,依托于阿里云天池平台的支持,提供具有实际应用背景的黑盒优化测试问题及评测方案,旨在帮助算法研发者打磨求解真实场景问题的黑盒优化算法,为算法使用者提供各类算法特点与适用场景分析以及使用参考。


RABBO 提供了针对黑盒优化问题的数学建模和优化求解的思路,提供了黑盒优化接口规范代码、实际应用背景的测试问题、和效果评测的方案。2021 年 10 月发布的是 RABBO V1.0 版本,数据集的题目包含包含:经典题目集、金属冶炼配比优化、火星路径规划、风场微观选址。



4、人类动作识别的大规模数据集 NTU RGB+D



NTU RGB+D 是一个用于 RGB-D 人类动作识别的大规模数据集。它涉及从 40 名受试者身上收集的 60 个动作类别的 56,880 个样本。这些动作一般可分为三类。40 个日常动作(如喝水、吃饭、阅读),9 个与健康有关的动作(如打喷嚏、踉跄、跌倒),以及 11 个相互间的动作(如打拳、踢腿、拥抱)。这些动作发生在 17 个不同的场景条件下,对应 17 个视频序列(即 S001-S017)。


这些动作是用三台摄像机拍摄的,它们具有不同的水平成像视角,即 -45∘、0∘ 和 +45∘。为动作特征提供了多模式信息,包括深度图、三维骨架关节位置、RGB 帧和红外序列。性能评估是通过将 40 名受试者分成训练组和测试组的交叉测试,以及采用一台摄像机(+45∘)进行测试,另外两台摄像机进行训练的跨视角测试来进行的。



5、大规模的分层图像数据库 ImageNet



ImageNet 数据集根据 WordNet 层次结构包含 14,197,122 个带注释的图像。自 2010 年以来,该数据集被用于 ImageNet 大规模视觉识别挑战赛 (ImageNet Large Scale Visual Recognition Challenge, ILSVRC),这是图像分类和对象检测的基准。公开发布的数据集包含一组手动注释的训练图像。还发布了一组测试图像,保留了手动注释。


ILSVRC 注释属于以下两类之一:

(1)图像级二进制标签的注释,用于表示图像中是否存在对象类,例如,“这张图像中有汽车”但“没有老虎, ”

(2)图像中对象实例周围的紧密边界框和类标签的对象级注释,例如,“有一把螺丝刀以 (20,25) 位置为中心,宽度为 50 像素,高度为 30 像素”。



6、六千万微小图片数据集 CIFAR-10



CIFAR -10(Canadian Institute for Advanced Research, 10 classes)是 Tiny Images 数据集的子集,由 60000 张 32x32 彩色图像组成,它们由 Alex Krizhevsky、Vinod Nair 和 Geoffrey Hinton 收集。这些图像标有 10 个相互排斥的类别之一:飞机、汽车(但不是卡车或皮卡车)、鸟、猫、鹿、狗、青蛙、马、船和卡车(但不是皮卡车)。每类有 6000 张图像,每类有 5000 张训练图像和 1000 张测试图像。



7、大型的手写数字集合 MNIST



MNIST 数据库(Modified National Institute of Standards and Technology database)是一个大型的手写数字集合。它有一个包含 60,000 个例子的训练集和一个包含 10,000 个例子的测试集。


它是更大的 NIST 特别数据库 3(由美国人口普查局雇员书写的数字)和特别数据库 1(由高中学生书写的数字)的一个子集,其中包含手写数字的单色图像。这些数字的大小已被规范化,并在一个固定尺寸的图像中居中。来自 NIST 的原始黑白(二层)图像被归一化,以适合 20x20 像素的盒子,同时保留其长宽比。



8、通用语言理解评估基准 GLUE



为了使自然语言理解(NLU)技术在实践中和作为科学研究对象发挥最大的作用,它必须是通用的:它必须能够以一种不专门针对任何一个特定任务或数据集的方式来处理语言。


为此,来自纽约大学、华盛顿大学、DeepMind 等机构的研究者提出通用语言理解评估基准(General Language Understanding Evaluation benchmark, GLUE),它是 9 个自然语言理解任务的集合,包括单句任务 CoLA 和 SST-2 ,相似性和转述任务 MRPC 、STS-B 和 QQP ,以及自然语言推理任务 MNLI、QLNLI、RTE 和 WNLI 。



9、用于为关系数据库开发自然语言界面的大型众包数据集 WikiSQL



WikiSQL 包括一个由 87,726 个手工注释的 SQL 查询和自然语言问题对组成的语料库,由 Salesforce Research 发布。这些 SQL 查询被进一步分成训练(61297个例子)、开发(9145个例子)和测试集(17284个例子)。它可用于与关系型数据库有关的自然语言推理任务。



10、来自维基百科文章的问题-答案对的集合 SQuAD



Stanford Question Answering Dataset (SQuAD)是一个来自维基百科文章的问题-答案对的集合,由斯坦福大学发布。在 SQuAD 中,问题的正确答案可以是给定文本中的任何标记序列。由于问题和答案是由人类通过众包产生的,因此它比其他一些问题-答案数据集更加多样化。


SQuAD 1.1 包含了 536 篇文章的 107,785 个问题-答案对。SQuAD 2.0(开放域 SQuAD,SQuAD-Open)是最新的版本,它将 SQuAD 1.1 中的 100,000 个问题与超过 50,000 个由众包者以类似于可回答问题的形式逆向编写的不可回答的问题相结合。




相关文章
|
8月前
|
人工智能 vr&ar 图形学
开源单图生成3D模型TripoSR的局限性分析
【2月更文挑战第25天】开源单图生成3D模型TripoSR的局限性分析
355 6
开源单图生成3D模型TripoSR的局限性分析
|
6天前
|
人工智能
TITAN:哈佛医学院推出多模态全切片病理基础模型,支持病理报告生成、跨模态检索
TITAN 是哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能够在无需微调或临床标签的情况下提取通用切片表示,生成病理报告。
46 8
TITAN:哈佛医学院推出多模态全切片病理基础模型,支持病理报告生成、跨模态检索
|
20天前
|
机器学习/深度学习 人工智能 调度
高效评估多模态预训练对齐质量,中科大提出模态融合率MIR
中国科学技术大学研究团队提出了一种新的评估指标——模态融合率(MIR),用于评估多模态预训练模型的对齐质量。MIR通过衡量不同模态之间的分布距离,有效反映了模型的对齐质量,并在多种训练配置下表现出良好的鲁棒性和通用性。实验结果表明,MIR能够准确评估训练数据选择、训练策略调度和模型架构设计对预训练结果的影响,为多模态学习提供了可靠的方法。
52 22
|
2月前
|
编解码 人工智能 自然语言处理
迈向多语言医疗大模型:大规模预训练语料、开源模型与全面基准测试
【10月更文挑战第23天】Oryx 是一种新型多模态架构,能够灵活处理各种分辨率的图像和视频数据,无需标准化。其核心创新包括任意分辨率编码和动态压缩器模块,适用于从微小图标到长时间视频的多种应用场景。Oryx 在长上下文检索和空间感知数据方面表现出色,并且已开源,为多模态研究提供了强大工具。然而,选择合适的分辨率和压缩率仍需谨慎,以平衡处理效率和识别精度。论文地址:https://www.nature.com/articles/s41467-024-52417-z
55 2
|
3月前
|
人工智能 计算机视觉
时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型
【10月更文挑战第15天】《VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters》提出了一种创新方法,通过将时序数据转化为图像,利用视觉掩码自编码器(MAE)进行自监督预训练,实现时序预测。该模型在未进行任何时序域适配的情况下,展现了出色的零样本预测性能,并且通过少量微调即可达到最先进水平。这一研究为时序预测领域带来了新希望,同时也引发了关于模型解释性和可信度的讨论。
122 1
|
8月前
|
存储 机器学习/深度学习 人工智能
AIGC训练场景下的存储特征研究
在今天这样以AIGC为代表的AI时代下,了解训练场景对于存储的具体诉求同样是至关重要的。本文将尝试解读WEKA的一个相关报告,来看看AIGC对于存储有哪些具体的性能要求。
95128 8
|
4月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
98 10
|
5月前
|
存储 机器学习/深度学习 测试技术
模型量化技术综述:揭示大型语言模型压缩的前沿技术
在这篇文章中,我将在语言建模的背景下介绍量化,并逐一探讨各个概念,探索各种方法论、用例以及量化背后的原理。
82 0
模型量化技术综述:揭示大型语言模型压缩的前沿技术
|
5月前
评估数据集CGoDial问题之多模态对话为什么重要
评估数据集CGoDial问题之多模态对话为什么重要
|
8月前
|
存储 机器学习/深度学习 人工智能
论文介绍:InfLLM——揭示大型语言模型在无需训练的情况下处理极长序列的内在能力
【5月更文挑战第18天】InfLLM是一种新方法,无需额外训练即可增强大型语言模型处理极长序列的能力。通过使用记忆单元存储长序列的远距离上下文,InfLLM能更准确地捕捉长距离依赖,提高对长文本理解。实验表明,InfLLM使预训练在短序列上的模型在处理极长序列时表现媲美甚至超过专门训练的模型。尽管有挑战,如动态上下文分割和记忆单元效率,InfLLM为长序列处理提供了有效且未经训练的解决方案。论文链接:https://arxiv.org/abs/2402.04617
201 3

热门文章

最新文章

下一篇
开通oss服务