「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景(1)

简介: 「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景

1、首个大规模中文多模态评测基准 MUGE



MUGE(Multimodal Understanding and Generation Evaluation)是业界首个大规模中文多模态评测基准,由达摩院联合浙江大学、阿里云天池平台联合发布,中国计算机学会计算机视觉专委会(CCF-CV专委)协助推出。MUGE榜单为研究者们提供了统一的数据和评测基准,旨在促进多模态理解与生成领域的技术发展。


到目前为止,MUGE 包括:多模态理解和生成任务的基准,包括电子商务图像字幕、文本到图像生成和多模态图文检索任务,供研究人员跟踪其模型性能的公共排行榜。



2、中文医疗信息处理评测基准 CBLUE



中文医疗信息处理评测基准 CBLUE(Chinese Biomedical Language Understanding Evaluation)是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办,并由医渡云(北京)技术有限公司、平安医疗科技、阿里夸克、腾讯天衍实验室、北京大学、鹏城实验室、哈尔滨工业大学(深圳)、郑州大学、同济大学、中山大学、复旦大学等开展智慧医疗研究的单位共同协办,旨在推动中文医学 NLP 技术和社区的发展。


榜单在设计上综合考虑了任务类型和任务难度两个维度,目标是建设一个任务类型覆盖广、同时也要保证任务的难度的 benchmark,因此榜单在吸收往届 CHIP/CCKS/CCL 等学术评测任务的同时也适当增加了业界数据集,业务数据集的特点是数据真实且有噪音,对模型的鲁棒性提出了更高的要求。CBLUE 评测基准 2.0 包括医学文本信息抽取(实体识别、关系抽取、事件抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医疗对话理解与生成共 5 大类任务 14 个子任务。



3、黑盒优化 Benchmark——RABBO



RABBO(Real-Aplication Black-Box Optimization benchmark)榜单由达摩院决策智能实验室倾力维护,依托于阿里云天池平台的支持,提供具有实际应用背景的黑盒优化测试问题及评测方案,旨在帮助算法研发者打磨求解真实场景问题的黑盒优化算法,为算法使用者提供各类算法特点与适用场景分析以及使用参考。


RABBO 提供了针对黑盒优化问题的数学建模和优化求解的思路,提供了黑盒优化接口规范代码、实际应用背景的测试问题、和效果评测的方案。2021 年 10 月发布的是 RABBO V1.0 版本,数据集的题目包含包含:经典题目集、金属冶炼配比优化、火星路径规划、风场微观选址。



4、人类动作识别的大规模数据集 NTU RGB+D



NTU RGB+D 是一个用于 RGB-D 人类动作识别的大规模数据集。它涉及从 40 名受试者身上收集的 60 个动作类别的 56,880 个样本。这些动作一般可分为三类。40 个日常动作(如喝水、吃饭、阅读),9 个与健康有关的动作(如打喷嚏、踉跄、跌倒),以及 11 个相互间的动作(如打拳、踢腿、拥抱)。这些动作发生在 17 个不同的场景条件下,对应 17 个视频序列(即 S001-S017)。


这些动作是用三台摄像机拍摄的,它们具有不同的水平成像视角,即 -45∘、0∘ 和 +45∘。为动作特征提供了多模式信息,包括深度图、三维骨架关节位置、RGB 帧和红外序列。性能评估是通过将 40 名受试者分成训练组和测试组的交叉测试,以及采用一台摄像机(+45∘)进行测试,另外两台摄像机进行训练的跨视角测试来进行的。



5、大规模的分层图像数据库 ImageNet



ImageNet 数据集根据 WordNet 层次结构包含 14,197,122 个带注释的图像。自 2010 年以来,该数据集被用于 ImageNet 大规模视觉识别挑战赛 (ImageNet Large Scale Visual Recognition Challenge, ILSVRC),这是图像分类和对象检测的基准。公开发布的数据集包含一组手动注释的训练图像。还发布了一组测试图像,保留了手动注释。


ILSVRC 注释属于以下两类之一:

(1)图像级二进制标签的注释,用于表示图像中是否存在对象类,例如,“这张图像中有汽车”但“没有老虎, ”

(2)图像中对象实例周围的紧密边界框和类标签的对象级注释,例如,“有一把螺丝刀以 (20,25) 位置为中心,宽度为 50 像素,高度为 30 像素”。



6、六千万微小图片数据集 CIFAR-10



CIFAR -10(Canadian Institute for Advanced Research, 10 classes)是 Tiny Images 数据集的子集,由 60000 张 32x32 彩色图像组成,它们由 Alex Krizhevsky、Vinod Nair 和 Geoffrey Hinton 收集。这些图像标有 10 个相互排斥的类别之一:飞机、汽车(但不是卡车或皮卡车)、鸟、猫、鹿、狗、青蛙、马、船和卡车(但不是皮卡车)。每类有 6000 张图像,每类有 5000 张训练图像和 1000 张测试图像。



7、大型的手写数字集合 MNIST



MNIST 数据库(Modified National Institute of Standards and Technology database)是一个大型的手写数字集合。它有一个包含 60,000 个例子的训练集和一个包含 10,000 个例子的测试集。


它是更大的 NIST 特别数据库 3(由美国人口普查局雇员书写的数字)和特别数据库 1(由高中学生书写的数字)的一个子集,其中包含手写数字的单色图像。这些数字的大小已被规范化,并在一个固定尺寸的图像中居中。来自 NIST 的原始黑白(二层)图像被归一化,以适合 20x20 像素的盒子,同时保留其长宽比。



8、通用语言理解评估基准 GLUE



为了使自然语言理解(NLU)技术在实践中和作为科学研究对象发挥最大的作用,它必须是通用的:它必须能够以一种不专门针对任何一个特定任务或数据集的方式来处理语言。


为此,来自纽约大学、华盛顿大学、DeepMind 等机构的研究者提出通用语言理解评估基准(General Language Understanding Evaluation benchmark, GLUE),它是 9 个自然语言理解任务的集合,包括单句任务 CoLA 和 SST-2 ,相似性和转述任务 MRPC 、STS-B 和 QQP ,以及自然语言推理任务 MNLI、QLNLI、RTE 和 WNLI 。



9、用于为关系数据库开发自然语言界面的大型众包数据集 WikiSQL



WikiSQL 包括一个由 87,726 个手工注释的 SQL 查询和自然语言问题对组成的语料库,由 Salesforce Research 发布。这些 SQL 查询被进一步分成训练(61297个例子)、开发(9145个例子)和测试集(17284个例子)。它可用于与关系型数据库有关的自然语言推理任务。



10、来自维基百科文章的问题-答案对的集合 SQuAD



Stanford Question Answering Dataset (SQuAD)是一个来自维基百科文章的问题-答案对的集合,由斯坦福大学发布。在 SQuAD 中,问题的正确答案可以是给定文本中的任何标记序列。由于问题和答案是由人类通过众包产生的,因此它比其他一些问题-答案数据集更加多样化。


SQuAD 1.1 包含了 536 篇文章的 107,785 个问题-答案对。SQuAD 2.0(开放域 SQuAD,SQuAD-Open)是最新的版本,它将 SQuAD 1.1 中的 100,000 个问题与超过 50,000 个由众包者以类似于可回答问题的形式逆向编写的不可回答的问题相结合。




相关文章
|
1月前
|
存储 机器学习/深度学习 人工智能
AIGC训练场景下的存储特征研究
在今天这样以AIGC为代表的AI时代下,了解训练场景对于存储的具体诉求同样是至关重要的。本文将尝试解读WEKA的一个相关报告,来看看AIGC对于存储有哪些具体的性能要求。
94531 7
|
10月前
|
自然语言处理 测试技术 vr&ar
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
220 0
|
1月前
|
存储 机器学习/深度学习 人工智能
论文介绍:InfLLM——揭示大型语言模型在无需训练的情况下处理极长序列的内在能力
【5月更文挑战第18天】InfLLM是一种新方法,无需额外训练即可增强大型语言模型处理极长序列的能力。通过使用记忆单元存储长序列的远距离上下文,InfLLM能更准确地捕捉长距离依赖,提高对长文本理解。实验表明,InfLLM使预训练在短序列上的模型在处理极长序列时表现媲美甚至超过专门训练的模型。尽管有挑战,如动态上下文分割和记忆单元效率,InfLLM为长序列处理提供了有效且未经训练的解决方案。论文链接:https://arxiv.org/abs/2402.04617
38 3
|
1月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
35 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
1月前
|
机器学习/深度学习 数据采集 人工智能
【AI 初识】机器学习中维度的诅咒是什么?
【5月更文挑战第2天】【AI 初识】机器学习中维度的诅咒是什么?
|
1月前
|
机器学习/深度学习 计算机视觉
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
63 0
|
10月前
|
机器学习/深度学习 人工智能 算法
化学语言模型polyBERT,以前所未有的速度和准确性在聚合物「宇宙」中搜索所需聚合物
化学语言模型polyBERT,以前所未有的速度和准确性在聚合物「宇宙」中搜索所需聚合物
|
机器学习/深度学习 人工智能 编解码
「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景(2)
「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景
284 0
|
机器学习/深度学习 人工智能 算法
机器学习模型以出色的精度进行有机反应机理分类
机器学习模型以出色的精度进行有机反应机理分类
132 0
|
数据采集 人工智能 算法
ECCV 2022 | 76小时动捕,最大规模数字人多模态数据集开源
ECCV 2022 | 76小时动捕,最大规模数字人多模态数据集开源
117 0