「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景（2）-阿里云开发者社区

「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景（2）

2023-05-15 375

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_高级版，每接口累计50万次

NLP自然语言处理_基础版，每接口每天50万次

NLP 自学习平台，3个模型定制额度 1个月

简介： 「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景

11、大规模的人脸属性数据集 CelebA

CelebFaces Attributes Dataset (CelebA) 是一个大规模的人脸属性数据集，由香港中文大学开放提供。它包含超过 20 万张名人图像，每张图像有 40 个属性标记。该数据集中的图像涵盖了较大的姿势变化和背景杂乱。CelebA 种类多、数量多、注释丰富，包括 10,177 个身份，202,599 张人脸图像，以及 5 个人脸特征点坐标，每张图像 40 个属性标记。

该数据集可用作以下计算机视觉任务的训练和测试集：人脸属性识别、人脸识别、人脸检测、地标（或人脸部分）定位以及人脸编辑与合成。

官方地址：http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

12、行为识别数据集 UCF101

UCF101 数据集是 UCF50 的扩展，由 13,320 个视频片段组成，分为 101 个类别。这 101 个类别可分为 5 种类型（身体运动、人与人互动、人与物体互动、演奏乐器和运动）。这些视频剪辑的总长度超过 27 小时。所有视频均从 YouTube 收集，具有 25 FPS 的固定帧速率，分辨率为 320 × 240。

论文地址：https://arxiv.org/pdf/1212.0402v1.pdf
天池地址：https://tianchi.aliyun.com/dataset/dataDetail?dataId=92158

13、城市街景语义理解的大型数据库 Cityscapes

Cityscapes 是一个专注于城市街景语义理解的大型数据库，由戴姆勒研究所，马克斯•普朗克信息学研究所和达姆施塔特科技大学可视化推理工作组提供。该数据集由大约 5000 个精细标注的图像和 20000 个粗糙标注的图像组成。它为分为 8 个类别（平面、人类、车辆、建筑、物体、自然、天空和虚空）的 30 个类别提供语义、实例和密集像素注释。该数据集具备多样性，历经数月（春、夏、秋）在白天和良好的天气条件下获得，并由手动选择帧，且具有以下特征：大量动态对象、变化的场景布局和变化的背景。

Cityscapes 数据集适用于

评估视觉算法在语义城市场景理解的主要任务中的性能：像素级、实例级和全景语义标记；
支持旨在利用大量（弱）注释数据的研究，例如用于训练深度神经网络。

官方地址：https://www.cityscapes-dataset.com
论文地址：https://arxiv.org/pdf/1604.01685v2.pdf
天池地址：https://tianchi.aliyun.com/dataset/dataDetail?dataId=92279

14、IBM 研究院、Meta AI 等多家机构发布新基准 SCROLLS

目前，NLP 的基准主要集中在短文本上，如句子和段落。来自 IBM 研究院、Meta AI 等多家机构发布新基准 SCROLLS (Standardized CompaRison Over Long Language Sequences)。

该条进展工作通过研究了现有的长文本数据集，并精心挑选了那些文本较长的数据集，同时优先考虑那些涉及综合输入信息的任务。SCROLLS 包含总结、问题回答和自然语言推理任务，涵盖多个领域，包括文学、科学、商业和娱乐。SCROLLS 以统一的文本到文本格式提供所有的数据集，并主持一个实时排行榜，以促进对模型架构和预训练方法的研究。

官方地址：https://www.scrolls-benchmark.com
论文地址：https://arxiv.org/abs/2201.03533v1

15、CLUE 团队发布应用在 NLP 领域的数据为中心的基准 DataCLUE

以数据为中心（Data-centric）的AI，是一种新型的AI探索方向。它的核心问题是如何通过系统化的改造你的数据（无论是输入或者标签）来提高最终效果。

DataCLUE 是一个以数据为中心的 AI 测评。它基于 CLUE benchmark，结合 Data-centric 的 AI 的典型特征，进一步将 Data-centric 的 AI 应用于 NLP 领域，融入文本领域的特定并创造性丰富和发展了 Data-centric 的 AI。在原始数据集外，它通过提供额外的高价值的数据和数据和模型分析报告（增值服务）的形式，使得融入人类的 AI 迭代过程（Human-in-the-loop AI pipeline) 变得更加高效，并能较大幅度提升最终效果。

论文地址：https://arxiv.org/abs/2111.08647v2
Github：https://github.com/CLUEbenchmark/DataCLUE

在机器之心 SOTA！模型联合阿里云天池推出的「虎卷 er 行动 · 春卷er」中，我们基于「 AI人必追」的本季度举办的国际顶会及机器之心报道中的社区热议工作，「炼丹者必备」的基准数据集、AI顶会挑战赛优胜算法及开发基础知识，共同设计了由60道选择题构成的「虎卷er · 春榜试题」，并编撰了 3 套独家配套技术复习资料，帮助关注前沿AI技术发展的开发者梳理第一季度的重要 AI 技术工作的同时帮助注重实践技能的开发者快速温故知新，巩固知识与技能。

「虎卷er · 春榜试题」具体分布如下 ——

「本季必追国际影响力AI工作」：共 18 题
「AI开发常用的Benchmark数据集」：共 15 题
「今年刷爆顶会Leaderboard的算法」：共 7 题
「AI Foundation专业知识与开发实践基础」：共 20 题

活动期间，关注「机器之心 SOTA模型」服务号，即可通过底部菜单栏进入活动。

跟随入口引导，使用阿里云账号登录后即可进入活动界面开始答题。

「春卷er」10道「AI Foundation专业知识与开发实践基础」新题已解锁！

1	在 CNN 网络中，某图经过核为 3x3，步长为 2 的卷积层，ReLU 激活函数层，BN 层，以及一个步长为 2，核为 22 的池化层后，再经过一个 33 的的卷积层，步长为 1，此时的感受野是？
	13	12	11	10
2	以下是非马尔科夫过程的是？
	独立增量过程	泊松过程	维纳过程	自回归过程
3	以下对 k-means 聚类算法解释正确的是？
	能自动识别类的个数，随机挑选初始点为中心点计算	能自动识别类的个数，不是随机挑选初始点为中心点计算	不能自动识别类的个数，随机挑选初始点为中心点计算	不能自动识别类的个数，不是随机挑选初始点为中心点计算
4	某个二分类模型，在训练数据上表现很好，但是在验证数据上表现不佳，通常称这种问题为？
	欠拟合	过拟合	样本不均衡	样本缺失
5	下列哪一个不是常用于回归建模问题的损失函数？
	均方误差（MSE Loss）	交叉熵（Cross Entropy Loss）	均绝对误差（MAE Loss）	Huber Loss
6	下列哪一个不是LSTM（Long Short-Term Memory）的门控单元？
	输出门	更新门	输入门	遗忘门
7	在卷积神经网络（CNN）中，使用 55 的卷积核对 500500 的图片求卷积，那么在输入层和卷积层之间一共有多少个参数需要训练？
	10000	25	26	250000
8	在机器学习的分类模型中，评估模型预测效果的指标有准确率（Accuracy）、召回率（Recall）、精确率（Precision）、F1指标（F1 measure），下列属于Recall 指标的表达式为？
	正确的正例样本数/样本中的正例样本数	提取出的正确样本数/总样本数	正确的正例样本数/预测为正例的样本数	PrecisionRecall2 / (Precision+Recall)
9	进行机器学习的时候，通常需要对数据进行降维处理，关于降维，以下说法错误的是？
	降维可以节省存储空间	一般先使用非线性降维的方法，再使用线性降维的方法	降维可以去除冗余特征	降维从一定程度上可以防止模型过拟合
10	对于一个深度学习分类任务，如果权重初始化时所有变量都设置为 0，下面哪一个描述是正确的？
	没有问题，深度学习拟合能力很强，可以正常训练得到结果	深度学习不会开始训练，因为没有梯度变化	深度学习可以训练，但所有的类别都会被识别为一类	以上说法都不对

「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景（2）

活动期间，关注「机器之心 SOTA模型」服务号，即可通过底部菜单栏进入活动。

「春卷er」10道「AI Foundation专业知识与开发实践基础」新题已解锁！

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景（2）

活动期间，关注「机器之心 SOTA模型」服务号，即可通过底部菜单栏进入活动。

「春卷er」10道「AI Foundation专业知识与开发实践基础」新题已解锁！

热门文章

最新文章

相关课程

相关电子书

相关实验场景