「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景(2)

简介: 「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景

11、大规模的人脸属性数据集 CelebA



CelebFaces Attributes Dataset (CelebA) 是一个大规模的人脸属性数据集,由香港中文大学开放提供。它包含超过 20 万张名人图像,每张图像有 40 个属性标记。该数据集中的图像涵盖了较大的姿势变化和背景杂乱。CelebA 种类多、数量多、注释丰富,包括 10,177 个身份,202,599 张人脸图像,以及 5 个人脸特征点坐标,每张图像 40 个属性标记。


该数据集可用作以下计算机视觉任务的训练和测试集:人脸属性识别、人脸识别、人脸检测、地标(或人脸部分)定位以及人脸编辑与合成。



12、行为识别数据集 UCF101



UCF101 数据集是 UCF50 的扩展,由 13,320 个视频片段组成,分为 101 个类别。这 101 个类别可分为 5 种类型(身体运动、人与人互动、人与物体互动、演奏乐器和运动)。这些视频剪辑的总长度超过 27 小时。所有视频均从 YouTube 收集,具有 25 FPS 的固定帧速率,分辨率为 320 × 240。



13、城市街景语义理解的大型数据库 Cityscapes



Cityscapes 是一个专注于城市街景语义理解的大型数据库,由戴姆勒研究所,马克斯•普朗克信息学研究所和达姆施塔特科技大学可视化推理工作组提供。该数据集由大约 5000 个精细标注的图像和 20000 个粗糙标注的图像组成。它为分为 8 个类别(平面、人类、车辆、建筑、物体、自然、天空和虚空)的 30 个类别提供语义、实例和密集像素注释。该数据集具备多样性,历经数月(春、夏、秋)在白天和良好的天气条件下获得,并由手动选择帧,且具有以下特征:大量动态对象、变化的场景布局和变化的背景。


Cityscapes 数据集适用于

  1. 评估视觉算法在语义城市场景理解的主要任务中的性能:像素级、实例级和全景语义标记;
  2. 支持旨在利用大量(弱)注释数据的研究,例如用于训练深度神经网络。



14、IBM 研究院、Meta AI 等多家机构发布新基准 SCROLLS



目前,NLP 的基准主要集中在短文本上,如句子和段落。来自 IBM 研究院、Meta AI 等多家机构发布新基准 SCROLLS (Standardized CompaRison Over Long Language Sequences)。


该条进展工作通过研究了现有的长文本数据集,并精心挑选了那些文本较长的数据集,同时优先考虑那些涉及综合输入信息的任务。SCROLLS 包含总结、问题回答和自然语言推理任务,涵盖多个领域,包括文学、科学、商业和娱乐。SCROLLS 以统一的文本到文本格式提供所有的数据集,并主持一个实时排行榜,以促进对模型架构和预训练方法的研究。



15、CLUE 团队发布应用在 NLP 领域的数据为中心的基准 DataCLUE



以数据为中心(Data-centric)的AI,是一种新型的AI探索方向。它的核心问题是如何通过系统化的改造你的数据(无论是输入或者标签)来提高最终效果。


DataCLUE 是一个以数据为中心的 AI 测评。它基于 CLUE benchmark,结合 Data-centric 的 AI 的典型特征,进一步将 Data-centric 的 AI 应用于 NLP 领域,融入文本领域的特定并创造性丰富和发展了 Data-centric 的 AI。在原始数据集外,它通过提供额外的高价值的数据和数据和模型分析报告(增值服务)的形式, 使得融入人类的 AI 迭代过程(Human-in-the-loop AI pipeline) 变得更加高效,并能较大幅度提升最终效果。



在机器之心 SOTA!模型联合阿里云天池推出的「虎卷 er 行动 · 春卷er」中我们基于「 AI人必追」的本季度举办的国际顶会及机器之心报道中的社区热议工作「炼丹者必备」的基准数据集、AI顶会挑战赛优胜算法及开发基础知识,共同设计了由60道选择题构成的「虎卷er · 春榜试题」,并编撰了 3 套独家配套技术复习资料,帮助关注前沿AI技术发展的开发者梳理第一季度的重要 AI 技术工作的同时帮助注重实践技能的开发者快速温故知新,巩固知识与技能。

「虎卷er · 春榜试题」具体分布如下 ——

  • 「本季必追国际影响力AI工作」:共 18 题
  • 「AI开发常用的Benchmark数据集」:共 15 题
  • 「今年刷爆顶会Leaderboard的算法」:共 7 题
  • 「AI Foundation专业知识与开发实践基础」:共 20 题
活动期间,关注「机器之心 SOTA模型」服务号,即可通过底部菜单栏进入活动。

跟随入口引导,使用阿里云账号登录后即可进入活动界面开始答题。

「春卷er」10道「AI Foundation专业知识与开发实践基础」新题已解锁!
1 在 CNN 网络中,某图经过核为 3x3,步长为 2 的卷积层,ReLU 激活函数层,BN 层,以及一个步长为 2,核为 2*2 的池化层后,再经过一个 3*3 的的卷积层,步长为 1,此时的感受野是?
13 12
11 10
2 以下是非马尔科夫过程的是?
独立增量过程 泊松过程 维纳过程 自回归过程
3 以下对 k-means 聚类算法解释正确的是?
能自动识别类的个数,随机挑选初始点为中心点计算 能自动识别类的个数,不是随机挑选初始点为中心点计算 不能自动识别类的个数,随机挑选初始点为中心点计算 不能自动识别类的个数,不是随机挑选初始点为中心点计算
4 某个二分类模型,在训练数据上表现很好,但是在验证数据上表现不佳,通常称这种问题为?
欠拟合 过拟合 样本不均衡 样本缺失
5 下列哪一个不是常用于回归建模问题的损失函数?
均方误差(MSE Loss) 交叉熵(Cross Entropy Loss) 均绝对误差(MAE Loss) Huber Loss
6 下列哪一个不是LSTM(Long Short-Term Memory)的门控单元?
输出门 更新门 输入门 遗忘门
7 在卷积神经网络(CNN)中,使用 5*5 的卷积核对 500*500 的图片求卷积,那么在输入层和卷积层之间一共有多少个参数需要训练?
10000 25 26 250000
8 在机器学习的分类模型中,评估模型预测效果的指标有准确率(Accuracy)、召回率(Recall)、精确率(Precision)、F1指标(F1 measure),下列属于Recall 指标的表达式为?
正确的正例样本数/样本中的正例样本数 提取出的正确样本数/总样本数 正确的正例样本数/预测为正例的样本数 Precision*Recall*2 / (Precision+Recall)
9 进行机器学习的时候,通常需要对数据进行降维处理,关于降维,以下说法错误的是?
降维可以节省存储空间 一般先使用非线性降维的方法,再使用线性降维的方法 降维可以去除冗余特征 降维从一定程度上可以防止模型过拟合
10 对于一个深度学习分类任务,如果权重初始化时所有变量都设置为 0,下面哪一个描述是正确的?
没有问题,深度学习拟合能力很强,可以正常训练得到结果 深度学习不会开始训练,因为没有梯度变化 深度学习可以训练,但所有的类别都会被识别为一类 以上说法都不对
相关文章
|
7月前
|
机器学习/深度学习 人工智能 测试技术
探索 Qwen2.5-Max 的智能:大规模 MoE 模型的飞跃
Qwen2.5-Max 是通义实验室推出的最先进MoE模型,在推理、知识和代码任务中表现卓越,已在超20万亿token上预训练,并通过SFT和RLHF优化。在多项基准测试中领先,如Arena-Hard达89.4,MMLU-Pro为76.1,性能超越DeepSeek V3、GPT-4o等模型,成为当前最佳开源模型。可通过Qwen Chat和API使用,适用于开发者、研究者及AI爱好者探索前沿AI能力。
1257 2
|
人工智能 测试技术 vr&ar
DataDoP :一个大规模多模态数据集,包含 29K 真实世界的自由运动相机轨迹、深度图和详细的动作描述,目的支持艺术化相机轨迹生成。
2025-04-10 ,由浙江大学、上海人工智能实验室、斯坦福大学、香港中文大学和南洋理工大学联合创建了 DataDoP 数据集。该数据集包含 29K 真实世界的自由运动相机轨迹、深度图和详细的动作描述,目的为艺术化相机轨迹生成提供高质量的训练数据,推动基于学习的电影摄影技术发展。 一、研究背景 在视频制作中,相机轨迹设计是传达导演意图和增强视觉叙事的关键工具。传统方法依赖于几何优化或手工设计的程序系统,而近年来的基于学习的方法则继承了结构偏差或缺乏文本对齐,限制了创意合成。 目前遇到困难和挑战: 1、传统方法的局限性:传统方法依赖于几何建模或成本函数工程,限制了创意合成。 2、现有数据集的
|
机器学习/深度学习 人工智能 测试技术
Qwen2.5-Max 发布,探索大规模 MoE 模型的智能
Qwen2.5-Max 发布,探索大规模 MoE 模型的智能
|
数据采集 存储 自然语言处理
基于Qwen2.5的大规模ESG数据解析与趋势分析多Agent系统设计
2022年中国上市企业ESG报告数据集,涵盖制造、能源、金融、科技等行业,通过Qwen2.5大模型实现报告自动收集、解析、清洗及可视化生成,支持单/多Agent场景,大幅提升ESG数据分析效率与自动化水平。
1071 0
|
JSON 编解码 物联网
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
|
SQL 自然语言处理 达摩院
「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景(1)
「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景
1862 0
|
机器学习/深度学习 人工智能 达摩院
最大数据集、多任务覆盖,阿里达摩院发布首个大规模中文多模态评测基准MUGE
最大数据集、多任务覆盖,阿里达摩院发布首个大规模中文多模态评测基准MUGE
973 0
|
机器学习/深度学习 人工智能 达摩院
大规模中文多模态评测基准MUGE发布
近年来,大规模神经网络模型以及预训练等技术的成功实践推动着计算机视觉和自然语言处理等领域快速发展,同时也推动了多模态表征学习的研究。2020年Jeff Dean就曾指出,多模态研究将会是未来研究一大趋势。在国内,目前阿里巴巴达摩院智能计算实验室也在深度探索中文多模态预训练及超大规模预训练,近期相继推出了百亿、千亿和万亿参数M6模型 [1],实现了当前最大规模的多模态预训练模型,并将其应用到各大下游任务,广泛落地到搜索、推荐、服饰设计、智能文案等真实场景中。
507 0
大规模中文多模态评测基准MUGE发布
|
机器学习/深度学习 人工智能 达摩院
大规模中文多模态评测基准MUGE发布
MUGE全称是Multimodal Understanding and Generation Evaluation Benchmark,是由达摩院智能计算实验室认知智能团队推出了大规模中文多模态评测基准,拥有当前最大规模的中文多模态评测数据集,覆盖多种类型的任务,包括图文描述、基于文本的图像生成、跨模态检索等。MUGE的推出旨在解决当前中文多模态领域下游任务数据集匮乏的问题,并且为广大研究者提供平台和评测基准去衡量算法模型的有效性。
1487 0
大规模中文多模态评测基准MUGE发布
|
7月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
668 2

热门文章

最新文章