机器学习数据集!CV、NLP 一应俱全

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 机器学习数据集!CV、NLP 一应俱全

本文介绍一个机器学习大型数据集的汇总网站,网站目前提供约 70 个最新数据集,涵盖了计算机视觉、自然语言理解和音频三大领域。


还在愁到哪里找到需要的机器学习数据集吗?


每年都有很多大型、高质量的数据集发布,其中大多数数据集都发布在各自的网站上,通过谷歌搜索很难找到所有这些数据集。


现在,一位名叫 Nikola Pleša 的开发人员做了一个项目,将所有机器学习的大型数据集收集在一个网站上,方便大家取用。


网站一经发布,好评如潮。网站目前提供约 70 个数据集,涵盖了计算机视觉、自然语言理解和音频三大领域,包括每个数据集的链接、简介、许可类型、论文等,并且作者表示将继续增加数据集数量。

image.png



数据集网站:https://www.datasetlist.com/


下面,简要介绍一部分 CV、NLP 的数据集信息。


计算机视觉数据

image.png


1. IBM 人脸多样性数据集


IBM 的人脸多样性 (DiF) 数据集是一个庞大而多样化的数据集,旨在促进人脸识别技术中公平性和准确性的研究。DiF 是第一个此类数据集,包含 100 万张带注释的人脸图像。


2. GQA


GQA 数据集包含 2200 万个关于各种日常图像的问题。每个图像都与图像的对象、属性和关系的场景图相关联,这是一个基于 Visual Genome 的新的清晰版本数据集。


3. NVIDIA Flickr-Faces-HQ 数据集


该数据集由 70000 张分辨率为 1024×1024 的高质量 PNG 图像组成,并且在人物的年龄、种族和图像背景方面差异很大。数据集也很好地覆盖了人脸的附件,如眼镜,太阳镜,帽子等。


4. Google Open Images V4


Open Images 是一个包含约 900 万个 URL 图像的数据集,这些图像具有包含数千个类别的图像级标签和边界框注释。


5. Youtube-8M 2018


YouTube- 8M 是一个大型的带标签的视频数据集,由数百万个 YouTube 视频 ID 和来自4700 多个视觉实体的不同词汇表的相关标签组成,包含大量的视频画面信息、音频信息、标签信息。


6. Berkeley Deep Drive (BDD100K)


该数据集包含超过 100k 个驾驶体验视频,每个视频长度为 40 秒,帧数为每秒 30 帧。总图像数比百度 ApolloScape(2018 年 3 月发布) 大 800 倍,比 Mapillary 大 4800倍,比 KITTI 大 8000 倍。


7. ApolloScape


ApolloScape 是一个此前的类似数据集如 KITTI 和 CityScapes 更大、更复杂的数据集。ApolloScape 提供了高分辨率高 10 倍以上的图像,并逐像素标注,包括 26 种不同的可识别对象,如汽车、自行车、行人和建筑物。随着行人和车辆数量的增加,数据集提供了多个级别的场景复杂性,在给定场景中最多多达 100 辆车辆,以及更广泛的具有挑战性的环境,如恶劣天气或极端光照条件。


8. Tencent ML - Images


腾讯发布的 Tencent ML - Images 是目前最大的开源多标签图像数据集,包括17,609,752 个训练图像和 88739 个验证图像 URL,注释多达 11,166 个类别。


9. Fashion MNIST


Fashion-MNIST 是 Zalando 文章图像的一个数据集,包括 60,000 个示例的训练集和10,000 个示例的测试集。每个示例都是一个 28x28 的灰度图像,与 10 个类别的标签相关联。


10. MegaFace


MF2 训练数据集是身份数量上最大的公开可用的面部识别数据集,有 470 万张面部图像,672K 个身份,以及各自的边界框。所有图片均来自 Flickr,并在知识共享协议下许可。


自自然语言数据

image.png


1. 斯坦福问答数据集 (SQuAD)


斯坦福问答数据集 (Stanford Question answer Dataset, SQuAD) 是一个全新的阅读理解数据集,由众包工作者根据维基百科文章提出的问题组成,其中每个问题的答案都对应阅读文章的一段文本。SQuAD 包含 500 多篇文章的 10 万对以上的问答对,因此规模明显大于之前的阅读理解数据集。 SQuAD2.0 将 SQuAD1.1 中的 10 万个问题与 5 万多个新的、无法回答的问题 (由众包工作者提出) 结合起来,使之看起来与可回答的问题相似。


2. MultiNLI


多体裁自然语言推理语料库 (Multi-Genre Natural Language Inference, MultiNLI) 是一个由 433k 个句子对组成的源文本集合语料库,这些句子对都带有文本蕴涵信息。MultiNLI 语料库是在 SNLI 语料库的基础上建立的,但不同之处在于它涵盖了一系列口语和书面文本的体裁,并支持独特的跨体裁评估。


3. CoQA


CoQA 是一个用于构建会话问答系统的大型数据集。CoQA 包含 127k 个问题和答案,来自 7 个不同领域的 8k 个文本段落的对话。


4. Spider 1.0


Spider 是一个大型复杂的跨域语义分析和 text-to-SQL 的数据集。Spider 由 10181 个问题和 5693 个独特的复杂 SQL 查询组成,这些查询来自 200 个数据库,覆盖 138 个不同的域。


5. HotpotQA


HotpotQA 是一个以自然的、 multi-hop 的问题为特征的问答数据集,具有强大的支持事实的监督,以实现更易于解释的问答系统。该数据集由 113,000 对基于 Wikipedia 的QA 对组成。


6. Question Pairs (Quora)


包含超过 400,000 行潜在的问题对。


7. Yelp open dataset


Yelp 数据集是用于个人、教育和学术目的的业务、评论和用户数据的子集。可在 JSON和 SQL 文件中使用。


8. Facebook bAbI


一个用于自动文本理解和推理的数据集。


9. MS MARCO


微软机器阅读理解数据集 (MS MARCO) 是一个用于阅读理解和问题回答的新型大型数据集。在 MS MARCO 中,所有问题都是从真实的匿名用户查询中提取的。数据集中的答案来自上下文段落,这些段落使用 Bing 搜索引擎从真实的 web 文档中提取。如果他们能够总结出答案,那么查询的答案就是人工生成的。


10. NewsQA


NewsQA 数据集的目的是帮助研究社区构建能够回答需要人类水平理解和推理技能的问题的算法。该数据集包含来自众包的 120K 阅读理解 Q&A 对。


音频数据

image.png


1. Mozilla Common Voice


Mozilla 拥有可供使用的最大的人类语音数据集,包括 18 种不同的语言,从 4.2 万多名贡献者那里收集了近 1400 小时的录音语音数据。


2. NSynth


这是一个大规模、高质量的注释音符数据集。NSynth 数据集是一个音频数据集,包含~300k 个音符,每个音符都有一个独特的音调、音色和包络。


3. Google Audioset


AudioSet 由 632 个音频事件类的扩展本体和来自 YouTube 视频的 2084320 个带有人类标记的 10 秒声音片段组成。本体被指定为事件类别的层次图,涵盖广泛的人类和动物声音、乐器和流派,以及常见的日常环境声音。


4. LibriSpeech


LibriSpeech 是一个有声图书数据集,包含文本和语音。数据集包含多位讲者朗读的各类有声读物,时长近 500 小时。


感兴趣的小伙伴可以登录网站进行了解学习~


相关文章
|
4月前
|
自然语言处理 监控 自动驾驶
大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
【7月更文挑战第26天】大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
190 11
|
3月前
|
机器学习/深度学习 数据采集 自然语言处理
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–4 机器学习LGB 方案
在讯飞英文学术论文分类挑战赛中使用LightGBM模型进行文本分类的方案,包括数据预处理、特征提取、模型训练及多折交叉验证等步骤,并提供了相关的代码实现。
48 0
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了
【6月更文挑战第30天】基于自然语言的VML简化了机器学习,让模型参数变为人类可读的文本,提高理解和应用性。借助大型语言模型的进展,VML能直接编码先验知识,自动选择模型类,并提供可解释的学习过程。然而,表达能力、训练优化及泛化能力的挑战仍需克服。[论文链接](https://arxiv.org/abs/2406.04344)
38 1
|
4月前
|
机器学习/深度学习 自然语言处理 PyTorch
【机器学习】自然语言处理(NLP)领域革命性突破的模型——Transformer
【机器学习】自然语言处理(NLP)领域革命性突破的模型——Transformer
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习中的自然语言处理技术
【5月更文挑战第25天】 在数字化时代的浪潮中,自然语言处理(NLP)技术正迅速成为机器学习领域的一个重要分支。本文将深入探讨NLP的核心概念、关键技术及其在不同行业中的应用实例。我们将通过实际案例分析来揭示NLP如何改善信息检索、情感分析和智能对话系统,并讨论其在现实世界中所面临的挑战与未来的发展趋势。
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习中的自然语言处理技术
【5月更文挑战第21天】随着人工智能的迅猛发展,自然语言处理(NLP)已成为机器学习领域的重要分支。本文将深入探讨自然语言处理的核心概念、关键技术及其在不同应用场景下的实际效果。我们将从基础理论出发,逐步解析NLP的处理流程,并结合最新的研究动态,展示该领域的前沿技术和发展趋势。通过实例分析,本文旨在为读者提供对自然语言处理技术的全面认识,以及在解决实际问题时的应用指南。
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】自然语言引导下的单目深度估计:泛化能力与鲁棒性的新挑战
【机器学习】自然语言引导下的单目深度估计:泛化能力与鲁棒性的新挑战
67 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习中的自然语言处理技术
【5月更文挑战第27天】 在数字化时代的浪潮中,自然语言处理(NLP)作为人工智能的一个分支,正以前所未有的速度和能力重塑我们与机器的交互方式。本文将深入探讨自然语言处理的核心概念、关键技术以及在不同领域的应用实例。我们将从基础理论出发,逐步解析NLP如何处理和理解人类语言的复杂性,并展示如何利用这些技术解决实际问题,如情感分析、机器翻译和智能问答系统。
|
6月前
|
机器学习/深度学习 自然语言处理 安全
探索机器学习中的自然语言处理技术网络安全与信息安全:保护数据的关键策略
【5月更文挑战第27天】 在数字化时代,自然语言处理(NLP)技术是连接人类语言与计算机理解的桥梁。本文将深入探讨NLP的核心概念、关键技术以及在不同领域的应用实例。我们将从基础原理出发,解析词嵌入、语法分析到深度学习模型等关键步骤,并讨论NLP如何推动聊天机器人、情感分析和自动文摘等技术的发展。通过案例分析,揭示NLP在实际应用中的挑战与前景,为未来研究和应用提供参考。
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习中的自然语言处理技术
【5月更文挑战第23天】 随着人工智能领域的飞速发展,自然语言处理(NLP)技术已经成为了机器学习中不可或缺的一部分。本文将深入探讨NLP的核心概念、关键技术以及在不同应用场景下的实践方法。通过理论与实践的结合,旨在为读者提供一个清晰、全面的NLP技术概览,并展示其在解决复杂问题时的巨大潜力。
45 0

热门文章

最新文章