多领域 ASR 英语语料库——GigaSpeech 基本介绍

简介: 附有效下载教程
❤️ 【专栏:数据集整理】❤️ 之【有效拒绝假数据】

👋 Follow me 👋,一起学更多有趣 AI、冲冲冲 🚀 🚀

📔 基础信息

0-论文

本文介绍了 GigaSpeech,这是一个不断发展的多领域英语语音识别语料库,具有 10,000 小时适合监督训练的高质量标记音频,以及 40,000 小时适合半监督和无监督训练的总音频。大约 40,000 小时的转录音频首先从有声读物、播客和 YouTube 中收集,涵盖阅读和自发说话风格,以及各种主题,如艺术、科学、体育等。提出了一种新的强制对齐和分割管道创建适合语音识别训练的句段,并过滤掉转录质量低的句段。对于系统训练,GigaSpeech 提供了五个不同大小的子集,10h、250h、1000h、2500h 和 10000h。对于我们的 10,000 小时 XL 训练子集,我们将过滤/验证阶段的单词错误率上限为 4%,而对于所有其他较小的训练子集,我们将其上限为 0%。另一方面,DEV 和 TEST 评估集由专业的人工转录员重新处理,以确保高转录质量。为流行的语音识别工具包提供了基线系统,即 Athena、ESPnet、Kaldi 和 Pika。

📕 数据集介绍

备注:该部分内容属于截图整理

声明:本部分数据集介绍摘自——清华语音与音频技术实验室

0-1
0-2
0-3
0-4
0-5
0-6

声明:本部分数据集介绍摘自——清华语音与音频技术实验室

致敬各位大佬

0-7

📘 下载正确打开方式

🟧 下载主页 申请入口如下

1-0

🟨 填写必要信息

1-1

🟦 提交成功界面如下

如果填写有误,还可重新编辑

1-2

🟧 很快邮箱收到下载方式说明

查阅你的邮箱,会得到类似这样的回复
Dear moli,

Thank you for agreeing to GigaSpeech's terms of access. A copy of your agreement has also been attached at the end of this email. To download GigaSpeech:

 1. Clone the GigaSpeech repo
 
  Run: git clone https://github.com/SpeechColab/GigaSpeech.git

 2. Create password file under GigaSpeech/SAFEBOX

  这里会有一个加密解密的命令需要运行

 3. Download Gigaspeech
 
  3.1 Make sure you have at least 1.2T of free space under the destination directory
  3.2 Run: bash utils/download_gigaspeech.sh YOUR_DESTINATION_DIRECTORY

Regards,
The SpeechColab Team
1.2T 空间,先去清理下磁盘吧

3-0

📙 致敬大佬

感谢诸位为全人类的人工智能事业添砖加瓦

3-5

更多语音数据集博文总结如下
近期经典有趣博文推荐

📙 博主 AI 领域八大干货专栏、诚不我欺

📙 预祝各位 2022 前途似锦、可摘星辰

🎉 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️
❤️ 过去的一年、大家都经历了太多太多、祝你披荆斩棘、未来可期

9-9

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 PyTorch
Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)
阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对中文的语音做一些优化的措施,换句话说,Whisper的“默认”形态可能在中文领域斗不过FunAsr,但是经过中文特殊优化的Whisper就未必了。
Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)
|
11月前
|
人工智能
中文大语言模型的分析
为了体现分析的逻辑性,将会采用序数词排序对三个领域进行报告测评。
204 0
|
数据采集 机器学习/深度学习 自然语言处理
【英文文本分类实战】之三——数据清洗
【英文文本分类实战】之三——数据清洗
292 0
【英文文本分类实战】之三——数据清洗
|
机器学习/深度学习 自然语言处理 Ubuntu
维基百科的语料库下载以及信息提取笔记
维基百科的语料库下载以及信息提取笔记
|
机器学习/深度学习 数据采集 存储
【英文文本分类实战】之四——词典提取与词向量提取
【英文文本分类实战】之四——词典提取与词向量提取
207 0
【英文文本分类实战】之四——词典提取与词向量提取
|
机器学习/深度学习 JSON 达摩院
[使用ModelScope]只要5分钟,快速实现中文情感分类模型
本文介绍基于ModelScope,快速实现一个中文情感分类模型,只需不到5分钟,即可获得工业级优异表现的深度学习模型。
[使用ModelScope]只要5分钟,快速实现中文情感分类模型
|
自然语言处理 PyTorch 算法框架/工具
NLP情感分析笔记(五):多类型情感分析
在本次学习中,我们将对具有 6 个类的数据集执行分类。请注意,该数据集实际上并不是情感分析数据集,而是问题数据集,任务是对问题所属的类别进行分类。但是,本次学习中涵盖的所有内容都适用于任何包含属于 𝐶C 类之一的输入序列的示例的数据集。
273 0
|
机器学习/深度学习 人工智能 自然语言处理
机器学习自然语言处理之英文NLTK(代码+原理)
机器学习自然语言处理之英文NLTK(代码+原理)
502 0
机器学习自然语言处理之英文NLTK(代码+原理)
|
人工智能 自然语言处理 算法
NLP比赛-小布助手对话短文本语义匹配
NLP比赛-小布助手对话短文本语义匹配
296 0
NLP比赛-小布助手对话短文本语义匹配
|
自然语言处理 Python
NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)
NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)
NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)