多领域 ASR 英语语料库——GigaSpeech 基本介绍

简介: 附有效下载教程
❤️ 【专栏:数据集整理】❤️ 之【有效拒绝假数据】

👋 Follow me 👋,一起学更多有趣 AI、冲冲冲 🚀 🚀

📔 基础信息

0-论文

本文介绍了 GigaSpeech,这是一个不断发展的多领域英语语音识别语料库,具有 10,000 小时适合监督训练的高质量标记音频,以及 40,000 小时适合半监督和无监督训练的总音频。大约 40,000 小时的转录音频首先从有声读物、播客和 YouTube 中收集,涵盖阅读和自发说话风格,以及各种主题,如艺术、科学、体育等。提出了一种新的强制对齐和分割管道创建适合语音识别训练的句段,并过滤掉转录质量低的句段。对于系统训练,GigaSpeech 提供了五个不同大小的子集,10h、250h、1000h、2500h 和 10000h。对于我们的 10,000 小时 XL 训练子集,我们将过滤/验证阶段的单词错误率上限为 4%,而对于所有其他较小的训练子集,我们将其上限为 0%。另一方面,DEV 和 TEST 评估集由专业的人工转录员重新处理,以确保高转录质量。为流行的语音识别工具包提供了基线系统,即 Athena、ESPnet、Kaldi 和 Pika。

📕 数据集介绍

备注:该部分内容属于截图整理

声明:本部分数据集介绍摘自——清华语音与音频技术实验室

0-1
0-2
0-3
0-4
0-5
0-6

声明:本部分数据集介绍摘自——清华语音与音频技术实验室

致敬各位大佬

0-7

📘 下载正确打开方式

🟧 下载主页 申请入口如下

1-0

🟨 填写必要信息

1-1

🟦 提交成功界面如下

如果填写有误,还可重新编辑

1-2

🟧 很快邮箱收到下载方式说明

查阅你的邮箱,会得到类似这样的回复
Dear moli,

Thank you for agreeing to GigaSpeech's terms of access. A copy of your agreement has also been attached at the end of this email. To download GigaSpeech:

 1. Clone the GigaSpeech repo
 
  Run: git clone https://github.com/SpeechColab/GigaSpeech.git

 2. Create password file under GigaSpeech/SAFEBOX

  这里会有一个加密解密的命令需要运行

 3. Download Gigaspeech
 
  3.1 Make sure you have at least 1.2T of free space under the destination directory
  3.2 Run: bash utils/download_gigaspeech.sh YOUR_DESTINATION_DIRECTORY

Regards,
The SpeechColab Team
1.2T 空间,先去清理下磁盘吧

3-0

📙 致敬大佬

感谢诸位为全人类的人工智能事业添砖加瓦

3-5

更多语音数据集博文总结如下
近期经典有趣博文推荐

📙 博主 AI 领域八大干货专栏、诚不我欺

📙 预祝各位 2022 前途似锦、可摘星辰

🎉 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️
❤️ 过去的一年、大家都经历了太多太多、祝你披荆斩棘、未来可期

9-9

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【Python机器学习】文本特征提取及文本向量化讲解和实战(图文解释 附源码)
【Python机器学习】文本特征提取及文本向量化讲解和实战(图文解释 附源码)
95 0
|
3月前
|
机器学习/深度学习 自然语言处理 PyTorch
Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)
阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对中文的语音做一些优化的措施,换句话说,Whisper的“默认”形态可能在中文领域斗不过FunAsr,但是经过中文特殊优化的Whisper就未必了。
Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)
|
4月前
|
机器学习/深度学习 自然语言处理 机器人
【Tensorflow+自然语言处理+RNN】实现中文译英文的智能聊天机器人实战(附源码和数据集 超详细)
【Tensorflow+自然语言处理+RNN】实现中文译英文的智能聊天机器人实战(附源码和数据集 超详细)
45 0
|
8月前
|
人工智能
中文大语言模型的分析
为了体现分析的逻辑性,将会采用序数词排序对三个领域进行报告测评。
191 0
|
9月前
|
人工智能 自然语言处理
|
9月前
|
人工智能 自然语言处理
利用ChatGPT场景化学习英语听说读写
利用ChatGPT场景化学习英语听说读写
173 0
利用ChatGPT场景化学习英语听说读写
|
11月前
|
人工智能 数据安全/隐私保护
通过ChatGPT快速学习英语
通过ChatGPT快速学习英语
161 0
|
机器学习/深度学习 数据采集 存储
【英文文本分类实战】之四——词典提取与词向量提取
【英文文本分类实战】之四——词典提取与词向量提取
192 0
【英文文本分类实战】之四——词典提取与词向量提取
|
数据采集 机器学习/深度学习 自然语言处理
【英文文本分类实战】之三——数据清洗
【英文文本分类实战】之三——数据清洗
251 0
【英文文本分类实战】之三——数据清洗
|
Python
Python编程:使用gensim对中文文本进行相似度计算
Python编程:使用gensim对中文文本进行相似度计算
125 0