❤️ 【专栏:数据集整理】❤️ 之【有效拒绝假数据】👋 Follow me 👋,一起学更多有趣 AI、冲冲冲 🚀 🚀
📔 基础信息
- https://github.com/SpeechColab/GigaSpeech
- https://arxiv.org/abs/2106.06909
- GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of Transcribed Audio
- 论文摘要如下
本文介绍了 GigaSpeech,这是一个不断发展的多领域英语语音识别语料库,具有 10,000 小时适合监督训练的高质量标记音频,以及 40,000 小时适合半监督和无监督训练的总音频。大约 40,000 小时的转录音频首先从有声读物、播客和 YouTube 中收集,涵盖阅读和自发说话风格,以及各种主题,如艺术、科学、体育等。提出了一种新的强制对齐和分割管道创建适合语音识别训练的句段,并过滤掉转录质量低的句段。对于系统训练,GigaSpeech 提供了五个不同大小的子集,10h、250h、1000h、2500h 和 10000h。对于我们的 10,000 小时 XL 训练子集,我们将过滤/验证阶段的单词错误率上限为 4%,而对于所有其他较小的训练子集,我们将其上限为 0%。另一方面,DEV 和 TEST 评估集由专业的人工转录员重新处理,以确保高转录质量。为流行的语音识别工具包提供了基线系统,即 Athena、ESPnet、Kaldi 和 Pika。
📕 数据集介绍
备注:该部分内容属于截图整理声明:本部分数据集介绍摘自——清华语音与音频技术实验室
声明:本部分数据集介绍摘自——清华语音与音频技术实验室致敬各位大佬
📘 下载正确打开方式
🟧 下载主页 申请入口如下
🟨 填写必要信息
🟦 提交成功界面如下
如果填写有误,还可重新编辑
🟧 很快邮箱收到下载方式说明
查阅你的邮箱,会得到类似这样的回复
Dear moli,
Thank you for agreeing to GigaSpeech's terms of access. A copy of your agreement has also been attached at the end of this email. To download GigaSpeech:
1. Clone the GigaSpeech repo
Run: git clone https://github.com/SpeechColab/GigaSpeech.git
2. Create password file under GigaSpeech/SAFEBOX
这里会有一个加密解密的命令需要运行
3. Download Gigaspeech
3.1 Make sure you have at least 1.2T of free space under the destination directory
3.2 Run: bash utils/download_gigaspeech.sh YOUR_DESTINATION_DIRECTORY
Regards,
The SpeechColab Team
1.2T 空间,先去清理下磁盘吧
📙 致敬大佬
感谢诸位为全人类的人工智能事业添砖加瓦
更多语音数据集博文总结如下
- 👋 多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程
- 👋 语音数据集下载地址汇总| 免费的汉语说话人识别语料库 | Common Voice 数据集 | 下载总结
- 👋 深度学习各领域数据集有效整理——持续更新——墨理学AI
近期经典有趣博文推荐
- ❤️ 高效入门目标检测之YOLO实战系列精选——【1024专刊】
- ❤️ 初识超分重建——如何让女神更清晰,我的白月光【ICCV, 2021 超分重建之 BSRGAN】
- ❤️ 多阶段渐进式图像恢复 | 去雨、去噪、去模糊 | 有效教程(附源码)|【❤️CVPR 2021❤️】
- ❤️ 【深度学习入门项目】给学妹换个风格【❤️CVPR 2020 风格迁移之NICE-GAN❤️】
- ❤️ 【深度学习入门项目】将学妹的照片转换为铅笔素描 |【❤️Pattern Recognition 2020 之 U Square Net❤️】
📙 博主 AI 领域八大干货专栏、诚不我欺
- 🍊 计算机视觉: Yolo专栏、一文读懂
- 🍊 计算机视觉:图像风格转换--论文--代码测试
- 🍊 计算机视觉:图像修复-代码环境搭建-知识总结
- 🍊 计算机视觉:超分重建-代码环境搭建-知识总结
- 🍊 深度学习:环境搭建,一文读懂
- 🍊 深度学习:趣学深度学习
- 🍊 落地部署应用:模型部署之转换-加速-封装
- 🍊 CV 和 语音数据集:数据集整理
📙 预祝各位 2022 前途似锦、可摘星辰
🎉 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️
❤️ 过去的一年、大家都经历了太多太多、祝你披荆斩棘、未来可期
- 🍊 我的C站万粉成长之路、2021 笔耕不辍、C站成长轨迹、有兴趣可查阅
- 🍊 深度学习模型训练推理——基础环境搭建推荐博文查阅顺序【基础安装—认真帮大家整理了】
- 📆 最近更新:2022年1月30日
- 🍊 点赞 👍 收藏 ⭐留言 📝 都是博主坚持写作、更新高质量博文的最大动力!