Mozilla发布最大公共语音数据集Common Voice

简介: 近日,Mozilla发布了当前可使用的,规模最大的公共语音数据集Common Voice,数据集涵盖18种语言,由42000多名贡献者提供的近1400小时的语音数据构成。

文 / George Roter


翻译 / 咪宝


原文


https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/


Mozilla发布了可供使用的最大人类语音数据集,包括18种不同的语言,累计记录了超过42,000多名贡献者的近1,400小时的语音数据。


从一开始,我们对Common Voice的愿景就是构建世界上最多样化的语音数据集,为构建语音技术进行优化。我们还做出了开放的承诺:向初创公司、研究人员以及对语音技术感兴趣的任何人公开我们收集到的高质量语音数据。


今天,我们很高兴与大家分享我们的第一个多语种数据集,其中包含18种语言。包括英语、法语、德语和普通话(繁体),以及威尔士语和卡比尔语。总的来说,新的数据集囊括了超过42000人的大约1400个小时的语音片段。


在这个版本中,不断增长的Common Voice数据集目前是同类数据集中规模最大的,成千上万的人将他们的声音和原始的手写文字贡献给公共领域(CC0)。完整的数据集可以在Common Voice站点上(https://voice.mozilla.org/zh-CN/datasets)进行下载。


数据质量


Common Voice数据集不仅在其大小和许可模型(https://github.com/JRMeyer/open-speech-corpora)方面是独一无二的,而且在其多样性上也是独一无二的。它代表了一个由语音贡献者组成的全球社区。贡献者可以选择提供诸如他们的年龄、性别和口音等元数据,这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。


这是一种不同于其他可公开获取的数据集的方法,这些数据集要么是手工制作的多样性数据集(即男性和女性数量相等),要么是语料库与“已发现”的数据集一样的多样性数据集(例如,TED演讲中的TEDLIUM语料库是男性和女性的3倍)。


更常见的声音:8个月内从3种语言到22种语言


自2018年6月启用多语言支持以来,Common Voice已变得更加全球化,更具包容性。这已经超出了我们的预期:在过去的8个月中,社区积极响应该项目,以22种语言开展数据收集工作,在Common Voice网站上,还有70种语言正在进行中,令人难以置信。


作为一个社区驱动的项目,世界各地关心用自己的语言建立语音数据集的人们负责每一个新项目的启动——有些是热情的志愿者,有些是作为语言学家或技术专家日常工作的一部分。每一项工作都需要翻译网站,以允许投稿和添加句子阅读。


我们最新增加的语言包括荷兰语、Hakha-Chin语、世界语、波斯语、巴斯克语和西班牙语。在某些情况下,Common Voice上发布一种新语言代表着该语言在互联网上出现的开始。这些社区的努力证明了:所有语言,不仅仅是那些能够为科技公司带来高收入的语言都值得成为代表。


我们将继续与这些社区合作,确保他们的声音成为代表,甚至帮助他们自己开发语音技术。本着这种精神,我们最近与Deutsche Gesellschaft für Internationale Zusammenarbeit(GIZ)合作,在基加利联合主办了一场创意黑客马拉松,为Kinyarwanda创建了一个语音语料库,为卢旺达当地的技术人员开发基于他们自己语言的开源语音技术奠定了基础。


改进贡献者的体验,包括可选配置文件


Common Voice网站是我们构建语音数据集的主要工具之一,这些数据集对语音交互技术非常有用。它今天的样子是一个不断迭代的过程产生的结果。我们听取了社区对有关贡献者痛点的反馈,同时也进行了可用性研究,以使得贡献、投稿更容易、更有吸引力、更有趣。


参与贡献的人不仅可以在录制和验证中看到每种语言的进度,而且还改进了不同片段之间的提示; 新的功能,以审查,重新记录,并跳过剪辑作为一个集成部分的经验;在说话与倾听之间快速切换; 以及选择退出会话的功能。


我们还添加了创建已保存配置文件的选项,允许参与者跟踪多种语言的进度和指标。提供一些可选的人口统计信息同时改善了用于训练语音识别准确度的音频数据。

image.png

Common Voice最初作为概念证明原型,在过去的一年中一直在协作迭代。


授权去中心化的产品创新:马拉松而非冲刺


Mozilla的目标是建立一个更加多样化和创新的语音技术生态系统。我们的目标是既发布自己的语音产品,同时也支持研究人员和小型玩家。通过Common Voice提供数据只是其中的一部分,开源的语音到文本和文本到语音引擎以及由我们的机器学习小组驱动的、经过训练的DeepSpeech项目模型也是其中的一部分。


我们知道这需要时间,我们相信尽早发布和公开工作能够吸引技术人员、组织和公司的参与和反馈,从而使这些项目更加健壮。目前,这两个项目都处于研究阶段,DeepSpeech在产品化方面取得了很大的进步。


到目前为止,有了来自普通语音和其他来源的数据,DeepSpeech在技术上能够“实时”地将语音精确地转换为文本,即在流式传输音频时实时转换。这允许当讲座、电话交谈、电视节目、广播节目和其他直播流发生时进行转录。


DeepSpeech引擎已经被许多非mozilla项目所使用:例如,在Mycroft中,一个开源的基于语音的助手;在利昂,一个开源的个人助理;在电话内线交换机(FusionPBX)中,安装在私人机构并为其服务的一种电话交换机,用于记录电话信息。在未来,Deep Speech将针对更小的平台设备,如智能手机和车载系统,开启Mozilla内外的产品创新。


对于Common Voice,我们在2018年的重点是构建概念,使其成为能够被任何语言社区使用、优化网站和构建强大后端(例如,帐户系统)的工具。在接下来的几个月里,我们将集中精力尝试不同的方法,通过社区努力和新的合作伙伴关系来增加我们能够收集的数据的数量和质量。


我们的总体目标仍然是:为世界上所有寻求构建和使用语音技术的人提供更多、更好的数据。因为竞争和开放有利于创新。因为较小的语言是一个访问和公平的问题。因为隐私和控制很重要,尤其是对你的声音。

————————————————

版权声明:本文为CSDN博主「LiveVideoStack_」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/88266146


「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。

阿里云视频云@凡科快图.png

相关文章
|
2月前
|
人工智能 搜索推荐
ERNIE-Bot 4.0提示词格式
ERNIE-Bot 4.0提示词格式
22 0
|
3月前
|
前端开发 JavaScript API
阿里云智能媒体服务IMS(Intelligent Media Services)的视频剪辑Web SDK
【1月更文挑战第15天】【1月更文挑战第72篇】阿里云智能媒体服务IMS(Intelligent Media Services)的视频剪辑Web SDK
54 6
|
11月前
|
机器学习/深度学习 API iOS开发
iOS MachineLearning 系列(17)—— 几个常用的对象识别 CoreML 模型
上一篇文章中,我们介绍了几个官方的图片分类的模型,图片分类模型的应用场景在于将图片中最主要的事物进行识别,在已有的词库中找到最可能得事物。而对象识别则要更高级一些。再之前的文章,我们介绍过可以使用官方提供的API来进行矩形识别,文本识别,二维码识别以及人脸识别等,这类识别功能的特点是我们不仅可以将图片中的物体位置和尺寸分析出来,还可以对其进行类别的分类。
250 0
|
6月前
|
Android开发
AppsFlyer 研究(十一)配置 Google Ads MCC 获取 LINK ID
AppsFlyer 研究(十一)配置 Google Ads MCC 获取 LINK ID
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
iOS MachineLearning 系列(22)——将其他三方模型转换成CoreML模型
本篇文章将是本系列文章的最后一篇。本专题将iOS中有关Machine Learning的相关内容做了整体梳理。下面是专题中的其他文章地址,希望如果你有需要,本专题可以帮助到你。
224 0
|
Android开发 数据安全/隐私保护 iOS开发
google voice指导篇 ——总结
GV 就是 Google 提供的电话短信服务。Google 给你一个免费并且可以长期使用的美国电话号码。
【Google Play】Google Play 开放式测试 ( 简介 | 发布开放式测试版本 )(二)
【Google Play】Google Play 开放式测试 ( 简介 | 发布开放式测试版本 )(二)
241 0
【Google Play】Google Play 开放式测试 ( 简介 | 发布开放式测试版本 )(二)
|
API Android开发
【错误记录】Google Play 上架报错 ( APK 大小 | 目标 API 级别 | Google Play 帮助文档 )
【错误记录】Google Play 上架报错 ( APK 大小 | 目标 API 级别 | Google Play 帮助文档 )
334 0
【错误记录】Google Play 上架报错 ( APK 大小 | 目标 API 级别 | Google Play 帮助文档 )
|
机器学习/深度学习 人工智能
UniT | Facebook发布全新智能通用Agent!
UniT | Facebook发布全新智能通用Agent!
255 0
UniT | Facebook发布全新智能通用Agent!
|
开发工具 网络架构 API
google sdk speech-to-text(谷歌语音转文本、谷歌语音转字幕)
).google sdk speech-to-text ).谷歌语音转文本 ).谷歌语音转字幕 ).谷歌从麦克风实时转字幕 ## 官网文档 - https://cloud.google.com/speech-to-text/docs/quickstart-client-libraries#...
14057 0