魔搭中文开源模型社区：模型即服务-ModelScope助力语音AI模型创新与应用（下）-阿里云开发者社区

魔搭中文开源模型社区：模型即服务-ModelScope助力语音AI模型创新与应用（下）

2023-05-23 1032

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 魔搭中文开源模型社区：模型即服务-

二、 ModelScope社区助力语音AI发展

达摩院语音实验室通过ModelScope社区，把过去积累的优秀算法开源，并开放了算法生产的模型。达摩院希望每个模型开发者都可以通过ModelScope社区，接触到达摩院的算法和预训练模型。

在ModelScope社区，模型开发者不但可以复原达摩院生产的预训练模型，而且可以在自己的数据领域，进行定制化开发。

目前，达摩院在ModelScope社区开放了五大领域的三十多个不同模型。包括语音识别、语音合成、语音唤醒、语音信号处理、口语语言处理领域。

用户可以在每个模型的详情页，看到详细的模型信息及模型效果。用户可以直接通过网页进行交互，直观体验语音识别跟语音合成的效果。

接下来，介绍一下达摩院创新的语音识别模型“Paraformer”。目前，主流语音识别模型是端到端的自回归模型。Paraformer模型在自回归模型的基础之上，大幅提升了推理时的效率，给予用户十倍的效能提升，降低模型的服务成本。

与此同时，阿里云线上Uni-ASR模型通过ModelScope社区，首次开放开源。阿里云希望行业应用者，研究机构的研究者可以在此基础上，产出比达摩院更好的模型。

除了中文模型，达摩院的新加坡实验室在ModelScope社区开放了很多其他语种的语言模型。

在语音合成方面，ModelScope社区开放了达摩院创新的语音合成声学模型SAMBERT，并且开放了达摩院预先训练好的音色，方便大家直接使用。当用户需要定制声音，只需要使用training pipeline，通过预训练模型加翻译的方式，自主定制自己喜欢的音色。

在语音唤醒方面，达摩院开放了语音唤醒词定制模型。用户只需要收集少量的唤醒词数据，就可以定制自己喜欢的唤醒词。

在信号处理方面，达摩院首批开放了降噪模型，回声消除模型。方便用户对语音进行降噪，回声消除等等。

在口语语言处理方面，达摩院开源开放了最新的口语长文本语言处理基础模型“PoNet”。PoNet主要用来处理口语长文本的篇章级内容，在运算效率跟理解能力上，优势突出。大家可以将PoNet模型，作为预训练模型使用。

如上图所示，ModelScope社区为AI模型开发者提供开箱即用的环境，大家只需点击右上角即可。

如上图所示，用户只需要两行代码，就能在服务器后端拉起模型，把模型加载到本地并运行。不同模态的模型都可以通过修改两行参数，直接获取。

目前，平台的三百多个模型都可以通过两行代码中的两个参数实现拉取。如果用户需要把模型部署到自己的云端，让云端服务进行推理。用户可以通过SDK直接实现。

除此之外，达摩院为AI模型开发者提供了，完整的工业级语音合成模型训练recipe。达摩院在ModelScope社区，将SAMBERT语音合成模型开源。

开发者可以基于达摩院ModelScope SAMBERT预训练模型及自有音库，实现完全自主语音合成模型训练。目前，更多其它各类模型训练recipe陆续开源中。

在应用侧，阿里云即将推出语音AI模型服务。当用户进入语音AI模型服务，只需语音模型，就能建立一个API服务。用户在享受模型高精度的同时，该服务是完全弹性的。让大家以更高精度、更低成本，使用模型API应用。

达摩院希望通过ModelScope社区，释放AI模型创新的原动力，通过阿里云语音AI模型服务，为用户提供一站式的API服务。ModelScope社区与AI创新者、应用者并肩携手，让语音AI技术产生更高价值。

相关实践学习

一键创建和部署高分电影推荐语音技能

本场景使用天猫精灵技能应用平台提供的技能模板，在2-5分钟内，创建一个好玩的高分电影推荐技能，使用模板后无须代码开发，系统自动配置意图、实体等，新手0基础也可体验创建技能的乐趣。

达摩院智能语音交互 - 声纹识别技术

声纹识别是基于每个发音人的发音器官构造不同，识别当前发音人的身份。按照任务具体分为两种：声纹辨认：从说话人集合中判别出测试语音所属的说话人，为多选一的问题声纹确认：判断测试语音是否由目标说话人所说，是二选一的问题（是或者不是）按照应用具体分为两种：文本相关：要求使用者重复指定的话语，通常包含与训练信息相同的文本（精度较高，适合当前应用模式）文本无关：对使用者发音内容和语言没有要求，受信道环境影响比较大，精度不高本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。讲师介绍：郑斯奇，达摩院算法专家，毕业于美国哈佛大学，研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。