评论：语音识别适合网络应用-阿里云开发者社区

评论：语音识别适合网络应用

2018-03-15 924

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

微软的语音识别技术以及对扬声器独立的语音识别软件的出现，让我们开始关注语音识别技术的发展和应用。

IT行业有时候看起来就好像是城市中的公交车，可能很多年都没有变，但是突然出现了大量的改变。最近，Nuance公布了它最新版的语音识别软件Dragon Naturally Speaking 9，而微软也在经历过一次惨痛的失败后，在SpeechTEK大会上重新推出了他令人印象深刻的语音技术产品。

我曾经用过这两个语音识别软件的前一个版本，客观地说，如果使用高质量的麦克风，它们都有很好的表现。虽然我还没有用过Dragon 9，但是据用过的人说，它比以前的版本有了很大的进步。除了精确度有所提高外，它也是第一个具有独立扬声器模式的语音识别软件。如果这一功能真的有效，那么将为语音识别技术打开一个广阔的应用空间。

我一直认为对着电脑说话是应该被避免的，不过微软看上去好像并不认同，从他在Windows Vista中加入语音识别技术就可以看出。而且我认为当Windows Vista大面积发行后，微软将更加公开推动语音识别技术，但愿这不会导致像在公车上大声讲电话这种不文明行为的泛滥。

目前各界对于语音识别技术的研究热情令我有些惊讶，很多大型企业都有这方面的专业研究团队，各大院校的有关研究也很多。如果不是要对着电脑说话，如此大规模的研究又是为了什么？也许答案是网络应用。

欧洲电信标准协会（Etsi）有一个叫做Aurora的项目，即开发一套在移动网络上的分布式语音识别应用标准。该标准规定，部分语音识别引擎工作在移动终端设备上，并将语音传输给识别中心。我对这种应用的接受程度比前面所说的要大，毕竟对着手机说话要比对着笔记本说话容易被人接受。

Etsi表示，语音识别的其中一项应用是用户在路上对着电话讲述会议内容，然后将这些内容通过邮件发送给自己，以便在回到办公室或回到住所之后再对会议内容进行进一步编辑。这听上去挺不错的，用户不会再去考虑其它一些网络服务商所提供的类似收费服务了。

正如目前流行的SpinVox 服务所展示的，用户在收到语音信箱的留言后，不是听到录音，而是看到留言的文字内容。一个中央语音识别系统可以让企业网络也具有类似的功能，由于微软的Office Communications Server 2007 内置了语音识别技术，因此也许这会是企业的一个不错的选择。

比尔。盖茨说，语音识别技术将成为未来十年的一个主流技术，这一点我也认可，但是这种技术在网络应用中的规模也许比在独立PC应用上的规模更大。无论如何，企业现在也应该开始考虑一下，语音识别技术到底是不是会对自己的系统效率有提高作用。

原文出处：科技行者

转载请与作者联系，同时请务必标明文章原始出处和原文链接及本声明。

相关实践学习

一键创建和部署高分电影推荐语音技能

本场景使用天猫精灵技能应用平台提供的技能模板，在2-5分钟内，创建一个好玩的高分电影推荐技能，使用模板后无须代码开发，系统自动配置意图、实体等，新手0基础也可体验创建技能的乐趣。

达摩院智能语音交互 - 声纹识别技术

声纹识别是基于每个发音人的发音器官构造不同，识别当前发音人的身份。按照任务具体分为两种：声纹辨认：从说话人集合中判别出测试语音所属的说话人，为多选一的问题声纹确认：判断测试语音是否由目标说话人所说，是二选一的问题（是或者不是）按照应用具体分为两种：文本相关：要求使用者重复指定的话语，通常包含与训练信息相同的文本（精度较高，适合当前应用模式）文本无关：对使用者发音内容和语言没有要求，受信道环境影响比较大，精度不高本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。讲师介绍：郑斯奇，达摩院算法专家，毕业于美国哈佛大学，研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。

评论：语音识别适合网络应用

热门文章

最新文章

相关课程

相关电子书

相关实验场景