特定人语音唤醒简介-阿里云开发者社区

特定人语音唤醒简介

2016-03-18 10119

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 特定人语音唤醒，就是通过识别语音中所含的内容和人的身份信息，来实现特定人语音唤醒功能。这是一种较为新颖、具有一定安全性、便捷性和趣味性的功能，同时可以增强个性化体验。

1. 什么是特定人语音唤醒

人的语音中含有大量的信息，除了语音内容(说了什么)外，还有语种(中文、英语)、身份(张三、李四)、情绪(平静、开心)等信息。

特定人语音唤醒，就是通过识别语音中所含的内容和人的身份信息，来实现特定人语音唤醒功能。这是一种较为新颖、具有一定安全性、便捷性和趣味性的功能，同时可以增强个性化体验。在YunOS语音助手中，就应用了此功能。此时机主可以通过“你好小云”这个语音口令，解锁手机并且唤醒YunOS语音助手。

和常见的语音唤醒相比，特定人语音唤醒功能不仅要求说对唤醒口令、还会判断是谁在说出这个口令。一旦口令不对或者身份不对，则会拒绝解锁手机和唤醒YunOS语音助手。

2. 特定人语音唤醒的基本框架

特定人语音唤醒方案整体框图如下：

语音唤醒使用之前需要一个初始设置，特定人语音唤醒也一样，这是让智能设备认识用户自己声音的过程，初始设置在这里称之为“注册”，对应于模式识别的训练过程。默认情况下，用户根据页面提示，说出三遍“你好小云”就可以完成初始设置。注册完了之后，用户就可以使用特定人语音唤醒了。使用时，只有预设的语音口令内容、说话人身份都匹配的时候，手机才能解锁或者打开特定程序。

3. 分层次GMM(HiGMM)模型

除了VAD(静音检测)、特征提取、评分等模块之外，模型是是整个方案中的关键。为了实现同时完成语音唤醒和特定人判别，我们设计了一个分层次GMM(HiGMM)方案。模型训练如下图所示。

其中，需要完成的步骤有：1. 训练一个和说话人无关、内容无关的全局GMM模型；2. 根据注册数据，训练一个特定人、和内容无关的GMM模型；这一步的GMM模型，可以根据最大后验准则，用全局GMM和训练数据获得；3. 根据注册数据，训练一系列的特定人、特定内容的GMMs。这个过程中，首先需要把整个句子合理地切分成几个语音段，对于每个语音段，根据2的GMM，训练一个GMM。由于每一个语音段都表示了特定说话内容因此训练得到的GMM，代表了特定人、特定文本内容；GMM序列组合起来，则代表了特定人、特定口令内容。

4. 特定人语音唤醒应用

目前云手机上，YunOS语音助手集成了特定人声纹唤醒功能，用户可以通过“你好小云”唤醒YunOS语音助手。

YunOS语音助手声纹功能还可以“被锻炼”，随着唤醒次数增多，可以使YunOS语音助手更熟悉用户的声音，并且减少他人的声音或者噪声带来的误操作。

以后，具有特定人语音唤醒功能的手机，还可以有更多的应用。比如：当你找不到自己手机的时候，你喊出“你好小云”就能将手机唤醒，此时手机可以响铃，做出“我在这里”的回应。另一种用途是当你想听自己喜欢的歌的时候，喊出“Hey，小Y，放首歌”，此时设备根据说话人的身份，播放个人喜欢的音乐。

特定人语音唤醒简介

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

特定人语音唤醒简介

热门文章

最新文章

相关电子书