特定人语音唤醒简介

简介: 特定人语音唤醒,就是通过识别语音中所含的内容和人的身份信息,来实现特定人语音唤醒功能。这是一种较为新颖、具有一定安全性、便捷性和趣味性的功能,同时可以增强个性化体验。

1.       什么是特定人语音唤醒

人的语音中含有大量的信息,除了语音内容(说了什么)外,还有语种(中文、英语)、身份(张三、李四)、情绪(平静、开心)等信息。

 

特定人语音唤醒,就是通过识别语音中所含的内容和人的身份信息,来实现特定人语音唤醒功能。这是一种较为新颖、具有一定安全性、便捷性和趣味性的功能,同时可以增强个性化体验。在YunOS语音助手中,就应用了此功能。此时机主可以通过“你好小云”这个语音口令,解锁手机并且唤醒YunOS语音助手。

 

和常见的语音唤醒相比,特定人语音唤醒功能不仅要求说对唤醒口令、还会判断是谁在说出这个口令。一旦口令不对或者身份不对,则会拒绝解锁手机和唤醒YunOS语音助手。

 

2.       特定人语音唤醒的基本框架

特定人语音唤醒方案整体框图如下:


            

语音唤醒使用之前需要一个初始设置,特定人语音唤醒也一样,这是让智能设备认识用户自己声音的过程,初始设置在这里称之为注册,对应于模式识别的训练过程。默认情况下,用户根据页面提示,说出三遍你好小云就可以完成初始设置。注册完了之后,用户就可以使用特定人语音唤醒了。使用时,只有预设的语音口令内容、说话人身份都匹配的时候,手机才能解锁或者打开特定程序。

 

3.       分层次GMM(HiGMM)模型

除了VAD(静音检测)、特征提取、评分等模块之外,模型是是整个方案中的关键。为了实现同时完成语音唤醒和特定人判别,我们设计了一个分层次GMM(HiGMM)方案。模型训练如下图所示。



其中,需要完成的步骤有:1. 训练一个和说话人无关、内容无关的全局GMM模型;2. 根据注册数据,训练一个特定人、和内容无关的GMM模型;这一步的GMM模型,可以根据最大后验准则,用全局GMM和训练数据获得;3. 根据注册数据,训练一系列的特定人、特定内容的GMMs。这个过程中,首先需要把整个句子合理地切分成几个语音段,对于每个语音段,根据2GMM,训练一个GMM。由于每一个语音段都表示了特定说话内容因此训练得到的GMM,代表了特定人、特定文本内容;GMM序列组合起来,则代表了特定人、特定口令内容。

 

4.       特定人语音唤醒应用

目前云手机上,YunOS语音助手集成了特定人声纹唤醒功能,用户可以通过“你好小云”唤醒YunOS语音助手。

 

YunOS语音助手声纹功能还可以“被锻炼”,随着唤醒次数增多,可以使YunOS语音助手更熟悉用户的声音,并且减少他人的声音或者噪声带来的误操作。

 

以后,具有特定人语音唤醒功能的手机,还可以有更多的应用。比如:当你找不到自己手机的时候,你喊出“你好小云”就能将手机唤醒,此时手机可以响铃,做出“我在这里”的回应。另一种用途是当你想听自己喜欢的歌的时候,喊出“Hey, 小Y, 放首歌”,此时设备根据说话人的身份,播放个人喜欢的音乐。


目录
打赏
0
0
0
0
7
分享
相关文章
灵云语音唤醒
灵云语音唤醒 严格来讲,灵云没有语音唤醒功能,但是通过命令词的方式可以实现 实现方式 用命令词的方式实现唤醒,用唤醒词做命令词,做好标识,然后循环开启命令词识别,当识别到唤醒的命令词的时候,视为被唤醒了。
1592 0
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
RealtimeSTT 是一款开源的实时语音转文本库,支持低延迟应用,具备语音活动检测、唤醒词激活等功能,适用于语音助手、实时字幕等场景。
326 18
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
语音识别与语音控制的原理介绍
硬件平台 机器硬件:OriginBot(导航版/视觉版)PC主机:Windows(>=10)/Ubuntu(>=20.04)扩展硬件:X3语音版 运行案例 首先进入OriginBot主控系统,运行一下指令。请注意,部分操作OriginBot内暂未放入,请根据内容进行适当处理。 cd /userdata/dev_ws/ # 配置TogetheROS环境 source /opt/tros/setup.bash # 从tros.b的安装路径中拷贝出运行示例需要的配置文件。 cp -r /opt/tros/lib/hobot_audio/config/ . # 加载音频驱动,设备启动之后只
320 83
QT应用编程: 调用系统语音引擎完成文字转语音播报
QT应用编程: 调用系统语音引擎完成文字转语音播报
632 0
让小程序开口说话:DeepSeek语音交互开发指南
本文介绍如何利用DeepSeek语音交互技术构建智能语音助手,涵盖从安装声音采集设备、训练语言理解模型到设计语音控制界面的全过程。通过生活化场景,如深夜查找教程、旅行中寻找餐厅等,展示如何实现自然对话。此外,还深入探讨多轮对话记忆、情感计算及智能家居控制等进阶功能,帮助开发者创建会倾听、善思考的语音应用。最后,提供性能优化与安全防护建议,引领读者进入人机共生的新时代。
阿里云智能语音交互异步长文本语音合成接收回调Java示例
本文详细介绍如何使用异步长文本语音合成接收服务回调数据的Java示例
739 0
阿里云智能语音交互异步长文本语音合成接收回调Java示例
c# 语音功能入门
   但是,这个方法本身并不知道你给的字符串是什么语言,所以需要我们它这个字符串用什么语言读出。SpVoiceClass 类的Voice 属性就是用来设置语种的,我们可以通过SpVoiceClass 的GetVoices方法得到所有的语种列表,然后在根据参数选择相应的语种,比如设置语种为汉语如下所示: private void SetChinaVoice() {   voice.Voice = voice.GetVoices(string.Empty,string.Empty).Item(0) ; }    0表示是汉用,1234都表示英语,就是口音不同。
2097 0
INTERSPEECH 2017系列 | 语音唤醒技术
目前市场上推出了各式各样的音箱,机器人,车载等语音交互产品,语音识别是交互的入口,而语音唤醒成为了踏进这一入口的第一步,如何高效、准确地对用户指令给出反应成为这一技术的最重要目标。本主题将介绍语音唤醒技术的基础知识,基本技术架构以及INTERSPEECH2017上的最新研究成果。
8606 0