特定人语音唤醒简介

简介: 特定人语音唤醒,就是通过识别语音中所含的内容和人的身份信息,来实现特定人语音唤醒功能。这是一种较为新颖、具有一定安全性、便捷性和趣味性的功能,同时可以增强个性化体验。

1.       什么是特定人语音唤醒

人的语音中含有大量的信息,除了语音内容(说了什么)外,还有语种(中文、英语)、身份(张三、李四)、情绪(平静、开心)等信息。

 

特定人语音唤醒,就是通过识别语音中所含的内容和人的身份信息,来实现特定人语音唤醒功能。这是一种较为新颖、具有一定安全性、便捷性和趣味性的功能,同时可以增强个性化体验。在YunOS语音助手中,就应用了此功能。此时机主可以通过“你好小云”这个语音口令,解锁手机并且唤醒YunOS语音助手。

 

和常见的语音唤醒相比,特定人语音唤醒功能不仅要求说对唤醒口令、还会判断是谁在说出这个口令。一旦口令不对或者身份不对,则会拒绝解锁手机和唤醒YunOS语音助手。

 

2.       特定人语音唤醒的基本框架

特定人语音唤醒方案整体框图如下:


            

语音唤醒使用之前需要一个初始设置,特定人语音唤醒也一样,这是让智能设备认识用户自己声音的过程,初始设置在这里称之为注册,对应于模式识别的训练过程。默认情况下,用户根据页面提示,说出三遍你好小云就可以完成初始设置。注册完了之后,用户就可以使用特定人语音唤醒了。使用时,只有预设的语音口令内容、说话人身份都匹配的时候,手机才能解锁或者打开特定程序。

 

3.       分层次GMM(HiGMM)模型

除了VAD(静音检测)、特征提取、评分等模块之外,模型是是整个方案中的关键。为了实现同时完成语音唤醒和特定人判别,我们设计了一个分层次GMM(HiGMM)方案。模型训练如下图所示。



其中,需要完成的步骤有:1. 训练一个和说话人无关、内容无关的全局GMM模型;2. 根据注册数据,训练一个特定人、和内容无关的GMM模型;这一步的GMM模型,可以根据最大后验准则,用全局GMM和训练数据获得;3. 根据注册数据,训练一系列的特定人、特定内容的GMMs。这个过程中,首先需要把整个句子合理地切分成几个语音段,对于每个语音段,根据2GMM,训练一个GMM。由于每一个语音段都表示了特定说话内容因此训练得到的GMM,代表了特定人、特定文本内容;GMM序列组合起来,则代表了特定人、特定口令内容。

 

4.       特定人语音唤醒应用

目前云手机上,YunOS语音助手集成了特定人声纹唤醒功能,用户可以通过“你好小云”唤醒YunOS语音助手。

 

YunOS语音助手声纹功能还可以“被锻炼”,随着唤醒次数增多,可以使YunOS语音助手更熟悉用户的声音,并且减少他人的声音或者噪声带来的误操作。

 

以后,具有特定人语音唤醒功能的手机,还可以有更多的应用。比如:当你找不到自己手机的时候,你喊出“你好小云”就能将手机唤醒,此时手机可以响铃,做出“我在这里”的回应。另一种用途是当你想听自己喜欢的歌的时候,喊出“Hey, 小Y, 放首歌”,此时设备根据说话人的身份,播放个人喜欢的音乐。


目录
相关文章
|
语音技术 异构计算
FunASR项目支持实时语音识别
FunASR项目支持实时语音识别【1月更文挑战第7篇】
4889 1
|
移动开发 小程序 JavaScript
Uniapp 中,能够同时兼容H5、web、app、微信小程序的引入高德地图的语法格式
Uniapp 中,能够同时兼容H5、web、app、微信小程序的引入高德地图的语法格式
1888 0
|
机器学习/深度学习 人工智能 自然语言处理
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
RealtimeSTT 是一款开源的实时语音转文本库,支持低延迟应用,具备语音活动检测、唤醒词激活等功能,适用于语音助手、实时字幕等场景。
2868 18
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
|
缓存 前端开发 容器
HarmonyOs开发:轮播图Banner组件封装与使用
目前的轮播图,仅仅对Swiper做了简单的封装,另外增加了一个线条指示器,这远远是不够的,毕竟日常的轮播图形式多种多样,指示器也是千奇百怪,后续也会在此基础之上进行不断的扩展。
388 81
HarmonyOs开发:轮播图Banner组件封装与使用
|
人工智能 自然语言处理 API
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms
百聆是一款开源的AI语音对话助手,结合ASR、VAD、LLM和TTS技术,提供低延迟、高质量的语音对话体验,适用于边缘设备和低资源环境。
3908 5
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms
|
人工智能 监控 算法
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。
3633 18
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
|
安全 Android开发
Android之OKHttp基本使用和OKHttp发送https请求安全认证
Android之OKHttp基本使用和OKHttp发送https请求安全认证
1243 0
|
人工智能 算法 前端开发
如何使用ModelScope训练自有的远场语音唤醒模型?
本文介绍魔搭社区中远场语音增强与唤醒一体化的语音唤醒模型的构成、体验方式,以及如何基于开发者自有数据进行模型的定制。
1645 0
如何使用ModelScope训练自有的远场语音唤醒模型?
|
机器学习/深度学习 自然语言处理 语音技术
使用Python实现深度学习模型:智能语音助手与家庭管理
使用Python实现深度学习模型:智能语音助手与家庭管理
529 0
|
运维 数据库 网络架构
详尽分享运维网络面试题101道
详尽分享运维网络面试题101道
827 0

热门文章

最新文章