特定人语音唤醒简介

简介: 特定人语音唤醒,就是通过识别语音中所含的内容和人的身份信息,来实现特定人语音唤醒功能。这是一种较为新颖、具有一定安全性、便捷性和趣味性的功能,同时可以增强个性化体验。

1.       什么是特定人语音唤醒

人的语音中含有大量的信息,除了语音内容(说了什么)外,还有语种(中文、英语)、身份(张三、李四)、情绪(平静、开心)等信息。

 

特定人语音唤醒,就是通过识别语音中所含的内容和人的身份信息,来实现特定人语音唤醒功能。这是一种较为新颖、具有一定安全性、便捷性和趣味性的功能,同时可以增强个性化体验。在YunOS语音助手中,就应用了此功能。此时机主可以通过“你好小云”这个语音口令,解锁手机并且唤醒YunOS语音助手。

 

和常见的语音唤醒相比,特定人语音唤醒功能不仅要求说对唤醒口令、还会判断是谁在说出这个口令。一旦口令不对或者身份不对,则会拒绝解锁手机和唤醒YunOS语音助手。

 

2.       特定人语音唤醒的基本框架

特定人语音唤醒方案整体框图如下:


            

语音唤醒使用之前需要一个初始设置,特定人语音唤醒也一样,这是让智能设备认识用户自己声音的过程,初始设置在这里称之为注册,对应于模式识别的训练过程。默认情况下,用户根据页面提示,说出三遍你好小云就可以完成初始设置。注册完了之后,用户就可以使用特定人语音唤醒了。使用时,只有预设的语音口令内容、说话人身份都匹配的时候,手机才能解锁或者打开特定程序。

 

3.       分层次GMM(HiGMM)模型

除了VAD(静音检测)、特征提取、评分等模块之外,模型是是整个方案中的关键。为了实现同时完成语音唤醒和特定人判别,我们设计了一个分层次GMM(HiGMM)方案。模型训练如下图所示。



其中,需要完成的步骤有:1. 训练一个和说话人无关、内容无关的全局GMM模型;2. 根据注册数据,训练一个特定人、和内容无关的GMM模型;这一步的GMM模型,可以根据最大后验准则,用全局GMM和训练数据获得;3. 根据注册数据,训练一系列的特定人、特定内容的GMMs。这个过程中,首先需要把整个句子合理地切分成几个语音段,对于每个语音段,根据2GMM,训练一个GMM。由于每一个语音段都表示了特定说话内容因此训练得到的GMM,代表了特定人、特定文本内容;GMM序列组合起来,则代表了特定人、特定口令内容。

 

4.       特定人语音唤醒应用

目前云手机上,YunOS语音助手集成了特定人声纹唤醒功能,用户可以通过“你好小云”唤醒YunOS语音助手。

 

YunOS语音助手声纹功能还可以“被锻炼”,随着唤醒次数增多,可以使YunOS语音助手更熟悉用户的声音,并且减少他人的声音或者噪声带来的误操作。

 

以后,具有特定人语音唤醒功能的手机,还可以有更多的应用。比如:当你找不到自己手机的时候,你喊出“你好小云”就能将手机唤醒,此时手机可以响铃,做出“我在这里”的回应。另一种用途是当你想听自己喜欢的歌的时候,喊出“Hey, 小Y, 放首歌”,此时设备根据说话人的身份,播放个人喜欢的音乐。


目录
相关文章
|
算法 IDE 开发工具
Airtest脚本的点击位置与点击偏移
Airtest脚本的点击位置与点击偏移
529 0
|
移动开发 小程序 JavaScript
Uniapp 中,能够同时兼容H5、web、app、微信小程序的引入高德地图的语法格式
Uniapp 中,能够同时兼容H5、web、app、微信小程序的引入高德地图的语法格式
2171 0
|
搜索推荐 Unix Linux
深入了解ln命令:创建硬链接和符号链接的实用指南
深入了解ln命令:创建硬链接和符号链接的实用指南
732 0
|
JavaScript 前端开发 Java
SpringBoot+Vue打造资产出入库管理系统(二)
SpringBoot+Vue打造资产出入库管理系统
1049 2
|
6月前
|
机器学习/深度学习 算法 算法框架/工具
基于yolov8的深度学习水果识别检测系统
在农业现代化与消费升级背景下,基于YOLOv8的水果智能检测系统应运而生。该系统利用计算机视觉技术,实现高效、精准的水果识别与分级,广泛应用于生产、流通与零售环节,显著提升分拣效率、降低人工成本,并推动农业智能化发展。
|
4月前
|
自然语言处理 前端开发 测试技术
魔搭社区+OpenVINO™ 加速部署 Qwen3-ASR 实战
通义千问新推Qwen3-ASR语音识别模型(1.7B/0.6B),支持52种语言及方言,具备高鲁棒性与流式长音频转写能力。联合魔搭社区与Intel® OpenVINO™,实现Intel平台极致加速部署,提供完整开源教程、Notebook示例及Gradio交互Demo。(239字)
2801 6
|
10月前
|
域名解析 人工智能 机器人
AppFlow:企业微信支持流式群聊机器人
企业微信近日更新,新增群聊机器人功能,支持与自定义大模型对话。通过@机器人,可实现流式输出,提升交互效率。只需简单配置,即可将AI能力集成至群聊,完成即时消息解析与业务联动。
2932 1
AppFlow:企业微信支持流式群聊机器人
|
机器学习/深度学习 人工智能 自然语言处理
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
RealtimeSTT 是一款开源的实时语音转文本库,支持低延迟应用,具备语音活动检测、唤醒词激活等功能,适用于语音助手、实时字幕等场景。
3204 18
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
|
缓存 算法 C语言
【C++ 标准查找算法 】C++标准库查找算法深入解析(In-depth Analysis of C++ Standard Library Search Algorithms)
【C++ 标准查找算法 】C++标准库查找算法深入解析(In-depth Analysis of C++ Standard Library Search Algorithms)
429 0