声纹识别在智能家居中备受青睐,但还面临一些“困扰”

简介:

在智能家居领域,语音识别的热潮正悄然平息,声纹识别接替而上。

在智能家居备受青睐,声纹识别还面临一些“困扰”

近日,根据调查机构CIRP的报告显示,亚马逊在2014年11月推出的Echo系列智能音箱产品在美销量已突破510万台。并且,根据市场数据,CIRP推算2016年前九个月亚马逊就已经售出200万台Echo产品(包括Echo DotEcho Tap)。

看到亚马逊的智能音箱销量如此之好,我们都意识了智能家居语音控制系统的前景之利好。不过,即使当前的语音识别技术已经基本上达到了人们所需要的标准,在智能家居语音控制系统之中,仍然有一些瑕疵的存在,比如在人声嘈杂的环境里,如何正确识别出用户发出的命令。

在智能家居备受青睐,声纹识别还面临一些“困扰”

出于需求,声纹识别是智能家居的一个补充

当前,尽管智能家居语音控制系统已经满足了人们的基本需求,不过,仍然有一些小小的不足,而这方面,就需要声纹识别技术进行补充了。

借助声纹识别,进一步提升用户体验。以智能音箱为例,为了更好的进行定位、捕捉声音、以及降低无关噪音的影响,开发者们会采用多麦克风的形式,不过,一旦处于人声鼎沸的环境之中,智能音响的语音识别系统极有可能“罢工”,因为它很难从众多声音中准确的识别出下命令的用户。

在智能家居之中,大多家庭往往只买一个智能音箱。打个比方,当声纹识别技术发展较为成熟之时,若一位家庭成员呼唤音箱打开自己房间的灯,语音控制系统就能通过声纹识别技术确认说话人的身份,从而准确的打开说话人房间的灯。由此,在体验上,不管是从众多人声中准确辨认用户,还是确认说话人的身份,声纹识别都能让用户体验进一步的提升。

在智能家居备受青睐,声纹识别还面临一些“困扰”

搭载声纹识别,提高家庭安全指数。由于不能确认说话人的身份,只要条件允许,当非用户下达命令之时,语音控制系统极有可能会执行。

举个例子,有人非法入侵住宅,若语音控制系统不限制说话人的身份,纵然有着智能监控系统,闯入者完全可以直接下命令关闭监控系统,如此一来,闯入者就成功的得到了住宅的临时控制权。当搭载声纹识别技术,基于声纹的独特性,再不能识别出闯入者身份的前提下,语音控制系统就能接着进行报警等一系列安防措施。

在智能家居备受青睐,声纹识别还面临一些“困扰”

备受青睐,声纹识别仍有“困扰”

如今,在智能家居领域,语言识别已经充分的体现了自己的价值,紧接着,随着语音识别热潮的过去,声纹识别又成为了新的热门,被称为智能家居未来发展的关键,或是语音交互的下一个风口。且不论它在智能家居领域的未来发展如何,就目前而言,其想在智能家居领域真正落地,还需解决一些困扰。

首先是声纹的采集和特征的建立。不管是人工识别,还是依靠深度学习算法进行自动化识别,声纹库的建立都是进行一切行动的前提。当前,公安的声纹鉴别库应该是最全的,不过,企业要想研究声纹识别,从公安处入手显然行不通,因而,声纹库的建立就依赖于企业自行收集,这是一件相当艰难的任务。

不同于人类的双耳,机器的识别都是在数以百万、千万计的数据训练中不断改善的,可以说,如果没有足够的数据支持,就没有如今的语音识别等人工智能技术的突破。对于企业而言,想要训练声纹识别算法,他们所需的不仅仅是语音数据,还需要特征多样化的语音数据,像方言、口音等等,如此才能全方面的对声纹识别算法进行训练。

除了声纹的采集,声纹特征的建立也是当前声纹识别进展的一个难题。理论上来讲,声纹就像指纹一样,很少会有两个人具有相同的声纹特征。虽说如此,但正如双胞胎一般,有些声纹极其相似,可能只存在一丢丢的差异,这时,找出特征就成了一件相当具有难度的事。当然,你或许会说这部分可以由计算机完成,的确,依计算机的运算速度,该工作的完成还是相当不费吹灰之力的。不过,在特征建立工作中,这里又再次回到了上一个话题,没有充足的声纹库,又如何建立足够的声纹特征?

在智能家居备受青睐,声纹识别还面临一些“困扰”

其次,除了声纹的采集和特征的建立,如何准确识别说话人也是当前一个急需解决的问题。不仅仅是静态检测,现在的声纹识别更多的是被要求进行实时动态监测,因而,说话环境、说话人身体状况、情绪变化等都能对声纹识别的结果造成影响。

以说话人本身的状况为例,用iPhone 7上Siri的声纹识别做实验,在提前保存声纹数据的基础上,镁客君的小伙伴分别以正常、加粗、尖细的声音唤醒Siri,结果证明,只有正常的语音状态下,Siri才能被唤醒,其他则是毫无反应。对照该结果,我们可以总结,只要说话人的声音出现状况,比如沙哑、情绪化等等,声纹识别系统就不能将之与库中的声纹对上号,从而不能确认说话人的身份。

在智能家居备受青睐,声纹识别还面临一些“困扰”

正如当前人们所言,在语音识别之后,声纹识别成了智能家居的又一个关注点。然而,声纹库、特征的建立以及提高准确率也不是一朝一夕可以完成的,就比如语音识别,纵然准确率已经接近百分之百,但若周遭环境嘈杂,其准确率就差强人意了。因而,在智能家居领域内备受青睐的声纹识别,其距离应用的日子还有一段路要走!


原文发布时间: 2016-12-01 18:15
本文作者: 韩璐
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
存储 缓存 开发工具
AppsFlyer 研究(五)延迟深度链接&客户端获取归因数据
AppsFlyer 研究(五)延迟深度链接&客户端获取归因数据
1359 0
|
12月前
|
人工智能 自然语言处理 搜索推荐
AI 赋能:开启内容生产效率革命的密钥》
在数字化时代,AI技术正成为提高内容生产效率的关键工具。本文探讨了AI在文章写作、文案创作、翻译、图像识别与生成及数据分析等方面的应用,分析了其提高效率的方式、带来的优势与挑战,并通过新闻媒体、营销、教育等行业案例,展望了AI在内容生产领域的未来。
509 3
|
存储 缓存 NoSQL
【缓存】J2Cache —— 基于内存和 Redis 的两级 Java 缓存框架的使用方法
【缓存】J2Cache —— 基于内存和 Redis 的两级 Java 缓存框架的使用方法
801 0
|
存储 安全 Windows
U盘文件损坏且无法读取怎么修复?五个方法帮你搞定
U盘文件目录损坏无法读取可能是硬件、软件或人为操作导致的问题。修复方法包括:1) 使用数据恢复软件提取重要文件;2) 运行Windows的磁盘检查工具;3) 格式化U盘(数据会丢失);4) 检查U盘健康状况,如坏道修复;5) 若硬件故障,联系官方售后。在修复前,记得先备份数据。加强数据备份能减少损失。
|
域名解析 存储 缓存
破解 DNS 缓存的秘密:一个简单实验揭示定时刷新背后的惊人真相!
【8月更文挑战第27天】本文介绍DNS缓存管理的重要性及其实现方法。DNS缓存用于快速响应重复的域名解析请求,但因IP地址变动需定期刷新以确保信息准确。文章提供一个基于Python的示例脚本,模拟DNS缓存刷新过程,包括添加、查询记录以及清除过期项等功能。尽管实际环境中这些任务常由专业DNS服务软件自动处理,但该示例有助于理解DNS缓存的工作机制及其维护策略。
343 0
|
存储 关系型数据库 MySQL
MySQL主从同步如何保证数据一致性?
MySQL主从同步如何保证数据一致性?
950 0
MySQL主从同步如何保证数据一致性?
|
人工智能 搜索推荐 语音技术
AI赋能视频剪辑师:人工智能时代,视频剪辑师该如何剪辑?
在AI时代,视频剪辑师借助智能素材整理、自动化剪辑、语音识别及创意辅助技术,提升效率和创新空间。他们应拥抱AI,结合AI优化剪辑流程,如高效预筛选素材、减少手动操作,同时借助AI激发创意。保持主观能动性和创造力至关重要,通过学习,如获取Adobe国际认证,提升专业技能,适应行业发展,打造个人品牌,以在行业中保持竞争力。
|
Java 语音技术 Windows
一篇文章讲明白java文本转语音
一篇文章讲明白java文本转语音
160 0
|
存储 JSON 安全
Session 与 JWT 的对决:谁是身份验证的王者? (下)
Session 与 JWT 的对决:谁是身份验证的王者? (下)
Session 与 JWT 的对决:谁是身份验证的王者? (下)
|
网络协议 PHP 网络虚拟化
BGP MPLS VPN(OPTION B)实验笔记
BGP MPLS VPN(OPTION B)实验笔记
335 0
BGP MPLS VPN(OPTION B)实验笔记