IBM 语音识别新方向:仿生蝙蝠耳能用声纳精准“聆听”

简介:

IBM 语音识别新方向:仿生蝙蝠耳能用声纳精准“聆听”

蝙蝠使用生物声呐,为夜晚在丛林中飞行导航。他们的超声波脉冲,可以比人造声呐装置更精确地对声音进行定位。为复制、驾驭这种能力,IBM 学院奖获得者 Rolf Müller 教授协同他在弗吉尼亚理工学院(Virginia Tech)的团队,设计了一种人造蝙蝠耳。

Rolf Müller 的研究引起了 IBM 的注意。IBM 专家韩金萍(音译)的神经计算团队,和 IBM Watson 语音专家崔晓东(音译)和他的同事, 看到了 Müller 教授人造“动态外耳”(dynamic peripheral,蝙蝠可转动的外耳使它们的生物声呐更加准确)的潜力 ,并希望借此提高人类语音理解的能力。他们把 Müller 的博士生 Anupam Gupta 纳入团队,一同他们探索人造蝙蝠仿生耳在语音处理的应用。

他们发现,这些仿生耳不仅是很有效的声呐装置,对语音识别同样能起到作用

IBM 语音识别新方向:仿生蝙蝠耳能用声纳精准“聆听”

模仿菊头蝠的人造耳

研究团队根据蝙蝠改变耳朵形状的能力,仿制了一个动态接收系统。能提高自动语音识别系统(ASR)的精确度,还能更准确地对谈话者定位。韩金萍将在他们的论文《受菊头蝠启发的接收动力学把动态特点加入语音信号》,及本周美国声学协会第 172 届会议上展示了这一发现。

这些动态系统有潜力发展成让使用者“像蝙蝠那样聆听”的语音接收设备。这会改进现有的助听器和指向性传声器。并可应用于任何需要对声音来源进行定位、理解的场景。

设想你身处一个忙碌、吵闹的集市。听清楚你旁边的人在说什么都可能是一项挑战。有了这项技术,同伴的声音就能被一个可变形的助听器识别,然后翻译成你能听懂的话。它还可以过滤掉闹市的杂音,和其他人嗡嗡的说话声。

仿生蝙蝠耳的生物声呐算法

蝙蝠的超声波具有 10 – 200 kHz 的频率,而人耳只能识别 20 Hz – 20 kHz 的声音。因此对我们来说它声调太高,大多数是听不到的。为了驾驭蝙蝠的生物声呐频率和精度,Gupta 加入韩金萍团队编写能够把语音讯号转化为超声波脉冲的代码——然后再把超声波转化为我们能够听到的正常语言。

这首先需要建立一个数据库。为了尽可能地简化,韩金萍团队使用了卡内基梅隆大学开源数据库中,11 个美式英语朗读者的英语字母和数字的发音。

举例子,以字母“A” 或者数字“1”形式出现的数据,被麦克风接收,然后转化为超声波信号。超声波扬声器播放该信号。随后,具有“动态外耳”的人造蝙蝠耳接收信号。最后,软件把超声波信号转化为原始数据——字母“A” 或者数字“1”。

现实(闹市)中的人造耳朵

虽然只包含字母和数字的声音信号数据库有较大限制,但通过分析它,韩金萍团队表示人造耳用“动态、方向性的的时间频率模型”丰富了语音信号。下一步,研究人员把人造耳处理后的声音与原始语音进行对比,来衡量人造耳的精度。因此,他们把原始语音数据和经人造耳处理的声音数据,放入分类器( classifier )中进行识别。67% 的语音信号能被成功识别出来。而在没有动态外耳的对照组中,只有 35% 的声音数据被识别

有了更多的可用分析数据后,研究员们将着手用行业基准来对该系统进行测试,并开发仿生学习算法。再或者,将来他们可能会开发一个“聆听” app,把智能手机麦克风变成接入物联网的指向性麦克风,来帮助使用者选择现实中他想要听到的声音。IBM 研究人员认为,实现它并不是太遥远。

via ibm

【招聘】雷锋网(公众号:雷锋网)坚持在人工智能、无人驾驶、VR/AR、Fintech、未来医疗等领域第一时间提供海外科技动态与资讯。我们需要若干关注国际新闻、具有一定的科技新闻选题能力,翻译及写作能力优良的外翻编辑加入。工作地点深圳。简历投递至 guoyixin@leiphone.com 。兼职及实习均可。

相关文章:

谷歌收购语音识别开放平台 API.ai,或将其整合在 Allo 中

微软研究院新成果!对话语音识别水平超人类,错误率仅为 5.9 %

思必驰雷雄国:语音识别将是万亿级物联网设备的标配 | 万物互联创新大会


本文作者:三川


本文转自雷锋网禁止二次转载,原文链接

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
Linux 语音技术 应用服务中间件
|
应用服务中间件 Apache 语音技术
|
机器学习/深度学习 语音技术
|
5月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12334 116
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
24天前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
52 0
|
25天前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音交互技术的突破与未来展望###
【10月更文挑战第27天】 本文聚焦于智能语音交互技术的最新进展,探讨了其从早期简单命令识别到如今复杂语境理解与多轮对话能力的跨越式发展。通过深入分析当前技术瓶颈、创新解决方案及未来趋势,本文旨在为读者描绘一幅智能语音技术引领人机交互新纪元的蓝图。 ###
44 0