这家默默做技术的创业公司,想要重新定义国产智能硬件的语音交互

简介: Win 10 已经开放下载,可能你已经将电脑升级到这个倾注整个微软团队精力研发的全新系统。在 Win 10 界面的任务栏上,属于 Cortana 语音助理的搜索栏清晰可见。你可以通过“嘿,小娜”直接唤醒,然后让 Ta 回答你的问题。

image.png

Win 10 已经开放下载,可能你已经将电脑升级到这个倾注整个微软团队精力研发的全新系统。在 Win 10 界面的任务栏上,属于 Cortana 语音助理的搜索栏清晰可见。你可以通过“嘿,小娜”直接唤醒,然后让 Ta 回答你的问题。


当 Cortana 从深陷 “1%” 尴尬境地的 WP 平台来到数以亿计用户每天工作和生活中使用的 Win 10 新老设备上时,语音对话这种全新的人机交互方式迎来了世界三大操作系统(Windwos、iOS、Android)的全平台支持。


从最开始的键盘/鼠标交互,到现在颇为流行的触控交互,再到爆发前夜的语音交互,人机交互的艺术之旅让人惊叹。触控交互缩短了人与机器的距离,而语音交互将把“人机交互”带到“人人交互”的新阶段。交互另一端,曾经冰冷的机器正在变得越来越像一个活人。虽然“助理”们的智商普遍堪忧(小娜、小冰,Siri,Google Now ),但 Ta 们正在一点一滴地成长。


语音交互之于智能硬件的重要性


人与手机进行交互,触控必然是主要方式,语音至多算是个黄金替补。伴随智能硬件潮的兴起,语音交互找到了更好的产品载体。


智能硬件,作为和语音交互结合最为紧密的产品类别,正在全面探路人机交互的新可能。某种程度而言,智能硬件的“智能”就是交互上的智能化。将手机上的触屏交互移植过来?这显然不是可穿戴设备上的最佳交互体验。


可穿戴设备等智能硬件产品碍于屏幕大小,多样化的人机交互方式成为发展必然;作为相较触控更加自然贴切的交互方式,语音正在扮演举足轻重的角色。智能家居和智能车载等智能硬件产品由于大都没有设计屏幕,在脱离手机 App 这个中间载体后,语音交互成为唯一选择。某种程度而言,语音交互之于智能硬件的重要性,犹如触屏交互之于智能手机。


智能硬件产业潜力无穷,语音交互产业同样大有可为。所以,不管是百度等巨头玩家,还是科大讯飞这样的专业级大腕,抑或思必驰等新选手,他们都想通过自家的语音交互技术来创造与智能硬件相配的智能化新体验。


在勾搭上智能硬件这个好拍档后,语音交互的智能化正在加速。


思必驰出击智能语音市场的路数


不容讳言,智能硬件产业依然处于发展早期,与之对应的语音交互也远未达到人们想要的那种智能化程度。不能仅仅停留在传统的语音识别和合成阶段,智能硬件的语音交互需要上升到认知理解和抽象思维的新高度。


当然,语音交互技术不可能一蹰而就地就来到高智能的成熟阶段。国内语音技术创业公司思必驰的联合创始人兼首席科学家俞凯认为,这需要经历两个阶段:一个是传统语音技术的优化,使其更加人性化;二是对话技术的使用,采用认知交互智能提升任务完成的水平和用户体验。


思必驰,这家曾经专注于 2B 业务的创业公司在转型 2C 业务后,选择通过构建智能硬件语音交互平台的形式开始了新的长征。你可能没听过思必驰的名字,但你应该对小智音箱、inWatch 智能手表、索尼智能手环以及欧瑞博智能家居产品有所耳闻,而这些智能硬件明星产品的语音交互均采用思必驰的系统。


在 7 月 29 日举行的发布会上,思必驰也首次对外公布了自家颇引以为傲的智能语音交互新技术,其核心要点包括:


1.远场、抗噪技术上的突破,可以从根本上解决智能语音交互在应用场景上的限制,从而让人不受外界环境,更加畅快地使用智能硬件上的这种新交互。


例如你想在车上通过语音来拨号,这时 90% 的语音识别率是没有意义的,因为外界环境的噪杂已经严重干扰到了设备的正常录入。诸如此类的环境下,没有对周围噪音的过滤机制,智能硬件是没办法通过语音来进行交互的。


2.更好的回声消除算法和麦克风阵列算法结合,可以在降低硬件条件的同时,实现更高质量的语音识别,提升识别速度与准确率。


3.基于统计的参数化语音合成方法,可以实现语音模型规模的压缩以及语音连贯性的提升,而且能够更加自由地合成个性化的语音。


4.多轮交互和根据上下文的语义解析,可以对用户体验进行系统设计和优化。


前 3 点都是在对语音识别、合成进行技术突破,第 4 点则涉及到更为高阶的机器认知能力的培养上。要让语音交互在智能硬件上发挥更大作用,机器本身就一定要能理解用户的自然语言,而不只是在“刻意配合”的理想稳态下才能进行“沟通”。例如在用户语言打断等非流畅表述情况下,智能语音交互系统就要有自我的适应和纠错机制来保证录入信息的相对准确性,而不是让用户一而再再而三地去纠正和复述。


所以,要让语音交互真正在智能硬件上发挥作用,除了语音识别和合成,就一定涉及到智能语音系统的认知能力,要让机器能够理解人的自然语言,明白主人的真正意图。俞凯表示:


思必驰的目标是打造一个真正具有认知能力的人机交互界面。通过获取、理解、学习,从而进行语义计算,通过识别适配以及上下文和情境的理解,并且可以在打断、容错、纠错的情况下,完成用户的意图。

思必驰公布的这四大核心技术解决了语音交互在智能硬件应用上的几大痛点。按照官方说法,思必驰在这些技术方面均处于世界领先地位。作为思必驰这家技术公司出击智能语音市场的杀手锏,这四大核心技术将在智能家居、智能车载、智能穿戴以及机器人等智能硬件产品上帮助消费者更好地进行语音交互。


相比百度、科大讯飞等巨头公司的大战略,思必驰专注于智能硬件语音技术平台的提供,不做终端产品。值得注意的是,思必驰不仅可以为硬件合作伙伴提供人机交互的能力,还可以将云端人机语音交互的数据提供给合作伙伴来共同进行用户行为的分析和用户体验的提升。


“当务之急是先把这块蛋糕共同做大”


国内智能语音市场愈加热闹,科大讯飞联手京东推出了可语音控制的叮咚智能音箱,百度语音开放平台正在与百度的海量内容进行深度融合,出门问问的语音智能借由自家手表 Ticwatch 的推出实现了软硬件的高度一体化。名头更小的思必驰怕不怕这些大牌友商呢?


思必驰 CEO 高始兴对雷科技表示,智能语音市场很大,而思必驰只想做好智能硬件上的语音交互系统这一个小点,其他诸如面向企业提供技术支持、搭建语音服务生态等大方面还是留给大公司去做吧。


智能硬件产业处于发展早期,语音交互技术和生态也不完善,没有一家公司能够独食,包括巨头公司,智能语音市场还远远没到竞争的阶段。高始兴认为,业界同行当务之急是先把(智能语音)这块蛋糕共同做大,来共同推动智能语音新技术的全面落地。


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
3月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
81 4
|
4月前
|
人工智能 API 语音技术
PHP对接百度语音识别技术
PHP对接百度语音识别技术
91 1
|
4月前
|
机器学习/深度学习 自然语言处理 大数据
语音识别和语音合成技术
语音识别和语音生成是人工智能的重要分支,旨在实现计算机对人类语音的理解和生成。随着深度学习技术的快速发展,语音识别和生成技术在近年来取得了显著进展,并在多个领域实现了广泛应用。本文将介绍语音识别和生成的基本原理、关键技术及其应用,并探讨其未来的发展趋势。
162 3
|
3月前
|
机器学习/深度学习 自然语言处理 算法
尖叫!FunAudioLLM 技术掀起狂潮,开启语音交互的惊天巨变之门!
【8月更文挑战第8天】随着科技的进步,语音交互已成为日常不可或缺的部分。FunAudioLLM凭借其先进的自然语言处理和深度学习技术,在语音理解和生成方面实现了突破。相较于传统技术,它提升了理解和响应速度。通过简单的Python代码示例,我们可以测试其对如天气查询等指令的快速准确反馈。FunAudioLLM不仅适用于日常交流,还在医疗、教育等领域展现出应用潜力。尽管存在多语言环境下的准确性挑战,其为语音交互领域带来的革新仍值得期待。随着技术的持续发展,FunAudioLLM将为更多领域带来便利和效率。
62 0
|
5月前
|
自然语言处理 搜索推荐 数据挖掘
*语音识别技术将深刻影响未来的教育模式
【6月更文挑战第24天】*语音识别技术将深刻影响未来的教育模式
85 10
|
5月前
|
机器学习/深度学习 人工智能 搜索推荐
语音识别技术的现状与未来展望
【6月更文挑战第15天】**语音识别技术现状与未来:** 随AI发展,语音识别精度与速度大幅提升,应用广泛,从手机助手到智能家居。深度学习驱动技术进步,跨语言及多模态交互成为新趋势。未来,精度、鲁棒性将增强,深度学习将进一步融合,个性化和情感化交互将提升用户体验。跨领域融合与生态共建将推动技术普及,为各行业带来更多智能解决方案。但同时也需关注技术伦理和社会影响。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
利用深度学习提升语音识别准确率的技术探讨
传统的语音识别技术在面对复杂的语音场景时常常表现出准确率不高的问题。本文探讨了如何利用深度学习技术,特别是深度神经网络,来提升语音识别的精度。通过分析深度学习在语音处理中的应用以及优势,我们展示了如何结合最新的研究成果和算法来解决现有技术的局限性,进一步推动语音识别技术的发展。 【7月更文挑战第3天】
228 0
|
6月前
|
机器学习/深度学习 人工智能 算法
构建一个基于AI的语音识别系统:技术深度解析与实战指南
【5月更文挑战第28天】本文深入探讨了构建基于AI的语音识别系统,涵盖基本原理、关键技术及实战指南。关键步骤包括语音信号预处理、特征提取、声学模型、语言模型和解码器。深度学习在声学和语言模型中发挥关键作用,如RNN、LSTM和Transformer。实战部分涉及数据收集、预处理、模型训练、解码器实现及系统评估。通过本文,读者可了解构建语音识别系统的基本流程和技巧。
|
5月前
|
机器学习/深度学习 搜索推荐 安全
语音识别技术是一种将语音信号转换为文本或命令的技术,
语音识别技术是一种将语音信号转换为文本或命令的技术,

热门文章

最新文章