技术和产品二重奏:搜狗如何演绎「自然交互和知识计算」

简介: 苹果 Siri 的推出让大众开始对语音交互有了初步概念,而这几年深度学习的发展更是使语音识别准确率获得了质的提升。

苹果 Siri 的推出让大众开始对语音交互有了初步概念,而这几年深度学习的发展更是使语音识别准确率获得了质的提升。


1976 年,Reddy 在一篇关于当时语音识别最高水平的综述文章中大胆预测:未来 10 年内有望实现成本为 20,000 美元的联网语音系统。虽然超出了预计时间,但研究人员最终不仅达到了目标,而且建立系统的成本低得多并继续大幅下降。


今天,在很多智能手机里,业内提供了明显超出 Reddy 预测的免费语音识别服务。 从某种程度上来看,目前的语音识别技术已然成熟,我们已经习惯在家居、车载等某些场景下去使用语音,众多拥有语音识别技术的公司也开始把语音和人机自然对话当做下一代交互方式去豪赌未来。


但就像语音识别在过去几十年的发展路径一样,技术和基础研究的进步是需要循序渐进的。 一方面,我们需要通过更多创新的方法来进行语音识别的基础研究,以尽可能提高准确率,如同IBM 曾将英语会话词错误率降低至 6.9% 。另一方面,前沿技术研究到实际应用需要一个很长的过程,我们也不可能等到语音识别的准确率达到 100% 之后再将其应用,而是在当前成熟技术的最高水平下,通过产品设计去让技术落地,解决用户需求问题。通过应用场景的设计和产品的创新去弥补技术的不足,在依靠技术的同时,应该更多的以产品为导向。


纵观整个互联网行业,可以说搜狗作为一家技术型公司,在人工智能领域一直依靠实践来获取更多的经验,从而提升产品使用体验。


人工智能=自然交互+知识计算

 

关于人工智能,搜狗将其总结为两点,即「自然交互和知识计算」。在交互方面,搜狗语音交互技术中心负责人王砚峰认为语音和图像已经具有一定的成熟度,除了向更加成熟的方向发展外,未来也会将更多的传感技术以及传感器加入到交互中,进一步推动交互技术的发展。同时,语义理解和对话也是交互方面的核心能力,因为不能只有「耳朵眼睛」没有「大脑」;在信息获取方面,王砚峰认为知识计算和逻辑推理会让当前的搜索形态发生变化,即从单纯文字的检索,到理解搜索需求并且从网页中抽取知识反馈用户。从而提升搜索体验,同时帮助用户更自然的获取信息。


B3A65A08-4A0B-40F1-9B98-7967BE7FB1C4.jpeg


「语音识别技术经过这几年的快速发展,准确率有了非常大的提升。但即使如此,当前语音识别准确率仍然做不到 100% ,而语音识别一旦出错,用户修改成本就会异常的高,从而反过来提高了用户使用语音的门槛,」王砚峰表示,「于是我们就去想,能不能结合用户使用语音的场景,通过产品创新进一步提升语音识别的效果,弥补技术发展的不足。」所以,搜狗推出了语音识别纠错功能,当语音识别发生错误时,可以让用户通过语音交互去修改错误,这样就大大提升了语音交互的体验和使用效率。


支撑这个功能有两方面技术,一是需要语音识别本身的准确率,二是需要强大的语义理解能力,「就是能够听懂用户想改什么以及怎么改。为了降低用户使用这个功能的学习成本,需要做的就是能够支持用户各种修改的表达,用户可以说『把第一个字删掉』,也可以说『将第一个字删掉』,『删除第一个字』等各种其他表达方法。我们追求的就是让用户在修改的时候,平时对人是怎么描述修改的,对机器就怎么描述。这才是用户最自然的交互方式。」王砚峰解释到。


用「最自然的交互方式」进行纠错还体现在用户可以去描述某个文字,比如机器能够听懂「立早章」和「女字旁的她」这样复杂的语言命令,而实现这个功能则是和搜狗在输入法的积累密不可分。「这方面搜狗输入法还是带给了我们先天的优势,」王砚峰说,「我们输入法具有基础的拆字库,知道一个字是如何拆开的,同时我们也有大量的用户表达数据,通过数据挖掘,是可以知道用户日常表达中如何描述一个字的。这两个知识串起来,就能够让我们知道,用户会用『立早章』来描述『章』这个字,于是就把这个知识加入到我们的知识库中。」


什么才是未来的内容获取方式?


拥有技术基础,再加上对应用场景理解的产品理念,那语音纠错这个功能显然就变成了解决刚需的通用工具,因为整个行业在语音识别准确率未能达到100%的情况下,只要处于语音输入的场景下,势必都需要这样的技术,不仅能够解放用户的双手,同时在一定程度上提高了用户的使用效率。「车内导航的时候,利用它去修改语音识别错误的导航目的地,真正的解放用户双手;在客厅中,比如电视遥控器和智能音箱这种没有屏幕的设备,甚至只能通过语音修改来进行错误的修正了。所以但凡语音有价值的场景,语音修改就同等的具有价值,」王砚峰说。


王砚峰认为,语音纠错这个功能只是人工智能技术和产品理念结合的一个案例,为了帮助用户更方便的进行信息的表达和获取,属于这条路径上的技术领域,都是搜狗需要重点发力的方向。 因此,除了语音和语义理解,搜狗在图像等方面也在进行布局。一方面致力于对未来主流技术的布局和追求,另一方面也使得现有核心产品向未来更智能的方向演进。



©本文由机器之心原创,转载请联系本公众号获得授权

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
11月前
|
存储 边缘计算 编解码
《2022中国云游戏行业认知与观察》——第二章、云游戏应用场景与技术实践——2.2 微端:游戏小包分发 提高转化效率——2.2.1 应用案例 十秒完成下载,《三国志·战略版》用了什么黑科技?
《2022中国云游戏行业认知与观察》——第二章、云游戏应用场景与技术实践——2.2 微端:游戏小包分发 提高转化效率——2.2.1 应用案例 十秒完成下载,《三国志·战略版》用了什么黑科技?
156 0
|
机器学习/深度学习 人工智能 监控
《花雕学AI》23:中文调教ChatGPT的秘诀:体验测试与通用案例,解锁无限有趣玩法!
ChatGPT是一个基于深度学习的中文对话生成系统,它可以根据用户的输入,生成流畅、自然、有趣的对话回复。ChatGPT不仅可以进行各种主题和风格的闲聊,还可以进行各种类型和形式的创作、学习、娱乐和社交。ChatGPT具有强大的逻辑推理和创造性思维能力,可以应对各种复杂和有趣的情境和挑战。 但是,要充分发挥ChatGPT的潜力和魅力,你需要了解如何调教它,让它更符合你的期望和需求。在本文中,我将为你揭示中文调教ChatGPT的秘诀,通过体验测试和通用案例,让你解锁无限有趣玩法,享受与ChatGPT的对话乐趣。请跟随我,一起探索ChatGPT的奇妙世界吧!
549 0
|
机器学习/深度学习 数据采集 人工智能
国内“谁”能实现chatgpt,短期穷出的类ChatGPT简评(算法侧角度为主),以及对MOSS、ChatYuan给出简评,一文带你深入了解宏观技术路线。
国内“谁”能实现chatgpt,短期穷出的类ChatGPT简评(算法侧角度为主),以及对MOSS、ChatYuan给出简评,一文带你深入了解宏观技术路线。
国内“谁”能实现chatgpt,短期穷出的类ChatGPT简评(算法侧角度为主),以及对MOSS、ChatYuan给出简评,一文带你深入了解宏观技术路线。
|
机器学习/深度学习 人工智能 自然语言处理
精彩回顾:谷歌 Google I/O 2022“知识与计算”成焦点|践行“科技让所有人生活得更好”
精彩回顾:谷歌 Google I/O 2022“知识与计算”成焦点|践行“科技让所有人生活得更好”
207 0
精彩回顾:谷歌 Google I/O 2022“知识与计算”成焦点|践行“科技让所有人生活得更好”
|
机器学习/深度学习 人工智能 自然语言处理
不同于谷歌,京东选择从应用场景出发迭代对话式 AI 技术
1966 年,一个由 MAD-SLIP 程式语言编写,在 36 位元架构的 IBM 7094 大型电脑上运作,所有程式编码仅有 200 行左右的聊天机器人,被 MIT 的德裔电脑科学家 Joseph Weizenbaum 发明出来,名叫“Eliza”。
289 0
不同于谷歌,京东选择从应用场景出发迭代对话式 AI 技术
|
机器学习/深度学习 人工智能 自然语言处理
源1.0开源开放,AI大模型再也不是“头部玩家”的奢侈品
源1.0开源开放,AI大模型再也不是“头部玩家”的奢侈品
475 0
源1.0开源开放,AI大模型再也不是“头部玩家”的奢侈品
|
机器学习/深度学习 人工智能 监控
线上XO派对大热!Zoom想用机器学习鉴别裸体,行得通吗?
线上XO派对大热!Zoom想用机器学习鉴别裸体,行得通吗?
243 0
|
机器学习/深度学习 消息中间件 人工智能
【1012 - 1016直播导视 | PPT 下载】走进工业级图神经网络框架GraphLearn、一个真正人人可用的云时代研发模式已经到来!
本周将为你带来多场技术公开课:开源日也迎来第四期走进工业级图神经网络框架GraphLearn;并且还有阿里云Serverless云开发平台风驰为你揭秘一个真正人人可用的云时代研发模式已经到来!
5603 0
|
视频直播 5G UED
独特的直播形式——一对一语音聊天独特的直播形式——一对一语音聊天
4G技术的发展给移动直播带来了巨大的商机,全民直播的新时代,音视频结合的一对多直播形式在直播市场中占据着各大主流媒体。然而随着直播市场逐渐饱和,单一的一对多视频直播已经不能满足观众的需求,更能贴近人们需求的一对一直播逐渐发展起来。一对一语音聊天更是有着普通的一对多视频直播无法媲美的优越性。
独特的直播形式——一对一语音聊天独特的直播形式——一对一语音聊天