搜狗的人工智能研发与应用:让技术在产品中创造更多用户价值

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 今年 4 月份,搜狗宣布与清华大学联合成立「清华大学天工智能计算研究院」,把人工智能作为重要战略发展方向,但一直没有透露太多关于具体人工智能研发和应用层面的信息。为此,机器之心对搜狗语音交互技术中心负责人王砚峰进行了专访,王砚峰介绍了搜狗的人工智能研究历史,以及在人工智能方面的产品创新思路。

微信图片_20211126212633.jpg

王砚峰,搜狗公司桌面事业部高级总监,桌面研究部和语音交互技术中心负责人


机器之心:搜狗是何时在人工智能方面开展研究的?


王砚峰:现在提到人工智能可能大家首先想到的就是苹果的语音助手 Siri,之后国内外各大公司也都在这个方向上不遗余力的投入与宣传。搜狗早在 2013 年就推出了搜狗语音助手,借助于背后搜索引擎的能力,很快就从技术上做到了中文业内的领先,并在市场上赢得了不错的口碑。只是后来发现这类产品的用户沉淀率很低,因为实际上它在手机端并不能够真正很好的解决用户的实际需求,更像一个玩具,因此后来在研发以及推广上的资源就没有再持续。但这些年来搜狗一直在内部各个产品线上都在坚持往「更智能化」的方向去走。


比如我们目前就一直在思考和探索未来的输入法是什么样子的。传统的输入法只是一个工具,核心是帮助用户更有效率的进行文字输入。但进一步思考用户输入背后的原始意图时你会发现用户的输入需求主要是表达和信息传递。那我们能不能在这两个方向上利用机器智能多走一步,帮用户多做一些事情,给用户带来更多的价值?例如在我在回复你发来的 message 时,输入法能否根据你发来的问题自动生成回复。再比如我们微信聊天中,输入法通过语义分析发现我正在给你推荐晚上聚餐的饭馆,那就可以直接把餐馆对应的大众点评 URL 提供给我,我可以一键分享给你,那我就不再需要先切到点评 APP 搜索该餐厅然后分享回微信的这样繁琐的过程。这些功能其实都是人工智能在产品中的体现,已经部分的灰度上线,目前还在打磨体验。刚刚过去的谷歌大会也发布了 Gboard 谷歌键盘,在这方面的思路就和我们是基本一致的,也是让输入法更好的服务用户。


谈到语音,我们在 2012 年初就开始研发自己的语音识别技术,并且在 2012 年底就已经全量上线到了我们的输入法和地图产品中。当时搜狗语音助手曾短暂的使用过第三方公司提供的语音技术,在 2013 年上半年我们完成了深度学习技术的研发和上线,并实际的接入语音助手进行灰度测试,从用户反馈数据来看我们的准确率已经领先于第三方公司,于是 6 月份以后我们的全线产品就全都使用我们自己的语音识别技术了。


到现在,我们的语音技术还会每年去做对比评测,以了解我们在业界的真实位置。不是自己评,而是会找一些高校,让他们找人去评,多台手机同时对比多家语音识别技术,评测的结果我们的表现是业内领先的。


机器之心:搜狗作为一家互联网产品公司,能把语音识别技术做到现在这个水平的主要原因是什么?


王砚峰:最大的差异点应该就是产品以及产品上产生的数据了。你是互联网上最大的输入法公司,那语音识别技术就是你必须要做好的,我们的产品和语音识别技术是天然 match 的。而语音识别技术本身就是一种输入型技术,所以语音识别发生的最高频场景就是输入法。基于我们输入法在互联网数亿用户的体量上产生出来的用户数据,甚至比其他公司整个开放平台上产生的数据量还要大。我们现在每天单是输入法上的语音识别请求量已经超过了 1.3 亿。基于这样大的数据量,我们就能在深度学习技术和用户海量数据的闭环中快速迭代起来,不断提升识别的效果。从  2013 年到现在,我们在语音识别的错误率方面降低了至少 70%。一方面原因是我们在深度学习技术上的不断提升,另一方面就是高质量用户数据的积累。


机器之心:你们如何看待语音识别技术的应用,有哪些重要的应用方向?


王砚峰:如果普遍来看一项技术的价值,你越解决用户的刚需,并且具有这个刚需的用户群体越大,那么这项技术的价值就越大。反过来,更多的刚需以及潜在价值也能给技术提供更大的发展动力。为什么语音识别在 PC 互联网时代没有如此飞速的进步?除去技术发展的规律,我想更重要的因素可能反而是用户的需求没有那么强烈,少数特殊群体除外。


进入了移动互联网时代,语音技术的价值就更大,因为手机的输入效率要低于 PC,并且也会受到一些客观环境的影响让用户很难用手打字。此时语音日常满足的多是信息输入方面的需求,其产品形态就是语音输入和语音搜索,体现在用户行为中就是聊天类 APP 和搜索类 APP 构成了语音请求的绝大部分,语音更多也是效率性和便利性方面的提升。在这个时候我们已经可以说语音识别技术对于普通用户来讲是具有一定的价值了,但这个价值不够大,从数据上看,语音输入比例相比文字,仍然少得可怜。


进一步的,到了物联网和车联网时代,用户的消费场景发生了变化,信息获取和阅读的方式也会发生变化,屏幕和键盘会进一步被弱化。此时单纯的输入已经不够,需要通过更自然的交互方式来解决,这是助手形态真正有意义的场景。用交互来解决什么呢,仍然是用户的刚需。车内的刚需是出行问题,而客厅内的刚需是娱乐问题。户外场景下用户也是有刚需的,但是产品本身比如手表却不够刚需,反倒更多的还是通过手机来满足,又回到了手机的输入需求上。至于很多公司目前正在做的通用「机器人」,我们目前看不出在用户端的价值,能解决用户什么实际的需求,因此搜狗本身也没有积极地去跟进这个市场。


从当前的产品发展结合技术对于产品体验的增值方面来看,车内的语音目前是我们觉得最具有价值的,因为用户在开车的时候双手和双眼都被占用的,而且这个市场已经开始进入爆发期,充满产品和技术的活力,但仍不够成熟,还有很大发展空间。所以需要把语音下沉到这个场景中,做各种专门的优化,比如从识别方面需要做 POI 识别优化、去噪、回声消除、定向 mic 阵列,语义理解方面需要结合更多的知识和结构化数据来优化语义理解的效果和交互体验,让语音在车内达到用户实用这样一个水平。客厅内的语音在未来一定会比当前有更大的价值,但是受限于当前产品本身的发展,以及竞争对手颇多(如手机和 PAD 等),距离大规模的爆发还需要时间。


机器之心:和其他专门做人工智能的公司相比,搜狗在人工智能的研究和应用方面有哪些优势?


王砚峰:还是以语音领域为例吧。结合搜狗自身的能力,目前我们会有三个比较大的差异点。


第一点,我们是一个互联网产品公司,会更加在意用户体验和技术的用户价值。什么是好的语音交互的用户体验?就是交互过程的准确高效,让用户很容易的表达、选择以及反馈。首先语音识别的准确率目前只有 95% 以上,这是一个现实的技术问题,那如何通过交互设计进行风险规避,去弥补那 5% 的不足,这是要解决的第一大问题。比如我说「我想去航天一院」,而语音识别错误的给出了「我想去航天医院」,于是我会进一步告诉它是「一二三四」的「一」,这时机器就会根据我的反馈调整导航目的地。其次,在导航领域,一次 POI 查询往往会有多个 POI 结果,比如用户说「我要去首都机场」,首都机场有多个航站楼,每个航站楼也会有停车楼和出发到达口。之前的语音交互方法都是挨个把搜索结果读一遍然后问用户选择哪一个,这个体验非常糟糕,十分的反人性。但如果可以充分利用好地图里的结构化数据,反过来问用户去哪个航站楼,去接人还是送人等问题,就可以让交互过程对于用户更自然更轻松。当然,这个让语义理解从单轮对话变成了对轮,技术的难度也会大大提高。


第二点,我们有丰富的提供内容和服务的产品线,除了大搜索以外,还有地图搜索、搜狗问问、搜搜百科、号码通、网址导航以及一系列垂搜产品。所以当你需要某类服务时,基本都可以通过内部部门之间的配合把高质量的服务迅速接入进来。而且这种内部闭环的能力对于交互体验也具有更深层次的意义,就是你能够针对这些服务去做更好的交互优化,比如上面提到的利用地图结构化数据去做交互优化,就是建立在语音团队和地图团队深度合作的基础上完成的。其实不止地图领域,即使是一般的搜索问答,也需要更简洁的返回方式才适合语音去表达出来,这就需要对传统的搜索结果进一步的分析和抽象,才能让答案做到简洁明确。


第三个优势,我们之前从输入法、浏览器、网址导航、搜索等产品中积累了一个庞大的用户体系,有丰富的用户行为和用户数据。带着这种能力,我们有机会需探求用户在语音请求背后的目的,并且用更智能的方式为用户提供服务。比如经常被举得一个例子,对着音箱说「我要听刘德华在 1995 年演唱会唱的那版忘情水」,但实际上对于用户来讲点歌是很难的,我个人点歌的时候脑子就会一片空白。我自己平时听歌要么就是有一个自己整理好的本地播放列表,要么就是用豆瓣 FM。所以在面对音箱的时候更加不「反人类」的做法应该是通过你的历史数据进行推荐,用户只要说一句「放一些我喜欢的歌曲」就可以搞定一些。再比如我们在上海 CES 展示出来的导航新功能,用户说「我想去首都机场」,在提供了航班号之后,会根据航班是否晚点以及当前路况,来给用户建议更合理的出发时间。因为用户去机场本身不是目的,出发或者接人才是目的,找到用户背后的真实需求,并且结合实时数据来给用户提供决策建议,才是真正的智能。


这三点差异或者优势,从基于产品设计理念和经验的交互体验优化,到基于产品内容和数据的服务体验的优化,再到基于用户数据和行为的智能推荐优化,都深深植根于我们的用户产品。


机器之心:当前人工智能技术在工业界很热,很多公司都在往这个概念上去靠,去赶技术热点。但涉及人工智能的落地,对应用和产品的理解也非常关键,你们觉得应该用一种什么样的产品理念去做人工智能?


王砚峰:不是为了技术本身去做技术,这个是需要坚持的重要理念。总结来讲就是三点:产品方向上直奔用户刚需,产品体验上简单可依赖,满足用户需求的方式上更聪明更智能。


上次在一个学术交流会上让我们这些工业界的人给 AI 领域的小白创业者提一些建议,大家的共识都是「找刚需」。大的刚需不容易找或者搞不定,那你就要更多的做一些场景的下沉。拿机器翻译来举例子,实时翻译这件事本身是非常难的,但如果把它限定在垂直的旅游领域,那问题就会简单很多,也能很好地满足出境自由行群体的刚需。如果我们把能力沉下来放到场景中,其实还是可以发现有好多的价值的点可以去做。


再比如说大家都在做车内的语音唤醒,很多人在拼命提高语音唤醒的准确率,但是不管怎么努力,都很难克服误识率和召回率之间的矛盾。但实际对于用户而言更好的方案其实是加一个方控(唤醒的实体键),一个按键就从工程上解决了可能在研究上许多年都无法解决的一个难题,并且对用户来讲叫做「简单可依赖」。如果我们自己来做产品,一定会更加推崇这样的方案。


「智能化」是用在需要使用的地方,而不是处处用。复杂请求的交互,多样需求的满足,用户个性化和上下文场景的优化,这些才是人工智能发挥能力的地方。我刚才举得很多例子,其实都是这个理念的体现。


当然我并不是说方控一定比唤醒好,站在技术发展的角度,一定是越智能越好,唤醒本身也只是一种阶段性解决方案。但是仅就我们如何利用当前的技术水平做出一款有用户价值的产品这一点而言,稳定的体验一定是一个最基本的准则。


机器之心:搜狗现有的产品和技术的积累是否对接下来做人工智能应用起到非常强大的支撑作用?在人工智能方面搜狗后面有什么规划和战略吗?


王砚峰:人工智能目前主要解决的问题是信息的交互和获取,这跟搜狗在产品、技术以及数据上的累积是完全一致的。


从交互方面,搜狗输入法每年目前用户有 20 万亿次的文字输入,输入法用户渗透率达到 95% 以上。在核心品质方面,通过不断的优化自然语言处理技术,搜狗输入法一直以来就是让用户的输入最准确的输入法。现在我们又开始在输入法上进一步去用更好的语义理解技术去做产品创新,让输入法变得更懂用户,去满足用户的需求。我们的语音识别技术利用了输入法产生出来的大数据,也能迅速迭代起来,并且通过很早的对深度学习技术的布局和跟进,让我们的语音识别效果也能在业界持续在领先的地位。


而在信息获取方面,我们 04 年就推出了搜狗搜索引擎,并且在中文搜索方面取得了不逊于国内巨头的搜索效果,目前整个搜索平台月活 UV 已经超过 5.6 亿。在 13 年我们率先推出了知立方和语音助手,又在之后分别推出了微信搜索、知乎搜索、名医搜索等一些列针对垂直优质内容的差异化搜索引擎。目前我们的搜索团队也在致力于从推理方面突破现有技术的水平,让搜索真正能够做到用户问个问题,直接得到答案,而不是返回多个文本匹配的结果。


人工智能当前的发展动力主要是大数据加深度学习。而大数据中所谓「大」其实是「全」,通过多样化的数据协同来产生价值,只「大」不「全」的话往往只能对产生数据的产品本身有帮助作用,但是外延价值就不够了。Google 既是系统,同时还是 message、keyboardmail、search 等等,因此 Google 就是最具价值的大数据公司。目前搜狗在国内拥有垄断级的 keyboard 和第二大的 search,同时也不断在通过流量合作的方式把更多外部数据纳入到我们的大数据体系下,因此我们在用户数据的全面程度上是接近谷歌的,这也是我们的一个很重要的优势。


后面我们的人工智能技术还是要坚持两条路同时去走,一是让更多有价值的技术通过产品去落地到用户端,一是继续追求技术的前沿,像 AlphaGo 这样 ,用人工智能技术去挑战现有技术不能解决的难题。尤其是在追求更前沿的技术方面,我们后面也会有更大的投入。不久前我们也和清华大学联合成立「清华大学天工智能计算研究院」,希望通过这种方式深入探索人工智能领域的前沿技术。


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
12天前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
7天前
|
数据采集 人工智能 移动开发
盘点人工智能在医疗诊断领域的应用
人工智能在医疗诊断领域的应用广泛,包括医学影像诊断、疾病预测与风险评估、病理诊断、药物研发、医疗机器人、远程医疗诊断和智能辅助诊断系统等。这些应用提高了诊断的准确性和效率,改善了患者的治疗效果和生活质量。然而,数据质量和安全性、AI系统的透明度等问题仍需关注和解决。
114 10
|
14天前
|
机器学习/深度学习 人工智能 算法
探索人工智能在医疗诊断中的应用
本文深入探讨了人工智能(AI)技术在医疗诊断领域的革新性应用,通过分析AI如何助力提高诊断准确性、效率以及个性化治疗方案的制定,揭示了AI技术为现代医学带来的巨大潜力和挑战。文章还展望了AI在未来医疗中的发展趋势,强调了跨学科合作的重要性。 ###
54 9
|
17天前
|
机器学习/深度学习 数据采集 人工智能
深度探索:人工智能在医疗影像诊断中的应用与挑战####
本文旨在深入剖析人工智能(AI)技术在医疗影像诊断领域的最新进展、核心优势、面临的挑战及未来发展趋势。通过综合分析当前AI算法在提高诊断准确性、效率及可解释性方面的贡献,结合具体案例,揭示其在临床实践中的实际价值与潜在局限。文章还展望了AI如何与其他先进技术融合,以推动医疗影像学迈向更高层次的智能化时代。 ####
|
27天前
|
机器学习/深度学习 存储 人工智能
人工智能在医疗领域的应用与挑战
【10月更文挑战第21天】 本文深入探讨了人工智能(AI)在医疗领域的应用现状与面临的挑战。随着科技的飞速发展,AI技术正逐步渗透到医疗行业的各个环节,从疾病诊断、治疗方案制定到患者管理等方面发挥着重要作用。然而,在推动医疗进步的同时,AI也面临着数据安全、隐私保护以及伦理道德等方面的严峻挑战。本文旨在全面分析AI在医疗领域的应用前景,并针对其面临的挑战提出相应的解决策略,以期为未来医疗行业的发展提供有益的参考。
97 6
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能在医疗诊断中的应用与前景####
本文深入探讨了人工智能(AI)技术在医疗诊断领域的应用现状、面临的挑战及未来发展趋势。通过分析AI如何辅助医生进行疾病诊断,提高诊断效率和准确性,以及其在个性化医疗中的潜力,文章揭示了AI技术对医疗行业变革的推动作用。同时,也指出了数据隐私、算法偏见等伦理问题,并展望了AI与人类医生协同工作的前景。 ####
34 0
|
21天前
|
机器学习/深度学习 人工智能 搜索推荐
探索人工智能在现代医疗中的革新应用
本文深入探讨了人工智能(AI)技术在医疗领域的最新进展,重点分析了AI如何通过提高诊断准确性、个性化治疗方案的制定以及优化患者管理流程来革新现代医疗。文章还讨论了AI技术面临的挑战和未来发展趋势,为读者提供了一个全面了解AI在医疗领域应用的视角。
29 0
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
探索未来编程:Python在人工智能领域的深度应用与前景###
本文将深入探讨Python语言在人工智能(AI)领域的广泛应用,从基础原理到前沿实践,揭示其如何成为推动AI技术创新的关键力量。通过分析Python的简洁性、灵活性以及丰富的库支持,展现其在机器学习、深度学习、自然语言处理等子领域的卓越贡献,并展望Python在未来AI发展中的核心地位与潜在变革。 ###
|
20天前
|
机器学习/深度学习 数据采集 人工智能
探索人工智能在医疗诊断中的应用与挑战
随着人工智能技术的飞速发展,其在医疗领域的应用日益广泛,尤其是在疾病诊断方面展现出巨大的潜力。本文将深入探讨AI技术在医疗诊断中的应用现状、面临的挑战以及未来的发展趋势,旨在为相关领域的研究者和从业者提供参考和启示。
45 2
|
24天前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法与应用
探索人工智能中的强化学习:原理、算法与应用