搜狗的人工智能研发与应用:让技术在产品中创造更多用户价值

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 今年 4 月份,搜狗宣布与清华大学联合成立「清华大学天工智能计算研究院」,把人工智能作为重要战略发展方向,但一直没有透露太多关于具体人工智能研发和应用层面的信息。为此,机器之心对搜狗语音交互技术中心负责人王砚峰进行了专访,王砚峰介绍了搜狗的人工智能研究历史,以及在人工智能方面的产品创新思路。

微信图片_20211126212633.jpg

王砚峰,搜狗公司桌面事业部高级总监,桌面研究部和语音交互技术中心负责人


机器之心:搜狗是何时在人工智能方面开展研究的?


王砚峰:现在提到人工智能可能大家首先想到的就是苹果的语音助手 Siri,之后国内外各大公司也都在这个方向上不遗余力的投入与宣传。搜狗早在 2013 年就推出了搜狗语音助手,借助于背后搜索引擎的能力,很快就从技术上做到了中文业内的领先,并在市场上赢得了不错的口碑。只是后来发现这类产品的用户沉淀率很低,因为实际上它在手机端并不能够真正很好的解决用户的实际需求,更像一个玩具,因此后来在研发以及推广上的资源就没有再持续。但这些年来搜狗一直在内部各个产品线上都在坚持往「更智能化」的方向去走。


比如我们目前就一直在思考和探索未来的输入法是什么样子的。传统的输入法只是一个工具,核心是帮助用户更有效率的进行文字输入。但进一步思考用户输入背后的原始意图时你会发现用户的输入需求主要是表达和信息传递。那我们能不能在这两个方向上利用机器智能多走一步,帮用户多做一些事情,给用户带来更多的价值?例如在我在回复你发来的 message 时,输入法能否根据你发来的问题自动生成回复。再比如我们微信聊天中,输入法通过语义分析发现我正在给你推荐晚上聚餐的饭馆,那就可以直接把餐馆对应的大众点评 URL 提供给我,我可以一键分享给你,那我就不再需要先切到点评 APP 搜索该餐厅然后分享回微信的这样繁琐的过程。这些功能其实都是人工智能在产品中的体现,已经部分的灰度上线,目前还在打磨体验。刚刚过去的谷歌大会也发布了 Gboard 谷歌键盘,在这方面的思路就和我们是基本一致的,也是让输入法更好的服务用户。


谈到语音,我们在 2012 年初就开始研发自己的语音识别技术,并且在 2012 年底就已经全量上线到了我们的输入法和地图产品中。当时搜狗语音助手曾短暂的使用过第三方公司提供的语音技术,在 2013 年上半年我们完成了深度学习技术的研发和上线,并实际的接入语音助手进行灰度测试,从用户反馈数据来看我们的准确率已经领先于第三方公司,于是 6 月份以后我们的全线产品就全都使用我们自己的语音识别技术了。


到现在,我们的语音技术还会每年去做对比评测,以了解我们在业界的真实位置。不是自己评,而是会找一些高校,让他们找人去评,多台手机同时对比多家语音识别技术,评测的结果我们的表现是业内领先的。


机器之心:搜狗作为一家互联网产品公司,能把语音识别技术做到现在这个水平的主要原因是什么?


王砚峰:最大的差异点应该就是产品以及产品上产生的数据了。你是互联网上最大的输入法公司,那语音识别技术就是你必须要做好的,我们的产品和语音识别技术是天然 match 的。而语音识别技术本身就是一种输入型技术,所以语音识别发生的最高频场景就是输入法。基于我们输入法在互联网数亿用户的体量上产生出来的用户数据,甚至比其他公司整个开放平台上产生的数据量还要大。我们现在每天单是输入法上的语音识别请求量已经超过了 1.3 亿。基于这样大的数据量,我们就能在深度学习技术和用户海量数据的闭环中快速迭代起来,不断提升识别的效果。从  2013 年到现在,我们在语音识别的错误率方面降低了至少 70%。一方面原因是我们在深度学习技术上的不断提升,另一方面就是高质量用户数据的积累。


机器之心:你们如何看待语音识别技术的应用,有哪些重要的应用方向?


王砚峰:如果普遍来看一项技术的价值,你越解决用户的刚需,并且具有这个刚需的用户群体越大,那么这项技术的价值就越大。反过来,更多的刚需以及潜在价值也能给技术提供更大的发展动力。为什么语音识别在 PC 互联网时代没有如此飞速的进步?除去技术发展的规律,我想更重要的因素可能反而是用户的需求没有那么强烈,少数特殊群体除外。


进入了移动互联网时代,语音技术的价值就更大,因为手机的输入效率要低于 PC,并且也会受到一些客观环境的影响让用户很难用手打字。此时语音日常满足的多是信息输入方面的需求,其产品形态就是语音输入和语音搜索,体现在用户行为中就是聊天类 APP 和搜索类 APP 构成了语音请求的绝大部分,语音更多也是效率性和便利性方面的提升。在这个时候我们已经可以说语音识别技术对于普通用户来讲是具有一定的价值了,但这个价值不够大,从数据上看,语音输入比例相比文字,仍然少得可怜。


进一步的,到了物联网和车联网时代,用户的消费场景发生了变化,信息获取和阅读的方式也会发生变化,屏幕和键盘会进一步被弱化。此时单纯的输入已经不够,需要通过更自然的交互方式来解决,这是助手形态真正有意义的场景。用交互来解决什么呢,仍然是用户的刚需。车内的刚需是出行问题,而客厅内的刚需是娱乐问题。户外场景下用户也是有刚需的,但是产品本身比如手表却不够刚需,反倒更多的还是通过手机来满足,又回到了手机的输入需求上。至于很多公司目前正在做的通用「机器人」,我们目前看不出在用户端的价值,能解决用户什么实际的需求,因此搜狗本身也没有积极地去跟进这个市场。


从当前的产品发展结合技术对于产品体验的增值方面来看,车内的语音目前是我们觉得最具有价值的,因为用户在开车的时候双手和双眼都被占用的,而且这个市场已经开始进入爆发期,充满产品和技术的活力,但仍不够成熟,还有很大发展空间。所以需要把语音下沉到这个场景中,做各种专门的优化,比如从识别方面需要做 POI 识别优化、去噪、回声消除、定向 mic 阵列,语义理解方面需要结合更多的知识和结构化数据来优化语义理解的效果和交互体验,让语音在车内达到用户实用这样一个水平。客厅内的语音在未来一定会比当前有更大的价值,但是受限于当前产品本身的发展,以及竞争对手颇多(如手机和 PAD 等),距离大规模的爆发还需要时间。


机器之心:和其他专门做人工智能的公司相比,搜狗在人工智能的研究和应用方面有哪些优势?


王砚峰:还是以语音领域为例吧。结合搜狗自身的能力,目前我们会有三个比较大的差异点。


第一点,我们是一个互联网产品公司,会更加在意用户体验和技术的用户价值。什么是好的语音交互的用户体验?就是交互过程的准确高效,让用户很容易的表达、选择以及反馈。首先语音识别的准确率目前只有 95% 以上,这是一个现实的技术问题,那如何通过交互设计进行风险规避,去弥补那 5% 的不足,这是要解决的第一大问题。比如我说「我想去航天一院」,而语音识别错误的给出了「我想去航天医院」,于是我会进一步告诉它是「一二三四」的「一」,这时机器就会根据我的反馈调整导航目的地。其次,在导航领域,一次 POI 查询往往会有多个 POI 结果,比如用户说「我要去首都机场」,首都机场有多个航站楼,每个航站楼也会有停车楼和出发到达口。之前的语音交互方法都是挨个把搜索结果读一遍然后问用户选择哪一个,这个体验非常糟糕,十分的反人性。但如果可以充分利用好地图里的结构化数据,反过来问用户去哪个航站楼,去接人还是送人等问题,就可以让交互过程对于用户更自然更轻松。当然,这个让语义理解从单轮对话变成了对轮,技术的难度也会大大提高。


第二点,我们有丰富的提供内容和服务的产品线,除了大搜索以外,还有地图搜索、搜狗问问、搜搜百科、号码通、网址导航以及一系列垂搜产品。所以当你需要某类服务时,基本都可以通过内部部门之间的配合把高质量的服务迅速接入进来。而且这种内部闭环的能力对于交互体验也具有更深层次的意义,就是你能够针对这些服务去做更好的交互优化,比如上面提到的利用地图结构化数据去做交互优化,就是建立在语音团队和地图团队深度合作的基础上完成的。其实不止地图领域,即使是一般的搜索问答,也需要更简洁的返回方式才适合语音去表达出来,这就需要对传统的搜索结果进一步的分析和抽象,才能让答案做到简洁明确。


第三个优势,我们之前从输入法、浏览器、网址导航、搜索等产品中积累了一个庞大的用户体系,有丰富的用户行为和用户数据。带着这种能力,我们有机会需探求用户在语音请求背后的目的,并且用更智能的方式为用户提供服务。比如经常被举得一个例子,对着音箱说「我要听刘德华在 1995 年演唱会唱的那版忘情水」,但实际上对于用户来讲点歌是很难的,我个人点歌的时候脑子就会一片空白。我自己平时听歌要么就是有一个自己整理好的本地播放列表,要么就是用豆瓣 FM。所以在面对音箱的时候更加不「反人类」的做法应该是通过你的历史数据进行推荐,用户只要说一句「放一些我喜欢的歌曲」就可以搞定一些。再比如我们在上海 CES 展示出来的导航新功能,用户说「我想去首都机场」,在提供了航班号之后,会根据航班是否晚点以及当前路况,来给用户建议更合理的出发时间。因为用户去机场本身不是目的,出发或者接人才是目的,找到用户背后的真实需求,并且结合实时数据来给用户提供决策建议,才是真正的智能。


这三点差异或者优势,从基于产品设计理念和经验的交互体验优化,到基于产品内容和数据的服务体验的优化,再到基于用户数据和行为的智能推荐优化,都深深植根于我们的用户产品。


机器之心:当前人工智能技术在工业界很热,很多公司都在往这个概念上去靠,去赶技术热点。但涉及人工智能的落地,对应用和产品的理解也非常关键,你们觉得应该用一种什么样的产品理念去做人工智能?


王砚峰:不是为了技术本身去做技术,这个是需要坚持的重要理念。总结来讲就是三点:产品方向上直奔用户刚需,产品体验上简单可依赖,满足用户需求的方式上更聪明更智能。


上次在一个学术交流会上让我们这些工业界的人给 AI 领域的小白创业者提一些建议,大家的共识都是「找刚需」。大的刚需不容易找或者搞不定,那你就要更多的做一些场景的下沉。拿机器翻译来举例子,实时翻译这件事本身是非常难的,但如果把它限定在垂直的旅游领域,那问题就会简单很多,也能很好地满足出境自由行群体的刚需。如果我们把能力沉下来放到场景中,其实还是可以发现有好多的价值的点可以去做。


再比如说大家都在做车内的语音唤醒,很多人在拼命提高语音唤醒的准确率,但是不管怎么努力,都很难克服误识率和召回率之间的矛盾。但实际对于用户而言更好的方案其实是加一个方控(唤醒的实体键),一个按键就从工程上解决了可能在研究上许多年都无法解决的一个难题,并且对用户来讲叫做「简单可依赖」。如果我们自己来做产品,一定会更加推崇这样的方案。


「智能化」是用在需要使用的地方,而不是处处用。复杂请求的交互,多样需求的满足,用户个性化和上下文场景的优化,这些才是人工智能发挥能力的地方。我刚才举得很多例子,其实都是这个理念的体现。


当然我并不是说方控一定比唤醒好,站在技术发展的角度,一定是越智能越好,唤醒本身也只是一种阶段性解决方案。但是仅就我们如何利用当前的技术水平做出一款有用户价值的产品这一点而言,稳定的体验一定是一个最基本的准则。


机器之心:搜狗现有的产品和技术的积累是否对接下来做人工智能应用起到非常强大的支撑作用?在人工智能方面搜狗后面有什么规划和战略吗?


王砚峰:人工智能目前主要解决的问题是信息的交互和获取,这跟搜狗在产品、技术以及数据上的累积是完全一致的。


从交互方面,搜狗输入法每年目前用户有 20 万亿次的文字输入,输入法用户渗透率达到 95% 以上。在核心品质方面,通过不断的优化自然语言处理技术,搜狗输入法一直以来就是让用户的输入最准确的输入法。现在我们又开始在输入法上进一步去用更好的语义理解技术去做产品创新,让输入法变得更懂用户,去满足用户的需求。我们的语音识别技术利用了输入法产生出来的大数据,也能迅速迭代起来,并且通过很早的对深度学习技术的布局和跟进,让我们的语音识别效果也能在业界持续在领先的地位。


而在信息获取方面,我们 04 年就推出了搜狗搜索引擎,并且在中文搜索方面取得了不逊于国内巨头的搜索效果,目前整个搜索平台月活 UV 已经超过 5.6 亿。在 13 年我们率先推出了知立方和语音助手,又在之后分别推出了微信搜索、知乎搜索、名医搜索等一些列针对垂直优质内容的差异化搜索引擎。目前我们的搜索团队也在致力于从推理方面突破现有技术的水平,让搜索真正能够做到用户问个问题,直接得到答案,而不是返回多个文本匹配的结果。


人工智能当前的发展动力主要是大数据加深度学习。而大数据中所谓「大」其实是「全」,通过多样化的数据协同来产生价值,只「大」不「全」的话往往只能对产生数据的产品本身有帮助作用,但是外延价值就不够了。Google 既是系统,同时还是 message、keyboardmail、search 等等,因此 Google 就是最具价值的大数据公司。目前搜狗在国内拥有垄断级的 keyboard 和第二大的 search,同时也不断在通过流量合作的方式把更多外部数据纳入到我们的大数据体系下,因此我们在用户数据的全面程度上是接近谷歌的,这也是我们的一个很重要的优势。


后面我们的人工智能技术还是要坚持两条路同时去走,一是让更多有价值的技术通过产品去落地到用户端,一是继续追求技术的前沿,像 AlphaGo 这样 ,用人工智能技术去挑战现有技术不能解决的难题。尤其是在追求更前沿的技术方面,我们后面也会有更大的投入。不久前我们也和清华大学联合成立「清华大学天工智能计算研究院」,希望通过这种方式深入探索人工智能领域的前沿技术。


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3天前
|
人工智能 算法 安全
人工智能在医疗诊断中的应用与前景####
本文旨在探讨人工智能(AI)技术在医疗诊断领域的应用现状、面临的挑战以及未来的发展趋势。随着科技的不断进步,AI技术正逐步渗透到医疗行业的各个环节,尤其在提高诊断准确性和效率方面展现出巨大潜力。通过分析当前AI在医学影像分析、疾病预测、个性化治疗方案制定等方面的实际应用案例,我们可以预见到一个更加智能化、精准化的医疗服务体系正在形成。然而,数据隐私保护、算法透明度及伦理问题仍是制约其进一步发展的关键因素。本文还将讨论这些挑战的可能解决方案,并对AI如何更好地服务于人类健康事业提出展望。 ####
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。
|
3天前
|
机器学习/深度学习 人工智能 算法
人工智能在医疗诊断中的应用与挑战
本文探讨了人工智能(AI)在医疗诊断领域的应用及其面临的挑战。随着技术的不断进步,AI已经在医学影像分析、疾病预测和个性化治疗等方面展现出巨大潜力。然而,数据隐私、算法透明度以及临床整合等问题仍然是亟待解决的关键问题。本文旨在通过分析当前AI技术在医疗诊断中的具体应用案例,探讨其带来的优势和潜在风险,并提出相应的解决策略,以期为未来AI在医疗领域的深入应用提供参考。
23 3
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能在教育领域的应用与挑战
随着科技的不断进步,人工智能(AI)技术已经深入到社会的各个领域,其中教育领域尤为突出。本文旨在探讨人工智能在教育领域的应用现状、面临的挑战以及未来的发展趋势。通过分析AI技术如何改变传统教学模式,提高教育质量和效率,同时指出其在实际应用中可能遇到的问题和挑战,为未来教育的发展提供参考。
23 2
|
3天前
|
机器学习/深度学习 人工智能 物联网
通义灵码在人工智能与机器学习领域的应用
通义灵码不仅在物联网领域表现出色,还在人工智能、机器学习、金融、医疗和教育等领域展现出广泛应用前景。本文探讨了其在这些领域的具体应用,如模型训练、风险评估、医疗影像诊断等,并总结了其提高开发效率、降低门槛、促进合作和推动创新的优势。
通义灵码在人工智能与机器学习领域的应用
|
5天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
35 3
|
6天前
|
机器学习/深度学习 人工智能 搜索推荐
探索人工智能在医疗诊断中的应用
【10月更文挑战第36天】随着人工智能技术的飞速发展,其在各行各业的应用日益广泛,特别是在医疗领域。本文将深入探讨AI技术如何革新传统医疗诊断流程,提高疾病预测的准确性,以及面临的挑战和未来发展方向。通过具体案例分析,我们将看到AI如何在提升医疗服务质量、降低医疗成本方面发挥关键作用。
79 58
|
3天前
|
人工智能 文字识别 运维
AI多模态的5大核心关键技术,让高端制造实现智能化管理
结合大模型应用场景,通过AI技术解析高端制造业的复杂设备与文档数据,自动化地将大型零件、机械图纸、操作手册等文档结构化。核心技术包括版面识别、表格抽取、要素抽取和文档抽取,实现信息的系统化管理和高效查询,大幅提升设备维护和生产管理的效率。
|
6天前
|
机器学习/深度学习 人工智能 算法
AI在医疗领域的应用与挑战
本文探讨了人工智能(AI)在医疗领域的应用,包括其在疾病诊断、治疗方案制定、患者管理等方面的优势和潜力。同时,也分析了AI在医疗领域面临的挑战,如数据隐私、伦理问题以及技术局限性等。通过对这些内容的深入分析,旨在为读者提供一个全面了解AI在医疗领域现状和未来发展的视角。
32 10
|
6天前
|
机器学习/深度学习 人工智能 监控
探索AI在医疗领域的应用与挑战
本文深入探讨了人工智能(AI)在医疗领域中的应用现状和面临的挑战。通过分析AI技术如何助力疾病诊断、治疗方案优化、患者管理等方面的创新实践,揭示了AI技术为医疗行业带来的变革潜力。同时,文章也指出了数据隐私、算法透明度、跨学科合作等关键问题,并对未来的发展趋势进行了展望。

热门文章

最新文章