思必驰俞凯:自然语言技术的畅想关键点不在交互,而是自然丨清华人工智能研习社

简介:

“自然语言技术的未来,其关键点是“自然”两个字。”

11月最后一天,思必驰联合创始人、首席科学家俞凯博士在清华x-lab主办的人工智能研习社第七课上,如此评价自然语言处理,并与现场听众一起畅想了这一潜力巨大的技术将走向哪里。

dce553dfb2aa25af08e08fc5d57a212a53fd9463

图:11月30日,思必驰联合创始人俞凯在清华做了题为《认知型口语对话智能》的讲座。 刘涵 摄

在这场题为《认知型口语对话智能》的讲座上,俞凯认为认知交互面临的最主要的挑战一定不是语音,因为从语音识别的角度上来说,问题明确,只要专门向这个领域去做,绝大部分都可以优化的很好。

他认为其最大的挑战还是对话的过程,例如针对抑郁症患者治疗的这类场景,语音对话更像是有目的的聊天,如果没有很强的数学背景在后面做支持,是很难的,只有在一个垂直领域积累更多的数据,才能做得更好。

大数据文摘整理的俞凯博士本次讲座内容如下,在不改变原意的前提下有删改:

今天的题目叫认知型口语对话智能,核心点是两个字:“对话”。

这两个字不单单包含语音,还包含语言。从人机变迁讲起来,我在清华待了八年时间,在这八年当中,我们经历了人和机器在不同时代交互的几个变迁。

我们为什么开始关心口语对话智能

今天第一个要讲的问题,就是我们为什么开始关心口语对话智能。

刚开始的时候我们使用的是Windows图形交互界面,通过机器图形交互界面使得人和信息可以进行交流,我们奇迹般的看到了打印出来很工整的排版。而到了现在,在2011年开始,手机变成智能手机,使用开始变的非常广泛,这个时代自然的语言(手动输入、语音)逐渐形成了我们现在的交互手段。再往后我们发现通过口语沟通是未来智能信息获取最核心的东西,而移动互联网的时代,最关键的是这一类沟通产生了一种新的模式,那就是交互。

74eb39534a9c056ae48c188a692162249391a5c6

讲座现场图 刘涵 摄

在上世纪出现Google、百度等搜索引擎的时候,交互还是单向的,但出现智能手机之后我们的交互变成了双向。比如苹果的交互史,在刚开始做出来第一代iPhone的时候并没有语音交互的能力,但经过市场调研之后发现有75%的用户都希望有语音控制。于是,在后面两代iPhone加入了语音控制,但到后面发现实际使用的用户竟然不到5%,苹果经过总结之后发现不仅仅是语音,还必须有自然语言交互。于是在iPhone4S上面出现了SiRi,再次经过市场调研之后发现,大概有87%的用户至少在一个月会使用一次SiRi。

而且,他们还发现了一件事情,这87%的用户使用SiRi的时候基本上都是在调戏SiRi,并不做其它的事情,这导致苹果并不能赚到钱。这也促使了苹果在2015年收购了一家做统计对话交互的公司Vocallq,这会让技术语音识别和语义连在一起形成完整的闭环,SiRi就可以为我们提供新的功能了。

198693da0c9fd840265a455e494fa2162b2e123a

讲座现场图 刘涵 摄

现如今大家都说是互联网时代,那么如今的信息发展到什么程度了呢?有一个统计显示,到2017年年底,全世界物联网智能设备的总数将首次超过人类总数。而且这些智能设备绝大部分是没有或者拥有很小的屏幕,并没有办法进行很复杂的操作,这些设备如果想要去访问最核心抽象复杂的信息,只能是语音或者对话的形式。这也是众多巨头从2014年的音箱开始出现一系列智能音箱的原因。从技术上讲,这件事情不仅仅是要解决框架的问题,还包括了对话管理、识别、合成以及我们的理解。

语音识别存在的问题和机遇

我们会碰到什么样的问题,以及在这个过程中有多少和我们的应有相关的机会。

首先是语音识别。

语音识别是感知技术这一类里面前沿的技术,当许多人看到语音识别,第一个会想到的问题就是语音识别似乎已经被解决了,当我们使用一个包罗万象的语音识别系统的时候,我讲“疏影横斜水清浅,暗香浮动月黄昏”这样的东西都可以比较完整的出来。但尽管采用了深度学习的技术,仍然避免不了错误,它也会偶尔的有一些语音识别的错误出现,而我们的任务就是使得它像人一样,在有错误的时候,完整的去进行人机交互,修正错误,这需要感知技术和认知技术相互的帮助来实现。

第二是计算能力。

语音识别的解决是与计算能力有关的,举一个例子,刚才我在做演示的时候,这个演示的应用背后早期使用的深度神经网络,共有7层,每层有2048个节点,输入是1320,输出是将近1万,这大概有4500万的参数,在做语音识别的时候我们是把每秒钟的语音切成100份,每一份提取1320个向量,大家想象我在一秒钟要让特征向量经过100次深度神经网络计算,之后还要在数以亿计节点的搜索网络里再去搜它,所以这个运算是非常非常复杂的。曾经有过统计,整个语音识别会分成搜索的速度和做神经网络前向传递的速度,这两个速度的比例,在传统系统里面前向传递的速度占30%-40%,后面在各种各样的语言空间搜索的速度大体占60%-70%。所以,在技术上必须突破速度的问题。

3d37e6ad09aa90b20eb3b16723d1bf87ee6c1ed1

现场听众提问 刘涵 摄

感知智能另外一件事是如何把它做得更小。整个信息技术的变化和推进一定是和技术基础的推进有关,性能抗噪能不能达到90%、能不能在手机手表上面也做到大词汇等新的挑战不断应运而生,随着在智能物联网方面我们做出各种各种的优化之后,这样的挑战开始被一个个的克服掉。

认知这个事情更加麻烦。人机对话并不是大家想象那样,对话也是分成很多种形态的,有的可以很好的解决,有的却毫无头绪。如果以不同的轮回次数来分类,大概可以分为下面几种。第一种是模式最少的,单轮模式,既我说一句它回答一句,而且没有什么特定的结构化语义,这种情况基本上是命令式的,十分简单。复杂一点的则是问答,现在的经典深度学习技术很多是用来解决问答这个问题的,因为问答基本上是一问一答,你说一句它会给你一个答案,偶尔会带有一点上下文,这并不是真正意义上多轮的东西。还有一类是闲聊,比如微软小冰,你不停的说,它就不停的跟你聊天。闲聊的准则就是以聊得时间来定义的,曾经有一位用户,聊了好几个小时依然在继续。但这里面是没有什么目标意义的,所以闲聊要考虑的是如何把一些比较有趣的东西融入进去。

但是里面究竟有什么意义,机器是不会去关注的,只要有用户黏性跟它一直聊下去,特点是多轮,没什么结构化的东西。偶尔会加一些知识,现在希望把这个东西融合起来,这是方向,本质上没有什么结构化的东西。所以闲聊这一类事情实际上更多的是怎么样能够把一些比较有趣的东西融进去。实事求是来讲目前还缺乏一套比较扎实的理论体系,能够让真正在理论上解决掉。

最后一类是任务型的多轮对话,这类对话是有比较扎实的数学基础的,把对话看做是一个序列决策过程。

这一技术的三个层面

如果从认知层级的结算上来讲,我们会把认知技术分为三个层面。

第一种是静态层面,我随便说一句话,自然语言能不能理解,能不能映射到正确的意思上面去。

第二类是交互决策,意思是我在说话的时候如何进行反馈,比如我对一个机器说我要找到餐馆,它要明白我想去哪、吃什么。

第三是进化,我想要便宜的东西,它却以为我想要贵的,当它发现错了之后下一次一定要更新自己的反馈策略,进化出自己的认知。

聊一件和各位相关的事情:大规模可定制对话智能。在讲整个对话智能的时候,我们会发现在整个流程里面,每一个环境都看起来很美好,但一到专业领域的环节就会变得不一样了。比如做对话模式,做购物的场景与金融、家庭的场景所理解的东西完全不一样,这个时候就要看做出来的模型是否每一个场景都能识别,是否能很好的支持。在细节上面,还有很多个性化需求,例如唤醒。当我们喊小乐给我放一首歌的时候,这个小乐就是一种唤醒。但有的时候我们希望它有好几个名字,这种需要多唤醒词的需求在未来会出现更多。

当我们真正去做的时候,会希望在我们所使用的口语对话系统上的支撑可以定制。而大规模可定制是我们提出的新概念,在2013年我们发布了一个叫“对话工场”的平台,2017年升级到大规模可定制的“Dialogue User Interface”,DUI,其本质上是把图形界面和语音界面在对话交互的框架下结合在一起。

定制性的语音交互技术可以做什么?

这时候,我们会好奇,这些定制技术能做什么呢?比如可以在做实时语音识别和大词汇语音识别的时候,做出来一个功能,当语义改变的时候,语音识别会对我们自动添加的词做自动识别,比如我们添加了“泷泽萝拉”四个字,语音识别系统能自动把它加入词表并具有识别的能力,继而在实现理解和交互。

我们想要做一件事情,在一个车载的系统里面,自动选择一些声音添加进去,当想要林志玲甜甜声音的时候,喊一声林志玲出来,绝对不会再出来郭德纲的声音,让它回去它就会切换为原本的郭德纲声音。我们希望这样的事情可以很自由的来回切换。更进一步,我们要支持对理解和对话进行相应的定制。

在这个过程里,在我们真正背后的技术上来说,已经不再是一般的语音的和对话的交互,不再仅仅是前面我们提到的感知和认知的独立框架。在这里要解决的问题是所谓大规模可定制的一些新技术。比如说在识别里,要解决所谓的自适应的问题。比如说话人和环境的自适应、领域主题的自适应等这些东西可以及时的去改变它,可以使得对话有很多的自适应。如果实现这些自适应规模化的话还需要有相应的系统支持。在这个过程里需要有具体的技术拆借、需要有模型定制,能够使得它规模化的扩展,并且在个性的基础之上去进行进化,这一类东西里会有很多新型的技术出现,但这些技术都需要技术基础的支撑。


原文发布时间为:2017-12-2

本文作者:文摘菌

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”微信公众号

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
人工智能技术的探讨
人工智能的概念,人工智能的发展,人工智能的各种学派,人工智能的应用领域
520 4
|
人工智能 语音技术
推动人工智能技术和产业变革,啥是核心驱动力?生成式人工智能认证(GAI认证)揭秘答案
人工智能(AI)正以前所未有的速度重塑世界,其发展离不开领军人才与创新生态的支持。文章探讨了AI领军人才的核心特质及培养路径,强调构建产学研深度融合的创新生态,并通过教育变革与GAI认证提升全民AI素养,为技术与产业变革提供持续动力。这不仅是推动社会高质量发展的关键,也为个人与企业带来了更多机遇。
|
机器学习/深度学习 人工智能 自然语言处理
生成式人工智能的价值回归:重塑技术、社会与个体的发展轨迹
生成式人工智能(Generative AI)正以前所未有的速度重塑社会面貌。它从单一决策工具转变为创造性生产力引擎,推动知识生产、艺术创作与科学研究的发展。同时,其广泛应用引发社会生产力和生产关系的深刻变革,带来就业结构变化与社会公平挑战。此外,生成式AI还面临伦理法律问题,如透明性、责任归属及知识产权等。培生公司推出的生成式AI认证项目,旨在培养专业人才,促进技术与人文融合,助力技术可持续发展。总体而言,生成式AI正从工具属性向赋能属性升华,成为推动社会进步的新引擎。
|
人工智能 自然语言处理 API
MCP与A2A协议比较:人工智能系统互联与协作的技术基础架构
本文深入解析了人工智能领域的两项关键基础设施协议:模型上下文协议(MCP)与代理对代理协议(A2A)。MCP由Anthropic开发,专注于标准化AI模型与外部工具和数据源的连接,降低系统集成复杂度;A2A由Google发布,旨在实现不同AI代理间的跨平台协作。两者虽有相似之处,但在设计目标与应用场景上互为补充。文章通过具体示例分析了两种协议的技术差异及适用场景,并探讨了其在企业工作流自动化、医疗信息系统和软件工程中的应用。最后,文章强调了整合MCP与A2A构建协同AI系统架构的重要性,为未来AI技术生态系统的演进提供了方向。
1914 62
|
机器学习/深度学习 人工智能 自然语言处理
人工智能在虚拟客服中的关键作用:提升交互体验与服务效率
人工智能在虚拟客服中的关键作用:提升交互体验与服务效率
820 90
|
11月前
|
数据采集 自然语言处理 分布式计算
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
|
人工智能 算法 搜索推荐
人工智能技术对未来就业的影响
人工智能大模型技术正在重塑全球就业市场,但其核心是"增强"而非"取代"人类工作。虽然AI在数据处理、模式识别等标准化任务上表现出色,但在创造力、情感交互和复杂决策等人类专属领域仍存在明显局限。各行业呈现差异化转型:IT领域人机协同编程成为常态,金融业基础分析岗位减少但复合型人才需求激增,医疗行业AI辅助诊断普及但治疗决策仍依赖医生,制造业工人转向技术管理,创意产业中人类聚焦高端设计。未来就业市场将形成人机协作新生态,要求个人培养创造力、情商等AI难以替代的核心能力,企业重构工作流程。AI时代将推动人类向更高价值的认知活动跃升,实现人机优势互补的协同发展。
1481 2
|
文字识别 自然语言处理 API
如何结合NLP(自然语言处理)技术提升OCR系统的语义理解和上下文感知能力?
通过结合NLP技术,提升OCR系统的语义理解和上下文感知能力。方法包括集成NLP模块、文本预处理、语义特征提取、上下文推理及引入领域知识库。代码示例展示了如何使用Tesseract进行OCR识别,并通过BERT模型进行语义理解和纠错,最终提高文本识别的准确性。相关API如医疗电子发票验真、车险保单识别等可进一步增强应用效果。
1161 4
|
机器学习/深度学习 人工智能 自然语言处理
AI写作新时代:自然语言生成技术与写作助手的结合
AI写作新时代:自然语言生成技术与写作助手的结合
609 16
|
存储 人工智能 自然语言处理
Pandas数据应用:自然语言处理
本文介绍Pandas在自然语言处理(NLP)中的应用,涵盖数据准备、文本预处理、分词、去除停用词等常见任务,并通过代码示例详细解释。同时,针对常见的报错如`MemoryError`、`ValueError`和`KeyError`提供了解决方案。适合初学者逐步掌握Pandas与NLP结合的技巧。
590 20

热门文章

最新文章