语言处理想突破,三座大山必须过

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介:

“我的飞机什么时候到?”

把这个问题抛给智能机器人助手。几乎可以肯定,机器立马就懵逼了。

“我”是谁?“飞机”是航班还是淘宝上订的模型玩具呢?“到”又是到哪呢?

如果是人类来回答这个问题,即使在情景不明确的情况下也能在快速澄清后给出回答,但对机器来说,除非依赖大量人为制定的规则,回答这样的问题难度堪比“哥德巴赫猜想”。

面对自然语言处理发展(NLP)存在的诸多难题,该领域的大牛、Salesforce的首席科学家Richard Socher在近日指出:NLP领域的发展要过三座大山。

困扰NLP领域的这三座大山究竟是什么?一起来听大佬说。

3d3b3a491a58b063aa7876e8dc8be1a17a767a50

一直以来,语言都被认为是人类的独特能力,是智慧的表现。但最近,自然语言处理技术的发展似乎也将语言能力赋予给了机器。

帮你打电话订餐,给你讲故事,解决各种刁钻的冷知识问答…机器的语言能力已经无限接近人类水平。

现在你可以走进昏暗的客厅,让Alexa把智能灯的亮度提高到75%。你也可以询问他世界另一边的天气情况。在Google最近的Duplexde,AI助理已经能够给理发店打电话,为你预约剪发。

曾经被视为科幻的场景现在变为了现实,但为了维持真正的人机关系,机器必须能够与人进行更直观、理解上下文和自然的对话--这仍然是一个挑战。我致力于研究NLP,但是就像AI一样,我们还在这个旅程的开始阶段。

语言是分享信息和与周围连接的一种机制,但是机器需要理解语言的复杂性以及作为人类是如何使用语言进行交流的。情感分析、问题回答和联合多任务学习方面的进步使AI能够真正理解人类以及我们的交流方式。

情感分析

12278e39e311d3aad75aba89b451853cbe4ad3b4

语言本身就是复杂的。它不断发展,而且细致入微,一般人需要数年才能掌握。通过情绪分析,我们可以使用AI来理解特定内容,比如品牌或电影评价是正面的、负面的还是中性的。

我们也能弄清楚演讲者的态度和意图(她是生气,高兴,惊讶还是准备好要买东西了?)。从客户服务到在线社区调节再到算法交易,能够即时分析数千条推特和数百条产品评论来理解公众对一个品牌的看法,这对于企业来说是非常有价值的。

情感分析技术已经存在了一段时间,但并不总是非常精准。随着NLP的进展,这种情况正在发生变化。在我担任首席科学家的Salesforce,我们的AI(叫做Einstein)允许品牌能够通过电子邮件,社交媒体,和聊天短信得到实时的情感分析,为客户提供更好的体验。

准确的情感分析,例如,服务代理可帮助了解应优先服务哪些不满意的客户,或者应向谁提供优惠。也可识别产品缺陷,衡量产品满意度,通过社交平台改变人们对品牌的认知。其他科技公司也提供类似服务。

对于情感分析来说,理解上下文也是很重要的。假设你有一家肥皂公司,有人在推特上说:“这种肥皂对婴儿来说真的很棒。”这可以是对儿童肥皂的积极支持,也可能是暗讽这对孩子来说很可怕。

这句陈述可能包含很多上下文,但又很简单!使用AI分析某一句子结构的所有可能性,并理解一个人在特定语境下的用意,是NLP研究的重大挑战。它既需要标记数据来改进模型培训,也需要新的模型在学习上下文的同时在许多不同类型的任务之间共享知识。

问答

a44041dce2eab0950dd5b2826e0b5f76362f2541

随着NLP更好地解析文本的含义,帮助管理我们生活的数字助理智能将会提高。Siri和Google Assistant等应用程序可为常见问题提供优质答案,并执行简单的命令。理想情况下,我们应该能够问电脑任意问题,并且得到好的答案。

提供更好答案的一种方式是确保计算机理解问题。如果你问“我的飞机什么时候到达?”计算机怎么知道是在谈论你的航班还是从亚马逊订购的木工工具呢?

通过对语义的更深入理解,再加上对上下文数据的更好使用,计算机在判断语义这方面正变得越来越好。我们正在研究如何使用NLP学习每一层上下文,这样AI就可以同时处理所有内容,而不会错过重要的信息。

例如,动态共聚焦网络( dynamic coattention networks可以根据不同的问题对单个文档进行不同的解释,比如,面对一篇体育报道,在回答“哪位运动员获得了冠军?”和“最年轻的参赛者是几岁?”这两个问题是,机器就能对这篇报道作出不同的理解,从而反复假设多个答案,最终得到最好、最准确的结果。

联合多任务学习

34e96f048fbc3a0691f816100e2d507791151de4

科学界善于构建能很好地执行单个任务的人工智能模型。但是,更直观、会话式的并联系上下文的界面则需要一个不断学习的AI模型,它能够将新任务与旧任务集成起来,并在这个过程中学习执行更加复杂的任务。总体上来说,这对所有AI都是适用的,但在语言方面尤其如此,因为语言需要灵活性。

“谁是我的客户?”这是一个十分简单的任务:创建客户列表。但是,“谁是太平洋西北地区对某一特定产品的最佳潜在客户呢”?这样的问题增加了一层复杂性,需要大量的集成任务来提供答案,例如:如何定义“最佳”?客户定位在哪里?是什么因素导致客户对产品感兴趣的?每增加一个因素,问题的复杂性都会急剧增加。

Salesforce研究公司最近进行了一项名为“自然语言十项全能”的研究,该研究将多个任务转化为问答的形式,从而在一个单模型中解决了NLP最困[1]难的10项任务:问题回答,机器翻译,摘要,自然语言推理,情感分析,语义角色标注,关系提取,目标导向对话,数据库查询生成,代词消解。

使用多任务问答模型,将每个任务作为一种问答形式,单个模型在没有任何特定参数或模块的情况下共同学习和处理不同的任务。这不仅意味着数据科学家不再需要为每项任务建立、训练和优化单个模型,而且还意味着该模型具有零射击(zero-shot)学习能力---换句话说就是该模型可以处理以前从未见过或专门训练过的任务。

随着研究人员继续改进这样的模型,我们会看到AI界面在承担更复杂任务时变得更聪明。

虽然我们已经研究NLP很长时间了,但我们要走的路还长着呢。希望随着NLP技术的提升,人类与机器的交互形式最终能够迎来质的飞跃。


原文发布时间为:2018-09-4

本文作者:李佳、汤圆、钱天培

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”。

相关文章
|
3月前
|
Rust 安全 Go
揭秘Rust语言:为何它能让你在编程江湖中,既安全驰骋又高效超车,颠覆你的编程世界观!
【8月更文挑战第31天】Rust 是一门新兴的系统级编程语言,以其卓越的安全性、高性能和强大的并发能力著称。它通过独特的所有权和借用检查机制解决了内存安全问题,使开发者既能享受 C/C++ 的性能,又能避免常见的内存错误。Rust 支持零成本抽象,确保高级抽象不牺牲性能,同时提供模块化和并发编程支持,适用于系统应用、嵌入式设备及网络服务等多种场景。从简单的 “Hello World” 程序到复杂的系统开发,Rust 正逐渐成为现代软件开发的热门选择。
62 1
|
10天前
|
数据库 开发者 Python
“Python异步编程革命:如何从编程新手蜕变为并发大师,掌握未来技术的制胜法宝”
【10月更文挑战第25天】介绍了Python异步编程的基础和高级技巧。文章从同步与异步编程的区别入手,逐步讲解了如何使用`asyncio`库和`async`/`await`关键字进行异步编程。通过对比传统多线程,展示了异步编程在I/O密集型任务中的优势,并提供了最佳实践建议。
13 1
|
3月前
|
程序员 数据处理 开发者
揭秘!程序员那些让人哭笑不得的“怪癖”:编程界的奇葩规范与隐秘文化大起底!
【8月更文挑战第25天】程序员的世界就像一片神秘且充满趣味的森林,每行代码都是探索未知的脚步。特殊的注释语言如“// 这里的逻辑比黑洞还深”,传递着程序员间的幽默与无奈。变量命名如magicNumber或函数名performUnexplainedMiracle,既随意又深藏设计者的思考与骄傲。代码审查不仅仅是技术讨论,更涉及编程哲学和个人偏好,甚至因空格与制表符之争而引发“战争”。程序员对代码整洁度的执着追求,展现了一种对美的追求。这些奇怪的习惯与规范构成了编程世界中独特而迷人的风景。
41 1
|
3月前
|
JavaScript 前端开发 编译器
TypeScript:一场震撼前端开发的效率风暴!颠覆想象,带你领略前所未有的编码传奇!
【8月更文挑战第22天】TypeScript 凭借其强大的静态类型系统和丰富的工具支持,已成为前端开发的优选语言。它通过类型检查帮助开发者早期发现错误,显著提升了代码质量和维护性。例如,定义函数时明确参数类型,能在编译阶段捕获类型不匹配的问题。TypeScript 还提供自动补全功能,加快编码速度。与 Angular、React 和 Vue 等框架的无缝集成进一步提高了开发效率,使 TypeScript 成为现代前端开发中不可或缺的一部分。
38 1
|
JavaScript 前端开发 Java
该选哪个语言进修呢?
该选哪个语言进修呢?
37 0
|
机器学习/深度学习 人工智能 Java
COBOL老矣,尚能饭否?近80%企业计划彻底淘汰那些古早编程语言
COBOL老矣,尚能饭否?近80%企业计划彻底淘汰那些古早编程语言
143 0
COBOL老矣,尚能饭否?近80%企业计划彻底淘汰那些古早编程语言
|
存储 Unix 程序员
挑战 50 年霸主 C 语言:新语言 Hare,“异端”中的保守派
Hare 原意为野兔,它的开发者希望这种编程语言能够如野兔般拥有顽强的生命力。
410 0
挑战 50 年霸主 C 语言:新语言 Hare,“异端”中的保守派
|
Web App开发 人工智能 自然语言处理
天网是用COBOL写的?1984年《终结者》竟然用了他的代码!
近日,推特上一则COBOL代码出现在《终结者》中的消息引发了热议,原作者兴奋不已还找到了当年的原文公布在网上,网友纷纷提议找《终结者》要版税。老COBOLER原来是一名技术极客,今天我们就来看看他传奇的技术人生。
249 0
天网是用COBOL写的?1984年《终结者》竟然用了他的代码!
六石管理学:从再生人有没有优势,谈软件开发
六石管理学:从再生人有没有优势,谈软件开发
104 0
|
机器学习/深度学习 存储 人工智能
三问 Christopher Manning:超越模型存在的语言之美
「深度学习的波浪在计算语言学的海岸线上往复经年,而今已如海啸一般向所有的自然语言处理(NLP)会议发起冲击」。两年前,在北京,Christopher Manning 如是展开了 ACL 2015 的结语。
218 0
三问 Christopher Manning:超越模型存在的语言之美