号称能够理解自然语言的聊天机器人,在图灵测试下被分分钟打脸

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介:

都说聊天机器人已经能够与人正常交流了,可事实真是如此吗?

近日,针对聊天机器人“自然语言理解”的“威诺格拉德模式挑战赛”(Winograd Schema Challenge)落下帷幕。而在结果展示中,聊天机器人们的表现显得不尽如人意,令人唏嘘!

号称能够理解自然语言的聊天机器人,在图灵测试下被分分钟打脸

一次人工智能热,各巨头纷纷“入水”

事实上,“聊天机器人”这个概念从上个世纪八十年代就出现了,而世界上第一个聊天机器人“阿尔贝特”也诞生于那个时代,但相较于现在的聊天机器人而言,那时的机器人还不能归属于“智能”一列。

自AlphaGo引领“人工智能”热潮后,人们对聊天机器人的深度挖掘与探索也由此展开,其中当属佼佼者的主要是谷歌、Facebook、微软、苹果、亚马逊等企业巨头。

现在,iOS用户在无聊的时候,可以随时掏出iPhone手机,然后对Siri进行各种调戏;而安卓用户也可以在多个谷歌应用内呼唤谷歌助手;打开Windows,就会有Cortana(小娜)为你提供各项服务;Facebook也为自家产品配备了聊天机器人,更是推出了针对商家的聊天机器人Slackbot;此外,人们懒癌发病的时候,只要对着亚马逊Echo喊话就可以控制家电。对于现下这种局面,只能说聊天机器人真可谓无所不在。

号称能够理解自然语言的聊天机器人,在图灵测试下被分分钟打脸

一场挑战赛,打破聊天机器人泡沫

当前,不管是国外还是国内,越来越多的聊天机器人被相继推向市场,伴随着在图像和语言识别领域取得的巨大进展,人们很容易产生机器在理解语言方面已经十分厉害的错觉。然而现实给了人们重重一击。

近日,一场名为“威诺格拉德模式挑战赛”(Winograd Schema Challenge)的竞赛落下帷幕。这场竞赛是图灵测试的变种,要求人工智能回答关于语句理解的一些常识性问题,由加拿大多伦多大学的计算机科学家赫克托·莱维斯克(Hector Levesque)发起。

以问题“市议员们拒绝示威者的游行许可,因为他们害怕暴力”为例,按照威诺格拉德模式挑战赛的风格,该问题包含了几个重要的部分:

首先,具有同类语义的两个名词(本题里指的是:市议员们和示威者 )

第二,有一个指代以上两个名词的模糊代词(本题里指的是:他们)

第三,有一个特别的单词,当这个单词被换成另外一个单词时,那么模糊代词的意义就会改变(本题里,如果把“害怕”换成“主张”,那么句子里的“他们”的意思就会发生改变)

基于此,计算机需要回答的问题就是:这个具有模糊含义的代词指的是什么,并给出两个选项让计算机选择。

根据研究,在人类胡乱选择的情况下,该问题答对的概率是45%,而这次竞赛的结果显示,人工智能最好的结果也只是48%,那高出来的3个百分点完全可以忽略不计了,最为值得思考的是,这个成绩的拥有者还使用了最前沿的机器学习方法,如果这个成绩真的代表了当前聊天机器人的水平,那离理想中的“聊天机器人”还远着呢!

号称能够理解自然语言的聊天机器人,在图灵测试下被分分钟打脸

面对现状,探索聊天机器人未来趋势

有心人会发现,在上述比赛中,谷歌、Facebook等巨头并没有加入,虽然他们正在将注意力转向自然语言理解,并多次暗示已取得了非常大的进展,但有个事实不得不提,此前在Facebook聊天机器人的用户体验上,有用户问它是否能够推送科技新闻,而其反馈的却是一则澳洲树袋熊的新闻,这两者完全相差了十万八千里。因而,在自然语言理解上,科技巨头也有很长的一段路要走。

不管是竞赛结果,还是用户体验,目前聊天机器人的水平还不能完全达标,而对于未来的发展趋势,它们还需要解决几个问题:

首先是对自然语言的理解。既然是聊天机器人,就得会“聊天”,而聊天这一技术活儿的基础就是对语言和句子的理解。这是当前最需要解决的问题,也是最难解决的问题,毕竟手动编码输入这些知识需要花费的时间不可想象,而且用数据统计的方法来学习真实世界的知识对于计算机来说也十分困难,但为了打造出一个真正意义上的“聊天机器人”,这个问题将是接下来研究员们所关注的重点

其次是对语言的记忆。在一段自然谈话中,人们常常以一个字或几个字来指称此前所说的一件事,从而就会出现模糊指代。这种时候,聊天机器人就必须能够清楚理解这个词的指代对象,这就需要它们通过深度学习,从而按照语义的逻辑关系正确带入指代对象,毕竟没有人希望自己在交流的时候还需要将每件事重复解释十几遍的。

最后是聊天机器人的语音识别技术。的确,如今机器人的识别技术已经很先进了,譬如聊天机器人小娜就已经学会了30多种语言。但在这里,有个细节需要我们注意一下,那就是口音的问题,比如一个泰国人通过说英语与小娜进行交流(小娜还不会泰语),在严重的口音干扰下,聊天机器人真的能够听得懂用户在说什么吗?


原文发布时间: 2016-07-20 18:12
本文作者: 韩璐
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。
相关文章
|
人工智能 自然语言处理 机器人
智能电话机器人核心技术:自然语言处理
什么是自然语言处理? 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向.它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法.自然语言处理是一门融语言学、计算机科学、数学于一体的科学.因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别. 自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统.因而它是计算机科学的一部分. 自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域.
|
3月前
|
人工智能 自然语言处理 测试技术
用图灵测试检验AI尤其是大语言模型,真的科学吗?
【9月更文挑战第25天】《Does GPT-4 Pass the Turing Test?》一文评估了先进AI模型GPT-4的图灵测试表现。尽管GPT-4在某些对话中成功迷惑了参与者,但其整体成功率仅为41%,低于人类的63%。图灵测试作为评估AI语言能力的工具依然有效,但存在局限性,如无法评估AI的认知机制且受主观判断影响。此外,测试还引发了关于AI智能及伦理的讨论。
212 6
|
2月前
|
人工智能
反向和错位图灵测试:GPT-4比人类更人性化!
【10月更文挑战第8天】本文探讨了GPT-4在反向和错位图灵测试中的表现。反向测试中,GPT-4判断自身生成对话的准确性高于判断人类对话;错位测试中,人类更容易区分GPT-4生成的对话。研究揭示了GPT-4的某些特征及其局限性,如数据集偏差和任务特定性。
33 5
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】自然语言处理(NLP)的突破,关注NLP在机器翻译、情感分析、聊天机器人等方面的最新研究成果和应用案例。
自然语言处理(NLP)作为人工智能的一个重要分支,近年来取得了显著的突破,特别在机器翻译、情感分析、聊天机器人等领域取得了显著的研究成果和广泛的应用。以下是对这些领域最新研究成果和应用案例的概述,并附带相应的代码实例。
176 1
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
|
4月前
|
机器学习/深度学习 自然语言处理 机器人
【Azure 机器人】微软Azure Bot 编辑器系列(6) : 添加LUIS,理解自然语言 (The Bot Framework Composer tutorials)
【Azure 机器人】微软Azure Bot 编辑器系列(6) : 添加LUIS,理解自然语言 (The Bot Framework Composer tutorials)
|
5月前
|
机器学习/深度学习 自然语言处理 算法
NLP技术在聊天机器人中的应用:技术探索与实践
【7月更文挑战第13天】NLP技术在聊天机器人中的应用已经取得了显著的成果,并将在未来继续发挥重要作用。通过不断探索和创新,我们可以期待更加智能、自然的聊天机器人的出现,为人类生活带来更多便利和乐趣。
|
机器学习/深度学习 人工智能 自然语言处理
【AI Business Model】人工智能的定义 | 了解 AI 的历史 | 简单理解什么是 “图灵测试“
【AI Business Model】人工智能的定义 | 了解 AI 的历史 | 简单理解什么是 “图灵测试“
147 1
|
7月前
|
人工智能 自然语言处理 安全
GPT-4通过图灵测试,胜率高达54%!UCSD新作:人类无法认出GPT-4
【5月更文挑战第27天】GPT-4在图灵测试中达到54%的胜率,使人类无法辨别其身份,展示出强大的人工智能模拟人类行为的能力。这项由UCSD进行的研究超越了ELIZA的22%,但未及人类67%的真实水平。尽管成果显著,图灵测试的局限性及AI伦理问题也随之浮现,引发关于技术控制与安全性的讨论。该进展预示着人工智能在客户服务等领域有广阔应用前景。[[arXiv:2405.08007](https://arxiv.org/pdf/2405.08007)]
85 1
|
6月前
|
机器人 定位技术 C++
技术笔记:ROS中测试机器人里程计信息
技术笔记:ROS中测试机器人里程计信息