中国人工智能学会通讯——自然语言处理中的技术评测

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介:

image

今天这个分论坛的内容真是立体交叉,风格不尽相同。我做自然语言处理的,演讲的题目是《自然语言处理中的技术评测》。

人工智能可以划分为运算智能、感知智能、认知智能几个阶段,未来还有预测决策智能和创新智能。像我们实验室在做的自动写作文,就有创新的色彩。

自然语言处理是典型的认知智能,与感知智能中的语音处理相比,自然语言面对的问题要纷繁复杂得多,同时自然语言处理经常涉及到常识、推理等认知能力,存在大量可以利用的先验知识,与行业深入结合,部分课题评测难度高。

image

自然语言处理有哪些课题?可以用一颗大树来比喻,最底下是句法语义分析,树干是阅读理解,树枝是机器翻译等应用技术,叶子是跟行业相结合的各类应用。

image

今天我想通过三项人们非常关注的NLP技术来介绍这个领域的技术评测。第一个是句法语义分析,即句子级的语言理解。第二个是阅读理解,是篇章级的语言理解,给定一篇文章,让机器阅读;然后请人针对这篇文章问各种各样的问题,看机器能不能回答出来。第三个是人机对话,这个大家都熟知Siri、微软小冰等。

技术评测一直是驱动自然语言处理技术发展的重要手段。国外有美国的NIST和DARPA、日本的NTCIR等评测会议,以及中国各学会的专业委员会,如CCL、SMP、CCIR、CWMT、NLPCC等也都在组织技术评测。我的一个理念是:中文的评测由中国人引导,而不是去参加美国、日本组织的评测。

句法语义分析评测。看这个句子:“您转那篇文章很无知”,实际上我想说的:“您转的那篇文章很无知。”只差一个“的”,意思完全不同了。机器人要理解词汇之间的关系和句子的含义,需要靠句法语义分析,把词的序列形式转化为图结构。句法语义分析,从短语结构、句法依存、通用依存,一直到语义依存图,在不断的发展。刚才于老师讲怎么算理解。我们一直在思考,到底什么样的机器内部表示形式更能够充分、准确地刻画句法语义结构。人们探讨了各种各样的表现方式,哈尔滨工业大学(简称为“哈工大”)提出了语义依存图的表示方式。

相关评测,也是沿着各种方式在不断推进:从单语单领域到多语言树库,再从多领域树库到通用树库,直至语义依存树库。

这是2009年进行的国际多语依存句法分析和语义角色标注评测,涉及7国语言,哈工大获得总成绩第一名。国内的学者不仅在中国做得好,而且在国外的比赛中我们也取得了很多骄人的成绩。在2012年,谷歌组织的SANCL多领域依存句法分析评测中,哈工大获得第三名。在今年刚刚结束的CoNLL国际通用句法分析评测,涉及到45种语言、64个领域的树库,各种语言采用统一的标注方式,比拼核心算法。这次评测有113支队伍报名,包括卡内基梅隆大学、华盛顿大学、多伦多大学、牛津大学、爱丁堡大学、东京大学、IBM研究院、Facebook公司等。由于问题难度较大,最终只有33家提交了,最后哈工大获得了第四名,前三名是美国斯坦福大学、美国康奈尔大学、德国斯图加特大学。

2012年,哈工大组织了中文语义依存分析国际评测;2014年,国外也开始组织语义依存分析评测。

哈工大的句法语义分析技术经过十几年的打磨,整合为“语言技术平台LT P”,多年来一直对外提供开源代码和云服务。欢迎大家直接调用LT P平台的使用接口。目前该平台有1.1万名注册使用者,日均请求70多万次,百度、腾讯、华为、讯飞等大企业付费使用。

刚才讲的是最底层的句法语义分析。下面介绍一下阅读理解评测。阅读理解最近特别火,成为各大巨头必争之地。因为大家做人机对话时发现,很多问题并不能真正回答好。

image

因此,阅读理解的研究得到高度重视:给机器一篇文章,人针对这篇文章问各种各样的问题,看看机器是不是真正能够理解,是不是能够答对。这是哈工大讯飞联合实验室(HFL)做的儿童阅读理解系统,机器对适合六岁儿童阅读的文本进行深入分析,对问题也要进行相应的分析,最后推导答案。

image

国际的巨头纷纷投入阅读理解的研究,从微软的MCTest,到Google DeepMind的CNN/Daily Mail,还有Facebook的CBT、HFL推出的HFL-RC PD&CFT(第一个中文阅读理解数据集),以及当前热点斯坦福大学的Stanford SquAD。

微软的MCTest像我们平时做英文阅读理解一样,有四个人工编写的选项,让你从其中选一个作为答案,数据量比较小,500篇文章,2 000个问题。很快过渡到了DeepMind的评测集,它从与新闻对应的摘要中抽取一个句子,把句子当中的一个词挖掉,构成了一个填空题。这个填空题的答案就是被挖掉的这个词本身,这样瞬间构造了几十万份的阅读理解填空题,在这个数据集上大家做了很多研究。

紧接着Facebook做了一个评测集,把一篇文章中连续20个句子作为阅读材料,第21个句子拿出来挖掉一个词,作成填空题,挖掉的那个词本身就是答案。它不是从摘要里面挖,是从这篇文章本身挖,从文章自身中挖掉一个词很简单,这等于训练集、测试集变得无限大。Facebook填空题也是很难的,目前HFL取得了世界最好成绩,同时HFL推出了第一份中文的阅读理解评测集。大家对中文阅读理解感兴趣的话,可以用我们的评测集。

最近非常火的是斯坦福大学的评测集,重新回到了类似微软MCTest的模式,用真实整句问题提问。但是采用众包的形式,让很多人在众包平台上发问,从而收集到10万个问题,与MCTest相比,问题量大幅度扩大了。而且不是完形填空的问题,变成了真实问题,因此现在成为了各家竞争的焦点。大家每天都可以挑战这个评测集,如果你认为你的算法比较合理了,有把握了,就可以发给斯坦福,可以重新刷榜单。HFL现在排在第二位,第一位是微软亚洲研究院。

总的来说,这一轮阅读理解竞争,本质上是对语言的篇章级理解、推理发起的挑战。不同的测试集代表了不同的维度、不同的检测点,包括是不是真实问题、规模是不是足够大等。

HFL正在依托全国计算语言学学术会议(CCL)组织首届中文阅读理解评测,已经有30多家单位报名了,欢迎关注。

另外有一个和阅读理解相关的评测,叫Winograd。这个评测的思路是:机器为了通过图灵测试,经常把自己伪装成人,但这方面的努力对提高机器智能的帮助不大。Winograd测试提出了更难的、更有挑战性的问题。举个例子,“市议员拒绝给示威者许可,因为他们提倡暴力”。“他们”指代的是“市议员”,还是“示威者”?这个问题很难,需要基于常识才能回答。同时,要编出这样的问题也不容易,在2016年的Winograd比赛上,总共只有60道题。现在准确率达到58%。大家想想,58%意味着什么?比50%稍微高一点而已,这个问题真的很难。

最后介绍一下人机对话,现在火得很,和机器人也是密切结合的。我们一般认为人机对话有四大功能,第一聊天;第二知识问答;第三任务执行(也叫做垂类);第四信息推荐。哈工大自己做的聊天机器人叫“笨笨”。大家扫描这个二维码,可以跟它聊天。人机对话系统能够把自然语言处理中各种各样的技术都集成进去,我们实验室多年积累的各项技术,几乎都在这个平台上得到了一定的应用。我们也正在依托全国社会媒体处理大会组织首届中文人机对话评测,哈工大张伟男老师当评测主席,科大讯飞提供数据,华为公司提供赞助。

这次评测中有两个任务,第一个任务是“中控分类”,把用户的话自动分为分为闲聊和任务执行,任务又分为30多个类别;第二个任务是特定域任务型的人机对话在线测评,包括定机票、定宾馆等实际任务。

我对任务型人机对话评测再展开介绍一下。假如说用户有完整的意图:“预定下周三从哪儿到哪儿的机票”,用户向机器人发出命令,不同的机器人会有不同的回答,很快就分叉了,这种多轮分叉导致自动评测很难展开,于是我们采用人工评测。提供数据集,评测过程中给所有的机器人同样的首轮命令,机器人回答之后,我们用人工来响应。当然人工要配合机器人进行回答,看看能不能够解决这个问题。评测人员主观地进行打分,包括任务完成率、用户的满意度、回复语言的自然度,还有引导能力等。有一个评测指标是客观的,即对话轮数,对话轮数越短,说明机器人能够越有效地帮用户解决问题。现在有74支队伍报名,腾讯、阿里巴巴等大企业,还有很多人机对话方面的创业企业和大学的实验室。

现在国际上关于人机对话的竞争非常激烈,很多想法,你想到的别人也立刻会想到、会去做。NIPS 2017也在组织人机对话评测,他们时间比我们稍微拖后一点,方法是让机器阅读一篇文章,然后针对这篇文章进行人机对话。

我做一个总结。第一,在句法语义分析是人为定义的问题,问题的定义形式多样、多变,总体上是从句法向语义发展。评测数据的规模很有限,每一种语言有1~2万句子作为评测数据,小语种更少。评测方法比较简单,进行对比就可以了。阅读理解是介于人为定义问题和真实问题之间的问题,它反映出了自然语言处理在向篇章级理解和推理方向发展的趋势,它的难点在于如何设计题目,才能有效地迫使机器进行深入的推理,而不是用简单搜索匹配。人机对话是非常有挑战性的,现在我们只能用人工的方式进行评测,有没有可能自动地进行评测,需要深入研究。像机器翻译,原来也是人工设计检查点,后来对比机器的翻译结果和人工的翻译结果,做自动评测了,有力地拉动了机器翻译的进步。未来人机对话有可能进行自动评测,但这个自动评测问题本身就是非常有难度的课题。在自然语言处理领域就是这样,有的评测比较简单,有的评测技术本身就非常值得研究了。

总的来说,技术评测在不断地推动自然语言处理技术的发展。新的问题和新的评测方式不断被提出,什么样的评测是一个好的评测?我们认为难度略高于当前的技术水平是比较合适的,过难了导致评测的结果很差,大家也失去信心,引导性不够强。评测不能满足于只给出一个指标,应该帮助诊断出来当前技术的缺陷。比如阅读理解的评测能不能诊断出来哪些问题机器能答好,哪些问题机器答不好,为什么答不好,是推理能力不足,还是常识知识不足。另外,我反对一味地刷排行榜的工作方式,要追求更高的排名,需要在原理上进行创新,而不是不断地添加技巧。

我的报告由哈工大车万翔、张伟男老师,以及讯飞研究院的崔一鸣研究员提供诸多内容,在此向他们表示感谢!

(本报告根据速记整理)

相关文章
|
2月前
|
自然语言处理 API C++
阿里通义推出SmartVscode插件,自然语言控制VS Code,轻松开发应用,核心技术开源!
SmartVscode插件深度解析:自然语言控制VS Code的革命性工具及其开源框架App-Controller
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
AI写作新时代:自然语言生成技术与写作助手的结合
AI写作新时代:自然语言生成技术与写作助手的结合
59 16
|
19天前
|
机器学习/深度学习 人工智能 算法
人工智能平台年度技术趋势
阿里云智能集团研究员林伟在年度技术趋势演讲中,分享了AI平台的五大方面进展。首先,他介绍了大规模语言模型(LLM)训练中的挑战与解决方案,包括高效故障诊断和快速恢复机制。其次,探讨了AI应用和服务的普及化,强调通过优化调度降低成本,使AI真正惠及大众。第三,提出了GreenAI理念,旨在提高AI工程效率,减少能源消耗。第四,讨论了企业级能力,确保数据和模型的安全性,并推出硬件到软件的全面安全方案。最后,介绍了整合多项核心技术的Pai Prime框架,展示了阿里云在自主可控AI核心框架下的整体布局和发展方向。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解人工智能中的深度学习技术及其最新进展
深入理解人工智能中的深度学习技术及其最新进展
271 33
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用
随着人工智能技术的不断发展,自然语言处理(NLP)已经成为了一个重要的应用领域。本文将介绍一些常见的NLP任务和算法,并通过代码示例来展示如何实现这些任务。我们将讨论文本分类、情感分析、命名实体识别等常见任务,并使用Python和相关库来实现这些任务。最后,我们将探讨NLP在未来的发展趋势和挑战。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解人工智能中的深度学习技术及其最新进展
深入理解人工智能中的深度学习技术及其最新进展
|
2月前
|
机器学习/深度学习 自然语言处理 语音技术
探索机器学习中的自然语言处理技术
【10月更文挑战第38天】在本文中,我们将深入探讨自然语言处理(NLP)技术及其在机器学习领域的应用。通过浅显易懂的语言和生动的比喻,我们将揭示NLP技术的奥秘,包括其工作原理、主要任务以及面临的挑战。此外,我们还将分享一些实用的代码示例,帮助您更好地理解和掌握这一技术。无论您是初学者还是有经验的开发者,相信您都能从本文中获得宝贵的知识和启示。
47 3
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深入探讨人工智能中的深度学习技术##
在本文中,我们将深入探讨深度学习技术的原理、应用以及未来的发展趋势。通过分析神经网络的基本结构和工作原理,揭示深度学习如何在图像识别、自然语言处理等领域取得突破性进展。同时,我们还将讨论当前面临的挑战和未来的研究方向,为读者提供全面的技术洞察。 ##
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与未来医疗:AI技术在疾病诊断中的应用前景####
本文探讨了人工智能(AI)在现代医疗领域,尤其是疾病诊断方面的应用潜力和前景。随着技术的不断进步,AI正逐渐改变传统医疗模式,提高诊断的准确性和效率。通过分析当前的技术趋势、具体案例以及面临的挑战,本文旨在为读者提供一个全面的视角,理解AI如何塑造未来医疗的面貌。 ####
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索深度学习与自然语言处理的前沿技术:Transformer模型的深度解析
探索深度学习与自然语言处理的前沿技术:Transformer模型的深度解析
140 0

热门文章

最新文章