1.22 如何评价智能问答系统
长期以来,人工智能界乃至计算机界梦寐以求,希望让计算机拥有人类的智能,能够像人类一样进行高度自主的认知、学习、推理。这一梦想推动了过去五六十年来人工智能研究和开发的巨大进步。
如何验证计算机已经具有了“人类”的智能?图灵在 1950 年写了一篇论文《计算机器与智能》,提出了如下的判断原则:测试者在与被试(包括人和机器)隔开的情况下,通过键盘等装置向被试随意提问。经过一段时间,如果测试者不能确认所收到的答复来自人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。类似地,美国认知心理学家 G. M.Ulson 认为,判别计算机理解自然语言的四个标准是问答系统、文摘、复述和机器翻译。计算机只要达到以上标准之一,就认为它理解了自然语言。总而言之,问答是衡量人工智能水平的重要手段,问答系统的性能反映了人工智能系统的水平,因此问答技术的研究开发对于人工智能的发展有重要意义。
另一方面,人们自然而然就能想到,如何衡量智能问答的技术水平?哪些测试指标常用来评价问答系统?如今的智能回答能达到怎样的技术水准?接下来,本文将主要从评测和答题两个角度,对智能问答的评价方法加以介绍。需要说明的是,由于篇幅有限,本文所介绍的评价方法和评测手段将既不覆盖聊天机器人、语音助手和社区问答等系统,也不考虑问答的答题策略、人机交互和情感需求,而是聚焦于问题求解能力,要求对于给定的问题,不管来自开放域还是限定域,都能够直接给出问题的准确答案。