第1章 从图灵测试到智能信息获取
随着计算机科学与互联网技术及产业的蓬勃发展,大数据相关的信息智能处理给人类的生活带来了天翻地覆的变化。在这个洪流中,人工智能技术的发展和贡献有目共睹,也同时得到了各大 IT 企业的强烈关注。其中,智能问答越来越受到关注,甚至于被预见为下一代互联网信息服务的基本形式。本文试图从图灵测试开始,探讨理解问答形式本身的性质、发展和未来。
1.1 图灵测试与问答
图灵(Turing),伟大的计算机科学家,1950 年发表了题为《计算机器与智能》的论文,提出了著名的“图灵测试(Turing Test)” [1] (见图 1)。所谓图灵测试,就是测试人与被测试者在相互隔离的情况下,对被测试者进行自然语言的提问,如果被测试者能够在 5 分钟的问答后,以超过 30% 的可能性让一位普通的测试者误以为其是人类,则说明机器通过了测试,并被认为具有人类的智能。
图灵测试最初作为测试计算机系统智能的标准、衡量真理的试金石而诞生,虽然饱受争议,但同时也是智能系统不断进步、不断完善的目标与动力。半个世纪以来伴随着人工智能的发展潮起潮落,每当人工智能的研究取得了重要突破时,图灵测试就会被提出来小试牛刀[2] ;而当人工智能的研究处于暂时的停滞时,图灵测试就会落满灰尘、束之高阁。
我们试图从不同的角度理解机器智能与图灵测试的辩证关系。其一,机器智能和图灵测试是统一的。一般认为,图灵测试是被作为机器智能的充分条件,通过了图灵测试,说明机器有足够的能力骗过人类,而不需要去关心底机器是用什么样的机理与方法。这和人工智能学派中“弱人工智能假设”目标一致:即实现一个机器,使得它可以表现出不低于人类的智能行为表现。例如,我们只需要造出可以飞的飞机,而不必让飞机和鸟儿一样的用扇动翅膀的方式飞翔。其二,机器智能和图灵测试也有不一致的一面。机器所表现出来的智能行为,很多情况下不在图灵测试的范畴中。例如,深蓝已经可以战胜国际象棋大师,或者通过大数据关联计算可以找到超市啤酒与尿布的销售关系,这些机器能够实现的智能行为,并不是普通人类所必备的,自然也不会用类似问题进行图灵测试。
多年来图灵测试被认为难以实现的原因在于它测试的是人类的认知智能,而不是感知智能或智能行为。在进行图灵测试时,提问的目的不在于得到某种实际的收益,而是要千方百计辨别被测试者是否具有人类的特征,包括知识、推理、规则和学习能力,甚至主观的非智能行为特征,包括情感、情绪等。所以,人工智能的研究者,既热衷于尝试图灵测试,从而体现当前智能研究水平,同时又冷漠甚至疏远图灵测试,畏惧于它的难度。一个有点令人沮丧的例子,现在大家纷纷吐槽的 12306 购票网站验证码,就可以看作一个简化版的测试:在精心挑选的问题集中,机器的智能表现与人类智能表现差异越大,验证码的设计就越成功。 假设我们设计不出用来区分人和机器的验证码,那么机器在一定意义上就通过了图灵测试,而其智能水平就真的高到了可怕。
当前智能研究水平,同时又冷漠甚至疏远图灵测试,畏惧于它的难度。一个有点令人沮丧的例子,现在大家纷纷吐槽的 12306 购票网站验证码,就可以看作一个简化版的测试:在精心挑选的问题集中,机器的智能表现与人类智能表现差异越大,验证码的设计就越成功。 假设我们设计不出用来区分人和机器的验证码,那么机器在一定意义上就通过了图灵测试,而其智能水平就真的高到了可怕。
图灵测试通常是作为人工智能的象征或者图腾存在的。它就在那里,我们要不断去接近它。而问答系统和图灵测试有什么关系呢?一方面,图灵测试的场景本身就是问答。如果我们有了和人一样智能的问答系统,那么就相当于通过了图灵测试。因此问答相关研究始终受到人工智能学者的重视。从知识工程、推理机、专家系统,到搜索引擎,智能助手甚至机器人,问答系统贯穿了人工智能的整个发展历程。另一方面,问答作为人类最自然的交互方式,有非常广泛的应用需求。问答系统所体现的智能行为,不是为了通过图灵测试而存在的,而是为了更加有效地解决现实中的任务。简而言之我们不能离开图灵测试背后的人类智能去研究问答系统,也不应该局限在图灵测试的角度去考量问答系统。