中国人工智能学会通讯——智力测试与智能测评的对比思考-阿里云开发者社区

中国人工智能学会通讯——智力测试与智能测评的对比思考

2017-09-01 1644

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

因为我的研究方向是心理学，不是特别懂计算机的东西，像陈老师说的，我们2013年很有可能开始一个合作，后来没有进行下来，我们希望来做一下机器人的智能测试。我想跟大家说为什么我对这个研发感兴趣，刚才陈老师也提到了，在学科交叉的过程中给我们提出了很多挑战，刚才几位老师讲的我觉得都跟心理学有关系。

因为我们做动物和人的比较，如果把机器人放在这样一个框架里面怎么理解这个问题，跟大家交流。我准备的内容还是有点多，会挑比较有意思的部分跟大家讨论。

陈老师说了机器人是自己跟自己比，我的想法是，还是要放在框架里面比。我们觉得如果做智能测试，可能框架还是很重要的；你要有一个参照框架，你在什么样的框架里面来说拥有什么样的能力。我们提到的个体在一个毕生发展过程中，不同年龄段就是一个比较框架，动物和人也是一个比较框架，所以谈到比较一定要有一个框架。我们来讨论心理学中的一个背景解释，说这两个巨人哪个大？我们从解释来说，感官有一个机制来告诉我后头那个大，但是如果没有框架，实际的东西大小是一样的，但是在背景上就会觉得后面的大，这是框架的作用。

我做的是命题作文，因为陈小平老师给我一个题目，智能测试和智能测评的对比思考。我稍微改了一点，因为我觉得很多时候不一定完全说得清楚智能测试和智能系统测评，所以把它们放在一起说一下。如果说到测评，肯定还需要说到怎么去界定这个东西。因为界定肯定是影响测评的，这是前提。我们来看怎么说人类或者机体的智力，因为也包括动物。涉及到个体，现在也有强调群体的智力，或者叫做组织的智力、智商。都是有机体，它有一个物质基础，是大脑活动的体现。会有一些具体的能力表现，在我们的人类心理学中，对于智能的界定也是特别复杂的事情，各种各样的人，有各种各样界定，不同的界定就有不同的测试方法。我们做比较心理学时，有一个对智力的界定，包括三个方面：生物学意义上的智力，即大脑的能力；心理测量学意义上的智力，即智商的测定；还有就是成功的适应，就像刚才陈老师提到的，即你达到了什么样的目的。现在讲的智能系统，这些内容都是我学来的，因为为了参加这个会要想想大家会怎么说这些内容。

智能系统好像是一个机器的东西，是类人类的系统，能够产生像人类一样行为的系统，这是大家提到这个系统有别于其他系统的特点。其实它已经采取了人类解决问题的方法，是启发式的，不是绝对的计算。我们做智能比较时，如果做到动物，研究者把不同的动物放在一块。你看看，你觉得谁更聪明一点？如果让大学生做大概是这样一个排队情况。给动物智力一个从1~10分的评估，ape，9.2分，下面是7分、5分、6分，如果把可佳搁进来，你觉得它应该在哪儿？它一定要在这样的框架里面。因为心理学主要是对人类的理解，我们做动物就是为了给人类提供参照系。因为人会觉得自己是10分，把自己作为评价标准。

我们看人类的测评和动物的智能测评其实经历了很多阶段。最开始当成铁板一块，一般的智力，最后分成不同的方面，对于动物的测评学习了人类的方法，会把个体的能力分成不同方面。处理物理世界的，一般来讲称为物理认知，如果测量处理社会世界的能力，叫做社会认知或者社会智力。在做灵长类测评时，按照这样的框架分成物理认知测评和社会认知测评。做人的智力测评，有韦氏智力测量，包括成人的量表和儿童的量表。现在有用类似韦氏智力测验的方法对机器人，或者智能系统的测评，完全参考了这样一个方法。

我们说的做推理能力测试的有一个瑞文测试，更多的强调推理能力。这是推理能力的测试。刚才提到了心理学家对智力的认识是不断进步的，逐渐发展认识，认为我们不能把智能看成只包括一个方面的内容，需要从不同的方面来理解智能。比如说刚才提到的，智能系统的语言理解，或者说推理能力，或者是一个纯粹的记忆能力。因为如果按照单纯记忆能力，我觉得人真的没法跟它比。前一阵诗词大会上，那么惹人喜欢的上海小姑娘，可以记住那么多诗词。如果让计算机来做这些任务蛮简单吧，只要把材料全部输出去，像诗词大会上那样出题，填空、补全等，智能系统会很容易、很快就能输出出来，所以要看怎么比、比什么。按照著名心理学家Sternberg（斯滕伯格）的智力理论，我们人的智能可以分成实践的智力、分析的智力、创造性的智力三个维度。心理学家Gardner（加德纳）分成八个方面，这是转化成中国版本的，从不同的方面测评智能。将来做机器人的智能测评也要考虑这些方面，要分成不同的类型，这样才能够说得清楚，否则就很难说清楚。

我刚才提到了，因为跟陈小平老师当时2013年开始想做机器人的智能测评，我们做了文献的调研。当时做的人很少，我们查到的一个美国的研究，做了智能机器人的测评，做的是物体的感知测评。因为它是一个硕士论文，在文献当中分析了有些智能测试在机器人当中很难实施，所以这篇论文只做了知觉推理测评，即机器人通过10种行为（Rattle, Grasp, Lift, Hold, Shake, Drop, Tap, Poke, Push, Press）知觉客体属性，并对这些属性进行推理以完成四套蒙台梭利客体配对和匹配任务。

目前国内的智能系统测试研究是北京交通大学的课题组做的，基本上用的韦氏智力测氧测评的方式，出一些题目，比如有些常识的问题、计算的问题、排列的问题等，每年都测。2014年做的测试，对人类三个不同年龄组（6岁、12岁、18岁），智能系统包括谷歌、百度等智能系统，测了50个这样的智能系统，加上人类的3组，共53个。我们只把前面分数列出来了。它的基本方法就是韦氏智力测验的方法。2015年、2016年都做了一些，2016年的结果是说，这些智能系统的分数绝对值提高了，但是跟人类比起来还相差很远。

到底机器人和人差在什么地方？刚才提到了如果做人机交互，肯定要考虑到这个问题。因为我们智力不只是一个解题的能力，还有相互作用的人际交往能力。而机器和人构成了人机交互，交互作用的问题还是要考虑进来。这是涉及到社会智力的问题。社会智力可能在现在的机器人中考虑的还是比较有限，虽然有一些意图的推理，像刚才几位老师提到的，但是很多的意图，我们说只能意会，不能言传的东西，在机器人的理解中是比较困难的问题。像人类的生活中，其实常常不直接提出需求，你在饭桌上跟一个朋友说：“你能把盐递给我吗？”这不是询问能力的问题，我是想让你把盐递给我。个体间的交往需要这样对心理状态进行推理的能力。所以个体很早的时候就会有各种各样不同的表现。眼中读心，从各种表情中判断他的情绪。还有幽默的表达，刚才刘挺老师提到了加个“的”字和不加“的”字，意思很不一样。我们实际生活中有很多幽默的表达，哪怕是同一个字或者词，表达的可能却是不同的意思。其实在人类生活当中我们觉得这是很自然的事，很容易理解，但是对它们机器人（智能系统）来说可能就是件很困难的事。我们觉得要记那么多东西很难，但是对于它们来说却是很简单的事。所以不能是绝对的比较，还要看比较什么。

刚才提到小冰，因为它也是我的一个学生参与的工作，从心理学角度来谈。因为对话一定考虑他想听什么，我们的学生也说，其实这个小冰说的话都是前言不搭后语的。它说的东西不是按照你想要的东西来说。但是人类有特别重要的能力，我们能够解释成它像是要跟我说的话。像这个做诗的软件，做唐诗。你只能输入一个字，因为我们今天讲智能，我就输了一个“智”、一个“能”，结果给出的像是一首诗的样子。因为很像是人做的，就会觉得真好，你会解读成你需要的东西。5•20还有好多人用作诗软件，写各种各样的情诗出来，但是能不能做出像我们说的这种根据情境真情实意的流露。这是苏小妹和苏东坡互相调侃，这样简单的东西就是情境的东西，陈老师提到的环境、情境。作诗软件做出的这些东西很难达到这样的水平。人和机器目前来看在这方面还是有差距的。

我们比较人和动物时，动物不是人，我们很难把人的智能赋予给它。现在机器人更是这样，它连生物有机体都不是，我们很难把它表现出来的东西归结为一个智能的。或者像我们这种人类智能的表现。我们怎么去理解它？从哪个层次理解它？这个的确是与挑战并存的，但是也给我们提供了很多机会，如果进行研究回答这样的问题，可以推进很多理论上的探讨。

回到界定。我们要做人类智力测试与智能系统测评这种比较，首先要界定不同的方面，从不同的方面做这样的比较。这种比较的意图和目的是什么，理解人类的智能和机器的智能。这就是我希望和大家分享的。

（本报告根据速记整理）

中国人工智能学会通讯——智力测试与智能测评的对比思考

热门文章

最新文章

相关课程

相关电子书

相关实验场景