中国人工智能学会通讯——智力测试与智能测评的对比思考

简介:

image

因为我的研究方向是心理学,不是特别懂计算机的东西,像陈老师说的,我们2013年很有可能开始一个合作,后来没有进行下来,我们希望来做一下机器人的智能测试。我想跟大家说为什么我对这个研发感兴趣,刚才陈老师也提到了,在学科交叉的过程中给我们提出了很多挑战,刚才几位老师讲的我觉得都跟心理学有关系。

因为我们做动物和人的比较,如果把机器人放在这样一个框架里面怎么理解这个问题,跟大家交流。我准备的内容还是有点多,会挑比较有意思的部分跟大家讨论。

陈老师说了机器人是自己跟自己比,我的想法是,还是要放在框架里面比。我们觉得如果做智能测试,可能框架还是很重要的;你要有一个参照框架,你在什么样的框架里面来说拥有什么样的能力。我们提到的个体在一个毕生发展过程中,不同年龄段就是一个比较框架,动物和人也是一个比较框架,所以谈到比较一定要有一个框架。我们来讨论心理学中的一个背景解释,说这两个巨人哪个大?我们从解释来说,感官有一个机制来告诉我后头那个大,但是如果没有框架,实际的东西大小是一样的,但是在背景上就会觉得后面的大,这是框架的作用。

image

我做的是命题作文,因为陈小平老师给我一个题目,智能测试和智能测评的对比思考。我稍微改了一点,因为我觉得很多时候不一定完全说得清楚智能测试和智能系统测评,所以把它们放在一起说一下。如果说到测评,肯定还需要说到怎么去界定这个东西。因为界定肯定是影响测评的,这是前提。我们来看怎么说人类或者机体的智力,因为也包括动物。涉及到个体,现在也有强调群体的智力,或者叫做组织的智力、智商。都是有机体,它有一个物质基础,是大脑活动的体现。会有一些具体的能力表现,在我们的人类心理学中,对于智能的界定也是特别复杂的事情,各种各样的人,有各种各样界定,不同的界定就有不同的测试方法。我们做比较心理学时,有一个对智力的界定,包括三个方面:生物学意义上的智力,即大脑的能力;心理测量学意义上的智力,即智商的测定;还有就是成功的适应,就像刚才陈老师提到的,即你达到了什么样的目的。现在讲的智能系统,这些内容都是我学来的,因为为了参加这个会要想想大家会怎么说这些内容。

image

智能系统好像是一个机器的东西,是类人类的系统,能够产生像人类一样行为的系统,这是大家提到这个系统有别于其他系统的特点。其实它已经采取了人类解决问题的方法,是启发式的,不是绝对的计算。我们做智能比较时,如果做到动物,研究者把不同的动物放在一块。你看看,你觉得谁更聪明一点?如果让大学生做大概是这样一个排队情况。给动物智力一个从1~10分的评估,ape,9.2分,下面是7分、5分、6分,如果把可佳搁进来,你觉得它应该在哪儿?它一定要在这样的框架里面。因为心理学主要是对人类的理解,我们做动物就是为了给人类提供参照系。因为人会觉得自己是10分,把自己作为评价标准。

我们看人类的测评和动物的智能测评其实经历了很多阶段。最开始当成铁板一块,一般的智力,最后分成不同的方面,对于动物的测评学习了人类的方法,会把个体的能力分成不同方面。处理物理世界的,一般来讲称为物理认知,如果测量处理社会世界的能力,叫做社会认知或者社会智力。在做灵长类测评时,按照这样的框架分成物理认知测评和社会认知测评。做人的智力测评,有韦氏智力测量,包括成人的量表和儿童的量表。现在有用类似韦氏智力测验的方法对机器人,或者智能系统的测评,完全参考了这样一个方法。

我们说的做推理能力测试的有一个瑞文测试,更多的强调推理能力。这是推理能力的测试。刚才提到了心理学家对智力的认识是不断进步的,逐渐发展认识,认为我们不能把智能看成只包括一个方面的内容,需要从不同的方面来理解智能。比如说刚才提到的,智能系统的语言理解,或者说推理能力,或者是一个纯粹的记忆能力。因为如果按照单纯记忆能力,我觉得人真的没法跟它比。前一阵诗词大会上,那么惹人喜欢的上海小姑娘,可以记住那么多诗词。如果让计算机来做这些任务蛮简单吧,只要把材料全部输出去,像诗词大会上那样出题,填空、补全等,智能系统会很容易、很快就能输出出来,所以要看怎么比、比什么。按照著名心理学家Sternberg(斯滕伯格)的智力理论,我们人的智能可以分成实践的智力、分析的智力、创造性的智力三个维度。心理学家Gardner(加德纳)分成八个方面,这是转化成中国版本的,从不同的方面测评智能。将来做机器人的智能测评也要考虑这些方面,要分成不同的类型,这样才能够说得清楚,否则就很难说清楚。

我刚才提到了,因为跟陈小平老师当时2013年开始想做机器人的智能测评,我们做了文献的调研。当时做的人很少,我们查到的一个美国的研究,做了智能机器人的测评,做的是物体的感知测评。因为它是一个硕士论文,在文献当中分析了有些智能测试在机器人当中很难实施,所以这篇论文只做了知觉推理测评,即机器人通过10种行为(Rattle, Grasp, Lift, Hold, Shake, Drop, Tap, Poke, Push, Press)知觉客体属性,并对这些属性进行推理以完成四套蒙台梭利客体配对和匹配任务。

image

目前国内的智能系统测试研究是北京交通大学的课题组做的,基本上用的韦氏智力测氧测评的方式,出一些题目,比如有些常识的问题、计算的问题、排列的问题等,每年都测。2014年做的测试,对人类三个不同年龄组(6岁、12岁、18岁),智能系统包括谷歌、百度等智能系统,测了50个这样的智能系统,加上人类的3组,共53个。我们只把前面分数列出来了。它的基本方法就是韦氏智力测验的方法。2015年、2016年都做了一些,2016年的结果是说,这些智能系统的分数绝对值提高了,但是跟人类比起来还相差很远。

到底机器人和人差在什么地方?刚才提到了如果做人机交互,肯定要考虑到这个问题。因为我们智力不只是一个解题的能力,还有相互作用的人际交往能力。而机器和人构成了人机交互,交互作用的问题还是要考虑进来。这是涉及到社会智力的问题。社会智力可能在现在的机器人中考虑的还是比较有限,虽然有一些意图的推理,像刚才几位老师提到的,但是很多的意图,我们说只能意会,不能言传的东西,在机器人的理解中是比较困难的问题。像人类的生活中,其实常常不直接提出需求,你在饭桌上跟一个朋友说:“你能把盐递给我吗?”这不是询问能力的问题,我是想让你把盐递给我。个体间的交往需要这样对心理状态进行推理的能力。所以个体很早的时候就会有各种各样不同的表现。眼中读心,从各种表情中判断他的情绪。还有幽默的表达,刚才刘挺老师提到了加个“的”字和不加“的”字,意思很不一样。我们实际生活中有很多幽默的表达,哪怕是同一个字或者词,表达的可能却是不同的意思。其实在人类生活当中我们觉得这是很自然的事,很容易理解,但是对它们机器人(智能系统)来说可能就是件很困难的事。我们觉得要记那么多东西很难,但是对于它们来说却是很简单的事。所以不能是绝对的比较,还要看比较什么。

image

刚才提到小冰,因为它也是我的一个学生参与的工作,从心理学角度来谈。因为对话一定考虑他想听什么,我们的学生也说,其实这个小冰说的话都是前言不搭后语的。它说的东西不是按照你想要的东西来说。但是人类有特别重要的能力,我们能够解释成它像是要跟我说的话。像这个做诗的软件,做唐诗。你只能输入一个字,因为我们今天讲智能,我就输了一个“智”、一个“能”,结果给出的像是一首诗的样子。因为很像是人做的,就会觉得真好,你会解读成你需要的东西。5•20还有好多人用作诗软件,写各种各样的情诗出来,但是能不能做出像我们说的这种根据情境真情实意的流露。这是苏小妹和苏东坡互相调侃,这样简单的东西就是情境的东西,陈老师提到的环境、情境。作诗软件做出的这些东西很难达到这样的水平。人和机器目前来看在这方面还是有差距的。

image

我们比较人和动物时,动物不是人,我们很难把人的智能赋予给它。现在机器人更是这样,它连生物有机体都不是,我们很难把它表现出来的东西归结为一个智能的。或者像我们这种人类智能的表现。我们怎么去理解它?从哪个层次理解它?这个的确是与挑战并存的,但是也给我们提供了很多机会,如果进行研究回答这样的问题,可以推进很多理论上的探讨。

image

回到界定。我们要做人类智力测试与智能系统测评这种比较,首先要界定不同的方面,从不同的方面做这样的比较。这种比较的意图和目的是什么,理解人类的智能和机器的智能。这就是我希望和大家分享的。

(本报告根据速记整理)

相关文章
|
23天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能,应该如何测试?(六)推荐系统拆解
该文介绍了推荐系统的基本概念和实现思路。推荐系统通过预处理筛选候选集合,然后利用二分类模型预测用户对内容的喜好概率,再按概率排序选择Top N内容推荐给用户。文中提供了一个使用Spark ML库的简单模型训练DEMO,涉及数据预处理、特征工程和逻辑回归模型。此外,还提及了词向量在处理文本特征中的重要性,它能捕捉词与词之间的关联性。推荐系统的实际应用远比示例复杂,但这个例子有助于理解其核心流程。
21 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与机器学习:开启智能新时代的密钥
人工智能与机器学习:开启智能新时代的密钥
30 0
|
2月前
|
机器学习/深度学习 人工智能 安全
中国信通院联合金橙果科技等十七家单位发起人工智能大模型安全基准测试
2024年2月20日下午,AIIA“SafetyAI Bench”(人工智能大模型安全基准测试)线上研讨会成功举办。来自中国信息通信研究院(以下简称“中国信通院”)、厦门大学、北京大学、北京交通大学、360、百度、蚂蚁集团、VIVO、西门​子、小鹏汽车、马上消费、浪潮科技、海信视像、交通银行、商汤科技、邮储银行、普华永道、科大讯飞、金橙果科技、万商天勤律所、中兴通讯、博特智能、开源网安、云天励飞等单位40余位科研机构专家及企业代表参加了本次会议。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
springboot基于人工智能和自然语言理解技术的医院智能导医系统源码
智能导诊系统可为患者提供线上挂号智能辅助服务,患者根据提示手动输入自己的基本症状,通过智能对话方式,该系统会依据大数据一步步帮助患者“诊断”,并最终推荐就医的科室和相关专家。患者可自主选择,实现“一键挂号”。这一模式将精确的导诊服务前置,从源头上让医疗服务更高效。
372 2
|
1月前
|
人工智能 自然语言处理 人机交互
吴泳铭:拥抱人工智能驱动的产业智能革命
吴泳铭:拥抱人工智能驱动的产业智能革命
108823 483
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
未来智能时代:人工智能技术的新趋势与挑战
在当今数字化快速发展的时代,人工智能技术正逐渐渗透到我们生活的方方面面。本文将探讨人工智能技术的新趋势和挑战,分析其对未来社会和产业的影响。
24 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能大模型引领智能时代的革命
随着AI技术的飞速发展,人工智能大模型正成为推动社会进步和经济发展的重要力量,比如GPT-3、BERT和其他深度学习架构,正在开启一个全新的智能时代。在人机交互、计算范式和认知协作三个领域,大模型带来了深刻的变革。那么本文就来分享一下关于大模型如何提升人机交互的自然性和智能化程度,以及它们如何影响现有的计算模式并推动新一代计算技术的演进,并探讨这些变革对未来的意义。
42 1
人工智能大模型引领智能时代的革命
|
2月前
|
机器学习/深度学习 人工智能 物联网
《未来智能时代下的人工智能发展趋势与挑战》
【2月更文挑战第5天】随着人工智能技术的不断发展,我们迎来了智能时代的到来。本文将探讨人工智能在未来的发展趋势和面临的挑战,分析其在各个领域的应用前景和影响。
270 1
|
20天前
|
人工智能 数据可视化 测试技术
精准高效测试计划,人工智能帮你制定
测试计划文档包括测试范围、方法、资源和进度,涉及测试项、特性、任务、执行者和风险控制。测试经理需制定文档大纲,细化测试任务,如用例编写、执行、资源分配及风险管理。2周测试周期内,5名测试人员将进行单元、集成、功能、性能和安全测试,以及缺陷验证和总结报告。在实际操作中,需注意人员匹配、任务平衡和沟通协调。由于ChatGPT输出的甘特图有误,需手动修正,最终完成测试计划的可视化表示。实践中,明确需求、拆分任务和校验输出是关键。
18 0
|
23天前
|
人工智能 搜索推荐 算法
人工智能,应该如何测试?(七)大模型客服系统测试
这篇文稿讨论了企业级对话机器人的知识引擎构建,强调了仅靠大模型如 GPT 是不够的,需要专业领域的知识库。知识引擎的构建涉及文档上传、解析、拆分和特征向量等步骤。文档解析是难点,因文档格式多样,需将内容自动提取。文档拆分按语义切片,以便针对性地回答用户问题。词向量用于表示词的关联性,帮助模型理解词义关系。知识引擎构建完成后,通过语义检索模型或问答模型检索答案。测试环节涵盖文档解析的准确性、问答模型的正确率及意图识别模型的性能。整个过程包含大量模型组合和手动工作,远非简单的自动化任务。
41 0