替代图灵测试?让人工智能参加数学和科学考试

简介: 图灵测试在过去很长一段时间里都被认为是一种衡量人工智能的好方法,但随着人工智能技术的发展,我们发现这种方法也有一些缺陷或不足的地方。今年五月,印度理工学院的 Arindam Bhattacharya 发表了一篇题为《A Survey of Question Answering for Math and Science Problem》的论文,介绍了研究者在制造能通过标准化考试(standardized test)的机器上所取得的进展。机器之心技术分析师 Shixin Gu 对这篇论文进行了分析解读。

论文原文请访问:https://arxiv.org/abs/1705.04530


这篇论文提供了一个思考人工智能的新视角。在衡量人工智能上,图灵测试(Turing test)已经被证明是一种不足实用的方法。所以现在标准化的数学和科学考试(standardized math and science tests)已经被视为了一种可用于衡量人工智能的方法。该论文的目的是概述能通过标准化数学和科学考试的机器的制作方法。


1. 引言


该论文的作者首先指出,对于人类,我们可以通过我们给出的相关问题的答案来进行评价。但我们不能使用同样的标准来评价机器。由阿兰·图灵在 1950 年提出的图灵测试 [1] 的评价方式是看机器能否表现出与人类无法区分的对话行为。而在今天,Clark 和 Etzioni [2] 提出可使用数学和科学的标准化考试作为评价机器智能的适当方法。这篇论文给出了一个简要介绍,让我们可以了解可如何训练机器来解决数学和科学问题。


2. 问答和数学/科学领域


问答(QA)是一种需要机器为问题生成答案的任务,其中问题和答案都是自然语言。现代问答系统主要基于两种范式。


一种是基于文本的问答(text-based QA),其依赖于大量文本。首先,它会通过信息检索方法来检索包含了答案的文档,然后其会从文本中提取出候选答案并对这些答案进行排名。


另一种是基于知识的问答(knowledge based QA),这种方法会创建问题的语义表征(semantic representation),然后将其用于查询事实数据库(databases of facts)。


在科学和数学问题上的问答还面临着额外的独特难题,因为解决这些问题既需要对问题有很好的理解,还需要将问题的内在表征包含进来。此外,它往往需要执行符号计算 [2]。通过信息检索或基于知识的方法,这个问题无法得到轻松的解决。


3. 用于科学的问答


标准化考试中的科学问题主要包含三类:基本事实检索、推理和世界知识、图表。这个问答任务所用的数据集是 New York Regents Science Exams (NYSED) [3]。


3.1 数据集


该论文提供了一些测试和答案的示例。


  • 基本问题


1. 下面哪种物体是最优良的电导体?


(A)蜡笔(B)塑料勺子(C)橡皮擦(D)铁钉


2. 风或水所导致的土壤运动被称为:


(A)冷凝(B)蒸发(C)侵蚀(D)摩擦


这些问题可以通过基于信息检索的问答系统解决。


  • 简单推理


1. 下面哪个例子描述了生物在获取养分?


A)一只狗在掩埋骨头(B)一个女孩在吃苹果(C)一只昆虫在树叶上爬行(D)一个男孩在花园里种植番茄


通过基于已知事实的简单推理可以得到这个问题的答案。机器应当知道「吃」涉及到「获取养分」,而苹果包含养分。


  • 更复杂的世界知识


1. 一个骑自行车的学生观察到在平滑的道路上比在不平整的道路上骑得快,这是因为平滑的道路有


(A)更小的重力(B)更大的重力(C)更小的摩擦力(D)更大的摩擦力


对于这个问题,机器应该具备更深度的知识和更好的语言能力。比如,「骑自行车」意味着在移动,然后按路径推理。


  • 图表


1. 图 1 中哪个字母指示的植物结构可以吸收水和养分?

微信图片_20211129093617.jpg

3.2 模型


人们采用了多种方法来解决这个问题。这篇论文展示了两种方法。


参考文献 [4] 提出了一种使用整数线性规划(ILP/ Integer Linear Programming)的方法。其中,问答问题基于半结构化的知识(structured knowledge)而被形式化所需的支持图(Support Graph),这最终会变成 ILP。这个系统如图 2 所示。

微信图片_20211129093633.jpg

图 2:TableILP 会搜索将问题和答案连接起来的最佳的支持图(推理链)。这个例子的问题是:纽约州的哪个月白天持续时间最长?答案是:六月。


参考文献 [5] 使用了一个解算器集合(ensemble of solvers)来在不同的层解决问题。这些层如图 3 所示,该系统包含了信息检索解算器、点互信息解算器(Pointwise Mutual Information solver)、支持向量机解算器、RULE 解算器(其中包含人工编码的规则)和整数线性规划。这个系统被称为 ARISTO,并且实现了当前最佳。

微信图片_20211129093658.jpg

图 3:Aristo 使用了五个解算器来回答多选问题,其中每一个都使用了不同类型的知识


4. 用于数学的问答


信息检索系统不能解决数学问题。为了解决数学问题(尤其是算术问题),系统需要理解该问题,并且构造一个等式来进行计算。几何问题由于依赖图表而有所困难。


4.1 数据集


与 3.1 部分类似,本论文提供了标准化考试中的样本并给出了相应的解答。其中几何使用了来自 SAT 的问题,其它问题则来自 NYSED。


  • 代数问题


1.Molly 拥有 Wafting Pie 公司。今天早上,她的员工使用了 816 个鸡蛋来烤南瓜饼。如果她的员工今天总共使用了 1339 个鸡蛋,那么他们下午使用了多少个鸡蛋?


2.Sara 的高中今年赢了 5 场篮球赛,输了 3 场。他们今年总共比赛了几场?


3.John 有 8 个橙色气球,但是丢掉了 2 个。John 现在有多少个橙色气球?


语言处理是必需的,而且后两者还需要世界建模(world modeling)。


  • 几何问题


在图 4 中,机器应该理解算术和图表推理(diagrammatic reasoning)。

微信图片_20211129093712.jpg

图 4:如图所示,AB 与圆 O 相交于 D,AC 与圆 O 相交于 E,AE=4,AC=24,AB=16。求 AD。


4.2 模型


论文中给出了四种方法。一是简单的动词分类(verb categorization),旨在解决代数词问题。该模型如图 6 所示,我们可以看到该模型会提取出问题中的动词,然后基于动词类别来构建等式。

微信图片_20211129093732.jpg

图 6:动词分类


另一个系统被称为 ALGES,使用了整数线性规划(ILP)来将词问题映射到一个等式树中,而且更加复杂。如图 5 所示。

微信图片_20211129093748.jpg

图 5:用于词问题及其 Qsets 的学习过程的概览


第三个模型则试图解决几何图表问题。它是在参考文献 [6] 中提出的。它使用了三个步骤来将文本和几何图表对齐:


1)选取最大化像素覆盖(pixel coverage)的元素并识别图中的图元(primitive);

2)使用图元和文本元素之间的协议;

3)最大化元素的一致性(coherence)。


在图 7 中,对齐(alignment)是由系统实现的。

微信图片_20211129093806.jpg

图 7:图表理解:识别图中的视觉元素,并将它们与提及的文本对齐。视觉元素和它们对应的文本提及按不同颜色编码。这幅图加了颜色最好看。


最后一个模型被用于解决几何图表问题,其是在参考文献 [7] 中提出的。其遵循两个步骤:1)使用了第三个模型和语言处理来将图表和问题转换成逻辑表达式;2)使用了可满足性解算器(satisfiability solver)来推导答案。这些步骤可见图 8.

微信图片_20211129093823.jpg

5. 结论


当前最佳的方法还不能很好地解决标准化考试。未来将会有更多方法完成标准化的数学和科学问题。即使机器通过了这些测试,我们仍然不能说它是智能的(intelligent)。但是人工智能通过数学和科学标准化考试将会成为人工智能历史上的一个里程碑事件。 微信图片_20211129092521.png


6. 参考文献


[1] Turing, Alan M.「Computing machinery and intelligence.」Mind 59.236 (1950): 433-460.

[2] Clark, Peter, and Oren Etzioni.「My Computer Is an Honor Student-but How Intelligent Is It? Standardized Tests as a Measure of AI.」AI Magazine 37.1 (2016): 5-12.

[3] NYSED. 2014. New York Regents Science Exams. http://www.nysedregents.org/.

[4] Koncel-Kedziorski, Rik, et al.「Parsing Algebraic Word Problems into Equations.」TACL 3 (2015): 585-597.

[5] Schoenick, Carissa, et al.「Moving Beyond the Turing Test with the Allen AI Science Challenge.」arXiv preprint arXiv:1604.04315 (2016).

[6] Seo, Min Joon, et al.「Diagram Understanding in Geometry Questions.」AAAI. 2014.

[7] Seo, Min Joon, et al.「Solving Geometry Problems: Combining Text and Diagram Interpretation.」EMNLP. 2015.





相关文章
|
2月前
|
测试技术 UED 开发者
软件测试中的“艺术”与“科学”
在数字时代,软件无处不在,而确保这些软件的质量和可靠性是至关重要的。软件测试,作为保障软件质量的重要环节,既是一门艺术也是一门科学。它不仅仅是寻找错误那么简单,更是一种对细节的关注、对完美的追求和对用户体验的深刻理解。本文将探讨软件测试的艺术性和科学性,并阐述如何将二者结合,以达到最佳的测试效果。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
软件测试中的人工智能革命:现状与未来展望
【10月更文挑战第2天】 本文深入探讨了人工智能在软件测试领域的应用现状、面临的挑战以及未来的发展方向。通过分析AI技术如何提高测试效率、准确性和自动化水平,文章揭示了AI在改变传统软件测试模式中的关键作用。同时,指出了当前AI测试工具的局限性,并对未来AI与软件测试深度融合的前景进行了展望,强调了技术创新对于提升软件质量的重要性。
72 4
|
1月前
|
测试技术 UED 开发者
软件测试的艺术与科学:探索有效的测试策略
在软件开发的宇宙中,测试是一颗璀璨的星辰,它不仅保障着产品的质量,也指引着项目的方向。本文将带你穿梭于测试的银河系,从基础的单元测试到复杂的集成测试,再到全面的系统测试,我们将一探究竟。你会发现,每一个测试阶段都是一次对代码深度和广度的挑战,也是一次对开发者耐心和智慧的考验。准备好了吗?让我们开始这段探索之旅,看看如何通过精心设计的测试案例来确保我们的软件能够在现实世界中稳健运行。
|
25天前
|
测试技术 持续交付 数据安全/隐私保护
软件测试的艺术与科学:探索自动化测试框架
在软件开发的世界中,测试是确保产品质量的关键环节。本文将深入探讨自动化测试框架的重要性和实现方法,旨在为读者揭示如何通过自动化测试提升软件测试效率和准确性。我们将从测试的基本概念出发,逐步引导读者了解自动化测试框架的设计和实施过程,以及如何选择合适的工具来支持测试活动。文章不仅提供理论知识,还将分享实用的代码示例,帮助读者将理论应用于实践。无论你是测试新手还是经验丰富的开发者,这篇文章都将为你打开一扇通往更高效、更可靠软件测试的大门。
29 1
|
1月前
|
测试技术 数据安全/隐私保护
探索软件测试的艺术与科学
在软件开发的世界中,测试是确保质量的守护神。本文将带你穿梭于软件测试的奥秘之中,从基础理论到实践应用,揭示如何通过科学的方法和艺术的触感来提升软件的可靠性和性能。我们将一起学习如何设计测试用例,执行测试计划,并利用自动化工具提高效率。准备好了吗?让我们开始这段旅程,解锁软件测试的秘密!
23 2
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
软件测试中的人工智能:改变游戏规则的革新
在这篇技术性文章中,我们将深入探讨人工智能(AI)如何彻底改变了软件测试领域。从自动化测试到智能缺陷检测,AI不仅提高了测试的效率和准确性,还为软件开发团队提供了前所未有的洞察力。通过具体案例,本文揭示了AI在软件测试中应用的现状、挑战及未来趋势,强调了技术创新在提升软件质量与开发效率中的关键作用。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
软件测试中的人工智能:提升效率与准确性的新途径
在当今快速发展的技术领域,人工智能(AI)正成为软件测试的重要工具。本文将探讨AI在软件测试中的应用,如何通过智能化手段提高测试的效率和准确性。从自动化测试到缺陷预测,我们将深入了解AI如何改变传统的软件测试方式,为软件开发流程带来革命性的变化。
|
2月前
|
人工智能
反向和错位图灵测试:GPT-4比人类更人性化!
【10月更文挑战第8天】本文探讨了GPT-4在反向和错位图灵测试中的表现。反向测试中,GPT-4判断自身生成对话的准确性高于判断人类对话;错位测试中,人类更容易区分GPT-4生成的对话。研究揭示了GPT-4的某些特征及其局限性,如数据集偏差和任务特定性。
33 5
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
软件测试中的人工智能:现状与未来
【10月更文挑战第6天】 本文探讨了人工智能在软件测试中的应用,包括自动化测试、智能缺陷分析以及测试用例生成等方面。通过案例分析和未来趋势预测,文章展示了AI如何提高软件测试的效率和准确性,并指出了当前面临的挑战和未来的发展方向。
51 1
|
2月前
|
机器学习/深度学习 人工智能 算法
软件测试中的人工智能:现状与未来
本文探讨了软件测试领域中人工智能的当前应用和未来发展,分析了AI技术在提升测试效率、准确性和自动化方面的潜力。通过实例展示了AI如何帮助发现复杂缺陷,并展望了AI在软件测试中的进一步应用前景。