论文原文请访问:https://arxiv.org/abs/1705.04530
这篇论文提供了一个思考人工智能的新视角。在衡量人工智能上,图灵测试(Turing test)已经被证明是一种不足实用的方法。所以现在标准化的数学和科学考试(standardized math and science tests)已经被视为了一种可用于衡量人工智能的方法。该论文的目的是概述能通过标准化数学和科学考试的机器的制作方法。
1. 引言
该论文的作者首先指出,对于人类,我们可以通过我们给出的相关问题的答案来进行评价。但我们不能使用同样的标准来评价机器。由阿兰·图灵在 1950 年提出的图灵测试 [1] 的评价方式是看机器能否表现出与人类无法区分的对话行为。而在今天,Clark 和 Etzioni [2] 提出可使用数学和科学的标准化考试作为评价机器智能的适当方法。这篇论文给出了一个简要介绍,让我们可以了解可如何训练机器来解决数学和科学问题。
2. 问答和数学/科学领域
问答(QA)是一种需要机器为问题生成答案的任务,其中问题和答案都是自然语言。现代问答系统主要基于两种范式。
一种是基于文本的问答(text-based QA),其依赖于大量文本。首先,它会通过信息检索方法来检索包含了答案的文档,然后其会从文本中提取出候选答案并对这些答案进行排名。
另一种是基于知识的问答(knowledge based QA),这种方法会创建问题的语义表征(semantic representation),然后将其用于查询事实数据库(databases of facts)。
在科学和数学问题上的问答还面临着额外的独特难题,因为解决这些问题既需要对问题有很好的理解,还需要将问题的内在表征包含进来。此外,它往往需要执行符号计算 [2]。通过信息检索或基于知识的方法,这个问题无法得到轻松的解决。
3. 用于科学的问答
标准化考试中的科学问题主要包含三类:基本事实检索、推理和世界知识、图表。这个问答任务所用的数据集是 New York Regents Science Exams (NYSED) [3]。
3.1 数据集
该论文提供了一些测试和答案的示例。
- 基本问题
1. 下面哪种物体是最优良的电导体?
(A)蜡笔(B)塑料勺子(C)橡皮擦(D)铁钉
2. 风或水所导致的土壤运动被称为:
(A)冷凝(B)蒸发(C)侵蚀(D)摩擦
这些问题可以通过基于信息检索的问答系统解决。
- 简单推理
1. 下面哪个例子描述了生物在获取养分?
A)一只狗在掩埋骨头(B)一个女孩在吃苹果(C)一只昆虫在树叶上爬行(D)一个男孩在花园里种植番茄
通过基于已知事实的简单推理可以得到这个问题的答案。机器应当知道「吃」涉及到「获取养分」,而苹果包含养分。
- 更复杂的世界知识
1. 一个骑自行车的学生观察到在平滑的道路上比在不平整的道路上骑得快,这是因为平滑的道路有
(A)更小的重力(B)更大的重力(C)更小的摩擦力(D)更大的摩擦力
对于这个问题,机器应该具备更深度的知识和更好的语言能力。比如,「骑自行车」意味着在移动,然后按路径推理。
- 图表
1. 图 1 中哪个字母指示的植物结构可以吸收水和养分?
3.2 模型
人们采用了多种方法来解决这个问题。这篇论文展示了两种方法。
参考文献 [4] 提出了一种使用整数线性规划(ILP/ Integer Linear Programming)的方法。其中,问答问题基于半结构化的知识(structured knowledge)而被形式化所需的支持图(Support Graph),这最终会变成 ILP。这个系统如图 2 所示。
图 2:TableILP 会搜索将问题和答案连接起来的最佳的支持图(推理链)。这个例子的问题是:纽约州的哪个月白天持续时间最长?答案是:六月。
参考文献 [5] 使用了一个解算器集合(ensemble of solvers)来在不同的层解决问题。这些层如图 3 所示,该系统包含了信息检索解算器、点互信息解算器(Pointwise Mutual Information solver)、支持向量机解算器、RULE 解算器(其中包含人工编码的规则)和整数线性规划。这个系统被称为 ARISTO,并且实现了当前最佳。
图 3:Aristo 使用了五个解算器来回答多选问题,其中每一个都使用了不同类型的知识
4. 用于数学的问答
信息检索系统不能解决数学问题。为了解决数学问题(尤其是算术问题),系统需要理解该问题,并且构造一个等式来进行计算。几何问题由于依赖图表而有所困难。
4.1 数据集
与 3.1 部分类似,本论文提供了标准化考试中的样本并给出了相应的解答。其中几何使用了来自 SAT 的问题,其它问题则来自 NYSED。
- 代数问题
1.Molly 拥有 Wafting Pie 公司。今天早上,她的员工使用了 816 个鸡蛋来烤南瓜饼。如果她的员工今天总共使用了 1339 个鸡蛋,那么他们下午使用了多少个鸡蛋?
2.Sara 的高中今年赢了 5 场篮球赛,输了 3 场。他们今年总共比赛了几场?
3.John 有 8 个橙色气球,但是丢掉了 2 个。John 现在有多少个橙色气球?
语言处理是必需的,而且后两者还需要世界建模(world modeling)。
- 几何问题
在图 4 中,机器应该理解算术和图表推理(diagrammatic reasoning)。
图 4:如图所示,AB 与圆 O 相交于 D,AC 与圆 O 相交于 E,AE=4,AC=24,AB=16。求 AD。
4.2 模型
论文中给出了四种方法。一是简单的动词分类(verb categorization),旨在解决代数词问题。该模型如图 6 所示,我们可以看到该模型会提取出问题中的动词,然后基于动词类别来构建等式。
图 6:动词分类
另一个系统被称为 ALGES,使用了整数线性规划(ILP)来将词问题映射到一个等式树中,而且更加复杂。如图 5 所示。
图 5:用于词问题及其 Qsets 的学习过程的概览
第三个模型则试图解决几何图表问题。它是在参考文献 [6] 中提出的。它使用了三个步骤来将文本和几何图表对齐:
1)选取最大化像素覆盖(pixel coverage)的元素并识别图中的图元(primitive);
2)使用图元和文本元素之间的协议;
3)最大化元素的一致性(coherence)。
在图 7 中,对齐(alignment)是由系统实现的。
图 7:图表理解:识别图中的视觉元素,并将它们与提及的文本对齐。视觉元素和它们对应的文本提及按不同颜色编码。这幅图加了颜色最好看。
最后一个模型被用于解决几何图表问题,其是在参考文献 [7] 中提出的。其遵循两个步骤:1)使用了第三个模型和语言处理来将图表和问题转换成逻辑表达式;2)使用了可满足性解算器(satisfiability solver)来推导答案。这些步骤可见图 8.
5. 结论
当前最佳的方法还不能很好地解决标准化考试。未来将会有更多方法完成标准化的数学和科学问题。即使机器通过了这些测试,我们仍然不能说它是智能的(intelligent)。但是人工智能通过数学和科学标准化考试将会成为人工智能历史上的一个里程碑事件。
6. 参考文献
[1] Turing, Alan M.「Computing machinery and intelligence.」Mind 59.236 (1950): 433-460.
[2] Clark, Peter, and Oren Etzioni.「My Computer Is an Honor Student-but How Intelligent Is It? Standardized Tests as a Measure of AI.」AI Magazine 37.1 (2016): 5-12.
[3] NYSED. 2014. New York Regents Science Exams. http://www.nysedregents.org/.
[4] Koncel-Kedziorski, Rik, et al.「Parsing Algebraic Word Problems into Equations.」TACL 3 (2015): 585-597.
[5] Schoenick, Carissa, et al.「Moving Beyond the Turing Test with the Allen AI Science Challenge.」arXiv preprint arXiv:1604.04315 (2016).
[6] Seo, Min Joon, et al.「Diagram Understanding in Geometry Questions.」AAAI. 2014.
[7] Seo, Min Joon, et al.「Solving Geometry Problems: Combining Text and Diagram Interpretation.」EMNLP. 2015.