中山大学HCP Lab团队:AI解题新突破,神经网络推开数学推理大门(二)

简介: 中山大学HCP Lab团队:AI解题新突破,神经网络推开数学推理大门

论文5:LogicSolver: Towards Interpretable Math Word Problem Solving with Logical Prompt-enhanced Learning

Findings of the Association for Computational Linguistics: EMNLP 2022


论文地址:https://arxiv.org/pdf/2205.08232.pdf


近年来,深度学习模型在数学应用题自动求解任务上取得了很大的成功,特别是在答案准确率方面。但是由于这些模型只利用了统计线索(shallow heuristics)实现了高求解性能,并没有真正地理解和推理题目背后的数学逻辑,因此,这些方法是难以解释的。


为了解决该问题并推动可解释数学应用题求解领域的发展,中山大学人机物智能融合实验室团队构建了第一个高质量的带解释的数学应用题数据集 InterMWP。该数据集包含了 11,495 道数学应用题和 210 种基于代数知识的逻辑公式,每道应用题的求解表达式均使用逻辑公式进行标注。与现有的数学应用题求解数据集不同,我们的 InterMWP 不仅要求解题器输出求解表达式,还要求解题器输出该求解表达式所对应的基于代数知识的逻辑表达式,从而实现对模型输出的解释。InterMWP 数据集与其他解题数据集的异同可以参考图 8。具体的标注过程可以参考原文。


图 8 InterMWP 数据集示例


为了利用数学逻辑知识并赋能 MWP 解题器具备可解释性,我们团队进一步地构建了新的数学应用题求解框架 LogicSolver,如图 9 所示。该框架通过检索的方式从逻辑公式库提取相关的逻辑知识作为提示信息,改进问题编码器对 MWP 的语义表示的同时增强 MWP 的逻辑解释的生成能力。


图 9 LogicSolver 设计示意图


LogicSolver 主要由逻辑知识检索组件、逻辑提示增强 MWP 求解器和解释生成组件三大组件构成。逻辑知识检索组件。对于每一道 MWP,我们从 210 种逻辑公式检索 top-k 个高度相关的逻辑公式作为提示,以增强 MWP 的求解。我们将逻辑公式提示与问题文本连接起来作为输入,驱动 MWP 模型生成求解表达式。最后,为了获取基于逻辑公式的解释,我们部署一个逻辑生成器来预测逻辑表达式树的每个内部节点(即运算符)所对应的逻辑公式作为求解的解释。


在实验中,我们在 InterMWP 数据集上构建了多个基线模型,并将我们的 LogicSolver 与这些基线模型进行对比。其实验结果如下表所示。



从实验结果可以看出,我们的 LogicSolver 在答案准确度,公式准确率,以及逻辑公式准确度上均能获得提升,说明了我们的 LogicSolver 在改善求解性能(Answer Acc 和 Formula Acc)的同时能具有更好的逻辑解释性(Logic Acc)。更多研究细节,可参考原论文。


论文 6:UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical ExpressionJiaqi Chen, Tong Li, Jinghui Qin, Pan Lu, Liang Lin, Chongyu Chen and Xiaodan LiangThe 2022 Conference on Empirical Methods in Natural Language Processing


几何题自动求解是一个用于评估深度模型多模态推理能力的基准。然而,在大多数现有的工作中,几何计算题自动求解和几何题自动证明通过会被视作两个不同的任务,并施加不同的标注处理,妨碍了深度模型在不同数学任务进行统一推理的研究进展。从本质上来说,几何计算题和几何证明题目具有相似的问题表达和解题所需的数学知识也有所重叠。因此,通过对几何计算题自动求解和几何题自动两个任务进行统一表示和学习有助于提升深度模型对这两种问题的语义理解和符号推理。


为此,中山大学人机物智能融合实验室团队构建了一个包含了数千道几何题的基准数据集 UniGeo。UniGeo 包括了 4,998 道几何计算题和 9,543 个几何证明题。我们对每个证明题均进行了多步骤证明标注,且这些标注可以很轻易地被转换为可执行的符号程序。而计算题也采用类似的标注,如图 10 所示。经过采用如图 10 所示的方式进行标注后,UniGeo 能很好地以形式化符号语言将几何计算题和几何证明题进行统一的表示。


图 10 UniGeo 数据样例


在利用形式化符号语言对几何计算题和几何证明题进行统一标注后,为了验证这两种题目的统一表示能有效地促进模型对几何计算题和几何证明题的语义理解和符号推理能力,从而实现更高效的计算题求解和证明题证明。中山大学人机物智能融合实验室团队构建了面向几何题求解和证明统一处理的 Geoformer 来同时处理几何计算题和几何证明题,如图 11 所示。


图 11 GeoFormer 示意图


此外,为了习得高效的 Geoformer 实现统一的几何推理,中山大学人机物智能融合实验室团队还进一步地提出数学表达预训练任务,结合 MLM 任务对 Geoformer 进行任务预训练,如图 12 所示。


图 12 数学表达预训练示意图


在实验中,我们在 UniGeo 基准的基础上构建多个基线模型,并对我们提出的 GeoFormer 进行性能对比。实验结果如下表所示。



从实验结果可以看到,我们提出的 GeoFormer 在计算题和证明题两个子数据集上均能获得比基线模型更好的总体性能。类似地,在需要统一求解计算题和证明题的全数据集上 GeoFormer 相比 NGS 和 BERT 基线模型也是更优胜的。而在经过数学表达预训练和 MLM 预训练后,GeoFormer+Pretraining 相比 GeoFormer 会有进一步的性能提升。这些实验结果充分证明了 GeoFormer 的有效性,也说明了对几何计算题和几何证明题进行统一模型推理对于各自的任务来说也是有帮助的。


该工作已被 EMNLP2022 主会收录,更多研究细节,更多细节敬请期待。

目录
打赏
0
0
0
0
368
分享
相关文章
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
DeepMesh 是由清华大学和南洋理工大学联合开发的 3D 网格生成框架,基于强化学习和自回归变换器,能够生成高质量的 3D 网格,适用于虚拟环境构建、动态内容生成、角色动画等多种场景。
47 4
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
SpatialVLA:上海AI Lab联合上科大推出的空间具身通用操作模型
SpatialVLA 是由上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型,基于百万真实数据预训练,赋予机器人强大的3D空间理解能力,支持跨平台泛化控制。
61 7
SpatialVLA:上海AI Lab联合上科大推出的空间具身通用操作模型
让AI“接管”网络运维,效率提升不只是传说
让AI“接管”网络运维,效率提升不只是传说
46 16
深入解析图神经网络注意力机制:数学原理与可视化实现
本文深入解析了图神经网络(GNNs)中自注意力机制的内部运作原理,通过可视化和数学推导揭示其工作机制。文章采用“位置-转移图”概念框架,并使用NumPy实现代码示例,逐步拆解自注意力层的计算过程。文中详细展示了从节点特征矩阵、邻接矩阵到生成注意力权重的具体步骤,并通过四个类(GAL1至GAL4)模拟了整个计算流程。最终,结合实际PyTorch Geometric库中的代码,对比分析了核心逻辑,为理解GNN自注意力机制提供了清晰的学习路径。
176 7
深入解析图神经网络注意力机制:数学原理与可视化实现
Light-A-Video:好莱坞级打光自由!上海AI Lab开源视频打光AI,无需训练秒改画面氛围,3步让阴天变夕阳
Light-A-Video 是由上海AI Lab联合交大等高校推出的无需训练的视频重照明方法,支持高质量、时间一致的光照控制,零样本生成和前景背景分离处理。
54 9
ENEL:3D建模革命!上海AI Lab黑科技砍掉编码器,7B模型性能吊打13B巨头
ENEL是由上海AI Lab推出的无编码器3D大型多模态模型,能够在多个3D任务中实现高效语义编码和几何结构理解,如3D对象分类、字幕生成和视觉问答。
73 9
ENEL:3D建模革命!上海AI Lab黑科技砍掉编码器,7B模型性能吊打13B巨头
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。
189 17
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
领先AI企业经验谈:探究AI分布式推理网络架构实践
当前,AI行业正处于快速发展的关键时期。继DeepSeek大放异彩之后,又一款备受瞩目的AI智能体产品Manus横空出世。Manus具备独立思考、规划和执行复杂任务的能力,其多智能体架构能够自主调用工具。在GAIA基准测试中,Manus的性能超越了OpenAI同层次的大模型,展现出卓越的技术实力。
网络安全的第六感:AI如何在威胁发生之前发现它们
网络安全的第六感:AI如何在威胁发生之前发现它们
DynamicCity:上海AI Lab开源4D场景神器助力自动驾驶场景!128帧动态LiDAR生成,1:1还原城市早晚高峰
DynamicCity 是上海 AI Lab 推出的 4D 动态场景生成框架,专注于生成具有语义信息的大规模动态 LiDAR 场景,适用于自动驾驶、机器人导航和交通流量分析等多种应用场景。
46 1

热门文章

最新文章