中山大学HCP Lab团队:AI解题新突破,神经网络推开数学推理大门(二)

简介: 中山大学HCP Lab团队:AI解题新突破,神经网络推开数学推理大门

论文5:LogicSolver: Towards Interpretable Math Word Problem Solving with Logical Prompt-enhanced Learning

Findings of the Association for Computational Linguistics: EMNLP 2022


论文地址:https://arxiv.org/pdf/2205.08232.pdf


近年来,深度学习模型在数学应用题自动求解任务上取得了很大的成功,特别是在答案准确率方面。但是由于这些模型只利用了统计线索(shallow heuristics)实现了高求解性能,并没有真正地理解和推理题目背后的数学逻辑,因此,这些方法是难以解释的。


为了解决该问题并推动可解释数学应用题求解领域的发展,中山大学人机物智能融合实验室团队构建了第一个高质量的带解释的数学应用题数据集 InterMWP。该数据集包含了 11,495 道数学应用题和 210 种基于代数知识的逻辑公式,每道应用题的求解表达式均使用逻辑公式进行标注。与现有的数学应用题求解数据集不同,我们的 InterMWP 不仅要求解题器输出求解表达式,还要求解题器输出该求解表达式所对应的基于代数知识的逻辑表达式,从而实现对模型输出的解释。InterMWP 数据集与其他解题数据集的异同可以参考图 8。具体的标注过程可以参考原文。


图 8 InterMWP 数据集示例


为了利用数学逻辑知识并赋能 MWP 解题器具备可解释性,我们团队进一步地构建了新的数学应用题求解框架 LogicSolver,如图 9 所示。该框架通过检索的方式从逻辑公式库提取相关的逻辑知识作为提示信息,改进问题编码器对 MWP 的语义表示的同时增强 MWP 的逻辑解释的生成能力。


图 9 LogicSolver 设计示意图


LogicSolver 主要由逻辑知识检索组件、逻辑提示增强 MWP 求解器和解释生成组件三大组件构成。逻辑知识检索组件。对于每一道 MWP,我们从 210 种逻辑公式检索 top-k 个高度相关的逻辑公式作为提示,以增强 MWP 的求解。我们将逻辑公式提示与问题文本连接起来作为输入,驱动 MWP 模型生成求解表达式。最后,为了获取基于逻辑公式的解释,我们部署一个逻辑生成器来预测逻辑表达式树的每个内部节点(即运算符)所对应的逻辑公式作为求解的解释。


在实验中,我们在 InterMWP 数据集上构建了多个基线模型,并将我们的 LogicSolver 与这些基线模型进行对比。其实验结果如下表所示。



从实验结果可以看出,我们的 LogicSolver 在答案准确度,公式准确率,以及逻辑公式准确度上均能获得提升,说明了我们的 LogicSolver 在改善求解性能(Answer Acc 和 Formula Acc)的同时能具有更好的逻辑解释性(Logic Acc)。更多研究细节,可参考原论文。


论文 6:UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical ExpressionJiaqi Chen, Tong Li, Jinghui Qin, Pan Lu, Liang Lin, Chongyu Chen and Xiaodan LiangThe 2022 Conference on Empirical Methods in Natural Language Processing


几何题自动求解是一个用于评估深度模型多模态推理能力的基准。然而,在大多数现有的工作中,几何计算题自动求解和几何题自动证明通过会被视作两个不同的任务,并施加不同的标注处理,妨碍了深度模型在不同数学任务进行统一推理的研究进展。从本质上来说,几何计算题和几何证明题目具有相似的问题表达和解题所需的数学知识也有所重叠。因此,通过对几何计算题自动求解和几何题自动两个任务进行统一表示和学习有助于提升深度模型对这两种问题的语义理解和符号推理。


为此,中山大学人机物智能融合实验室团队构建了一个包含了数千道几何题的基准数据集 UniGeo。UniGeo 包括了 4,998 道几何计算题和 9,543 个几何证明题。我们对每个证明题均进行了多步骤证明标注,且这些标注可以很轻易地被转换为可执行的符号程序。而计算题也采用类似的标注,如图 10 所示。经过采用如图 10 所示的方式进行标注后,UniGeo 能很好地以形式化符号语言将几何计算题和几何证明题进行统一的表示。


图 10 UniGeo 数据样例


在利用形式化符号语言对几何计算题和几何证明题进行统一标注后,为了验证这两种题目的统一表示能有效地促进模型对几何计算题和几何证明题的语义理解和符号推理能力,从而实现更高效的计算题求解和证明题证明。中山大学人机物智能融合实验室团队构建了面向几何题求解和证明统一处理的 Geoformer 来同时处理几何计算题和几何证明题,如图 11 所示。


图 11 GeoFormer 示意图


此外,为了习得高效的 Geoformer 实现统一的几何推理,中山大学人机物智能融合实验室团队还进一步地提出数学表达预训练任务,结合 MLM 任务对 Geoformer 进行任务预训练,如图 12 所示。


图 12 数学表达预训练示意图


在实验中,我们在 UniGeo 基准的基础上构建多个基线模型,并对我们提出的 GeoFormer 进行性能对比。实验结果如下表所示。



从实验结果可以看到,我们提出的 GeoFormer 在计算题和证明题两个子数据集上均能获得比基线模型更好的总体性能。类似地,在需要统一求解计算题和证明题的全数据集上 GeoFormer 相比 NGS 和 BERT 基线模型也是更优胜的。而在经过数学表达预训练和 MLM 预训练后,GeoFormer+Pretraining 相比 GeoFormer 会有进一步的性能提升。这些实验结果充分证明了 GeoFormer 的有效性,也说明了对几何计算题和几何证明题进行统一模型推理对于各自的任务来说也是有帮助的。


该工作已被 EMNLP2022 主会收录,更多研究细节,更多细节敬请期待。

相关文章
|
1月前
|
人工智能 安全 搜索推荐
北大计算机学院再登国际AI顶刊!张铭教授团队揭露医疗AI致命漏洞
【10月更文挑战第17天】北京大学计算机学院张铭教授团队在国际顶级人工智能期刊上发表重要成果,揭示了医疗AI系统中的致命漏洞——“模型反演”。该漏洞可能导致误诊和医疗事故,引起学术界和工业界的广泛关注。研究强调了医疗AI系统安全性评估的重要性。
39 1
|
1月前
|
机器学习/深度学习 数据采集 人工智能
未来的守护神:AI驱动的网络安全之盾,如何用智慧的光芒驱散网络黑暗势力?揭秘高科技防御系统背后的惊天秘密!
【10月更文挑战第3天】随着网络技术的发展,网络安全问题日益严峻,传统防御手段已显不足。本文探讨了构建AI驱动的自适应网络安全防御系统的必要性及其关键环节:数据采集、行为分析、威胁识别、响应决策和执行。通过Python库(如scapy、scikit-learn和TensorFlow)的应用实例,展示了如何利用AI技术提升网络安全防护水平。这种系统能够实时监控、智能分析并自动化响应,显著提高防护效率与准确性,为数字世界提供更强大的安全保障。
61 2
|
12天前
|
机器学习/深度学习 人工智能 安全
AI与网络安全:防御黑客的新武器
在数字化时代,网络安全面临巨大挑战。本文探讨了人工智能(AI)在网络安全中的应用,包括威胁识别、自动化防御、漏洞发现和预测分析,展示了AI如何提升防御效率和准确性,成为对抗网络威胁的强大工具。
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
36 3
|
24天前
|
机器学习/深度学习 人工智能 物联网
5G与AI融合:智能网络的新纪元
【10月更文挑战第25天】
44 3
|
1月前
|
人工智能 安全 搜索推荐
北大计算机学院再登国际AI顶刊!张铭教授团队揭露医疗AI致命漏洞
【10月更文挑战第16天】北京大学张铭教授团队在国际顶级人工智能期刊上发表重要成果,揭示了医疗AI系统中的致命漏洞——“模型反演”。该漏洞可使攻击者通过特定数据样本误导AI诊断,引发误诊风险。此发现引起广泛关注,强调了医疗AI安全评估的重要性。
53 4
|
1月前
|
人工智能 关系型数据库 数据中心
2024 OCP全球峰会:阿里云为代表的中国企业,引领全球AI网络合作和技术创新
今年的OCP(Open Compute Project)峰会于2024年10月14日至17日在美国加州圣何塞举行,在这场全球瞩目的盛会上,以阿里云为代表的中国企业,展示了他们在AI网络架构、液冷技术、SRv6和广域网等前沿领域的强大创新能力,持续引领全球合作与技术创新。
|
1月前
|
机器学习/深度学习 数据可视化
KAN干翻MLP,开创神经网络新范式!一个数十年前数学定理,竟被MIT华人学者复活了
【10月更文挑战第12天】MIT华人学者提出了一种基于Kolmogorov-Arnold表示定理的新型神经网络——KAN。与传统MLP不同,KAN将可学习的激活函数放在权重上,使其在表达能力、准确性、可解释性和收敛速度方面表现出显著优势,尤其在处理高维数据时效果更佳。然而,KAN的复杂性也可能带来部署和维护的挑战。论文地址:https://arxiv.org/pdf/2404.19756
44 1
|
1月前
|
人工智能 自然语言处理 NoSQL
|
2月前
RTX3090可跑,360AI团队开源最新视频模型FancyVideo
【9月更文挑战第23天】近年来,人工智能技术的迅猛发展推动了视频生成领域的进步,但在合成动态、连贯且时长较长的视频方面仍面临挑战。为此,360AI团队提出了FancyVideo模型,通过跨帧文本指导实现更为连贯的视频生成。FancyVideo引入了跨帧文本指导模块(CTGM),包含时间信息注入器(TII)、时间相关性优化器(TAR)和时间特征增强器(TFB)三个组件,分别负责注入帧特定信息、优化相关性和增强时间一致性。这些机制使模型能生成具有连贯动作和丰富运动的视频,适用于动画制作和视频编辑等领域。然而,FancyVideo也存在计算复杂度高和细节真实感提升空间等局限。
51 3
下一篇
无影云桌面