中山大学HCP Lab团队:AI解题新突破,神经网络推开数学推理大门(二)

简介: 中山大学HCP Lab团队:AI解题新突破,神经网络推开数学推理大门

论文5:LogicSolver: Towards Interpretable Math Word Problem Solving with Logical Prompt-enhanced Learning

Findings of the Association for Computational Linguistics: EMNLP 2022


论文地址:https://arxiv.org/pdf/2205.08232.pdf


近年来,深度学习模型在数学应用题自动求解任务上取得了很大的成功,特别是在答案准确率方面。但是由于这些模型只利用了统计线索(shallow heuristics)实现了高求解性能,并没有真正地理解和推理题目背后的数学逻辑,因此,这些方法是难以解释的。


为了解决该问题并推动可解释数学应用题求解领域的发展,中山大学人机物智能融合实验室团队构建了第一个高质量的带解释的数学应用题数据集 InterMWP。该数据集包含了 11,495 道数学应用题和 210 种基于代数知识的逻辑公式,每道应用题的求解表达式均使用逻辑公式进行标注。与现有的数学应用题求解数据集不同,我们的 InterMWP 不仅要求解题器输出求解表达式,还要求解题器输出该求解表达式所对应的基于代数知识的逻辑表达式,从而实现对模型输出的解释。InterMWP 数据集与其他解题数据集的异同可以参考图 8。具体的标注过程可以参考原文。


图 8 InterMWP 数据集示例


为了利用数学逻辑知识并赋能 MWP 解题器具备可解释性,我们团队进一步地构建了新的数学应用题求解框架 LogicSolver,如图 9 所示。该框架通过检索的方式从逻辑公式库提取相关的逻辑知识作为提示信息,改进问题编码器对 MWP 的语义表示的同时增强 MWP 的逻辑解释的生成能力。


图 9 LogicSolver 设计示意图


LogicSolver 主要由逻辑知识检索组件、逻辑提示增强 MWP 求解器和解释生成组件三大组件构成。逻辑知识检索组件。对于每一道 MWP,我们从 210 种逻辑公式检索 top-k 个高度相关的逻辑公式作为提示,以增强 MWP 的求解。我们将逻辑公式提示与问题文本连接起来作为输入,驱动 MWP 模型生成求解表达式。最后,为了获取基于逻辑公式的解释,我们部署一个逻辑生成器来预测逻辑表达式树的每个内部节点(即运算符)所对应的逻辑公式作为求解的解释。


在实验中,我们在 InterMWP 数据集上构建了多个基线模型,并将我们的 LogicSolver 与这些基线模型进行对比。其实验结果如下表所示。



从实验结果可以看出,我们的 LogicSolver 在答案准确度,公式准确率,以及逻辑公式准确度上均能获得提升,说明了我们的 LogicSolver 在改善求解性能(Answer Acc 和 Formula Acc)的同时能具有更好的逻辑解释性(Logic Acc)。更多研究细节,可参考原论文。


论文 6:UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical ExpressionJiaqi Chen, Tong Li, Jinghui Qin, Pan Lu, Liang Lin, Chongyu Chen and Xiaodan LiangThe 2022 Conference on Empirical Methods in Natural Language Processing


几何题自动求解是一个用于评估深度模型多模态推理能力的基准。然而,在大多数现有的工作中,几何计算题自动求解和几何题自动证明通过会被视作两个不同的任务,并施加不同的标注处理,妨碍了深度模型在不同数学任务进行统一推理的研究进展。从本质上来说,几何计算题和几何证明题目具有相似的问题表达和解题所需的数学知识也有所重叠。因此,通过对几何计算题自动求解和几何题自动两个任务进行统一表示和学习有助于提升深度模型对这两种问题的语义理解和符号推理。


为此,中山大学人机物智能融合实验室团队构建了一个包含了数千道几何题的基准数据集 UniGeo。UniGeo 包括了 4,998 道几何计算题和 9,543 个几何证明题。我们对每个证明题均进行了多步骤证明标注,且这些标注可以很轻易地被转换为可执行的符号程序。而计算题也采用类似的标注,如图 10 所示。经过采用如图 10 所示的方式进行标注后,UniGeo 能很好地以形式化符号语言将几何计算题和几何证明题进行统一的表示。


图 10 UniGeo 数据样例


在利用形式化符号语言对几何计算题和几何证明题进行统一标注后,为了验证这两种题目的统一表示能有效地促进模型对几何计算题和几何证明题的语义理解和符号推理能力,从而实现更高效的计算题求解和证明题证明。中山大学人机物智能融合实验室团队构建了面向几何题求解和证明统一处理的 Geoformer 来同时处理几何计算题和几何证明题,如图 11 所示。


图 11 GeoFormer 示意图


此外,为了习得高效的 Geoformer 实现统一的几何推理,中山大学人机物智能融合实验室团队还进一步地提出数学表达预训练任务,结合 MLM 任务对 Geoformer 进行任务预训练,如图 12 所示。


图 12 数学表达预训练示意图


在实验中,我们在 UniGeo 基准的基础上构建多个基线模型,并对我们提出的 GeoFormer 进行性能对比。实验结果如下表所示。



从实验结果可以看到,我们提出的 GeoFormer 在计算题和证明题两个子数据集上均能获得比基线模型更好的总体性能。类似地,在需要统一求解计算题和证明题的全数据集上 GeoFormer 相比 NGS 和 BERT 基线模型也是更优胜的。而在经过数学表达预训练和 MLM 预训练后,GeoFormer+Pretraining 相比 GeoFormer 会有进一步的性能提升。这些实验结果充分证明了 GeoFormer 的有效性,也说明了对几何计算题和几何证明题进行统一模型推理对于各自的任务来说也是有帮助的。


该工作已被 EMNLP2022 主会收录,更多研究细节,更多细节敬请期待。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
325 73
|
24天前
|
人工智能 运维 Serverless
Serverless GPU:助力 AI 推理加速
近年来,AI 技术发展迅猛,企业纷纷寻求将 AI 能力转化为商业价值,然而,在部署 AI 模型推理服务时,却遭遇成本高昂、弹性不足及运维复杂等挑战。本文将探讨云原生 Serverless GPU 如何从根本上解决这些问题,以实现 AI 技术的高效落地。
|
1月前
|
机器学习/深度学习 数据可视化
KAN干翻MLP,开创神经网络新范式!一个数十年前数学定理,竟被MIT华人学者复活了
【10月更文挑战第12天】MIT华人学者提出了一种基于Kolmogorov-Arnold表示定理的新型神经网络——KAN。与传统MLP不同,KAN将可学习的激活函数放在权重上,使其在表达能力、准确性、可解释性和收敛速度方面表现出显著优势,尤其在处理高维数据时效果更佳。然而,KAN的复杂性也可能带来部署和维护的挑战。论文地址:https://arxiv.org/pdf/2404.19756
42 1
|
18天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置选项,包括CPU+GPU、CPU+FPGA等组合,支持高性能计算需求。本文汇总了阿里云GPU服务器的价格信息,涵盖NVIDIA A10、V100、T4、P4、P100等多款GPU卡,适用于人工智能、机器学习和深度学习等场景。详细价格表和实例规格见文内图表。
|
1月前
|
人工智能 NoSQL 机器人
MongoDB Atlas与YoMio.AI近乎完美适配:推理更快速、查询更灵活、场景更丰富
随着MongoDB的新发布和革新,YoMio.AI的“闪电式发展”值得期待。
|
2月前
|
机器学习/深度学习 人工智能 TensorFlow
神经网络深度剖析:Python带你潜入AI大脑,揭秘智能背后的秘密神经元
【9月更文挑战第12天】在当今科技飞速发展的时代,人工智能(AI)已深入我们的生活,从智能助手到自动驾驶,从医疗诊断到金融分析,其力量无处不在。这一切的核心是神经网络。本文将带领您搭乘Python的航船,深入AI的大脑,揭秘智能背后的秘密神经元。通过构建神经网络模型,我们可以模拟并学习复杂的数据模式。以下是一个使用Python和TensorFlow搭建的基本神经网络示例,用于解决简单的分类问题。
49 10
|
2月前
|
机器学习/深度学习 监控 并行计算
深度学习之生物网络推理
基于深度学习的生物网络推理利用深度学习技术来解析和理解生物网络(如基因调控网络、代谢网络、蛋白质-蛋白质相互作用网络等)的复杂关系和动态行为。
51 5
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的奥秘:深度学习与神经网络
【9月更文挑战第11天】本文将深入探讨人工智能的核心领域——深度学习,以及其背后的神经网络技术。我们将从基础理论出发,逐步深入到实践应用,揭示这一领域的神秘面纱。无论你是AI领域的初学者,还是有一定基础的开发者,都能在这篇文章中获得新的启示和理解。让我们一起踏上这场探索之旅,揭开AI的神秘面纱,体验深度学习的魅力。
|
2月前
|
机器学习/深度学习 人工智能 TensorFlow
深入骨髓的解析:Python中神经网络如何学会‘思考’,解锁AI新纪元
【9月更文挑战第11天】随着科技的发展,人工智能(AI)成为推动社会进步的关键力量,而神经网络作为AI的核心,正以其强大的学习和模式识别能力开启AI新纪元。本文将探讨Python中神经网络的工作原理,并通过示例代码展示其“思考”过程。神经网络模仿生物神经系统,通过加权连接传递信息并优化输出。Python凭借其丰富的科学计算库如TensorFlow和PyTorch,成为神经网络研究的首选语言。
50 1
|
2月前
|
人工智能 自然语言处理 自动驾驶
【通义】AI视界|马斯克亲自辟谣:xAI不可能在特斯拉的推理计算机上运行
本文精选了24小时内的重要科技新闻,包括马斯克辟谣xAI不会运行在特斯拉计算机上、谷歌发布AlphaProteo AI模型、百度贴吧“弱智吧”成为AI训练佳选、荣耀推出跨应用智能体以及苹果即将在iOS 18.2中加入图像生成功能。更多内容请访问通义官网体验。