中山大学HCP Lab团队:AI解题新突破,神经网络推开数学推理大门(三)

简介: 中山大学HCP Lab团队:AI解题新突破,神经网络推开数学推理大门

论文 7:Template-based Contrastive Distillation Pre-training for Math Word Problem Solving

Jinghui Qin*, Zhicheng Yang*, Jiaqi Chen, Xiaodan Liang and Liang Lin


虽然深度学习模型在数学解题领域取得很好的进展,但是这些模型忽视了蕴涵在问题描述中的求解逻辑,而这种解题逻辑往往可以和解题模板(解法)相对应。如图 13 所示,两个不同的应用题均可以对应相同的解法。


图 13 语言描述不同但解法相同的应用题示例


此外,预训练语言模型 (PLM) 包含丰富的知识和拥有高质量语义表示的能力,这对于 MWP 问题的求解会有帮助。


为了充分利用预训练语言模型所包含的丰富知识以及利用求解逻辑来更高效地求解应用题,中山大学人机物智能融合实验室团队提出基于解法模板和预训练语言模型的对比蒸馏预训练方法对求解器中的问题编码器进行领域预训练,如图 14 所示。该方法使用多视角对比学习有效地考虑数学逻辑知识的同时利用知识蒸馏的方式有效地保留了预训练语言模型中的知识和高质量语义表示能力。


具体来说, 我们首先以两道题目之间的解法模板是否一致来作为判定两道题目是否应该在表示空间上互相靠近的标识。然后,我们提出多视角对比学习,从教师编码器以及学生编码器及其对应的 Momentum 编码器进行对比学习,使得两道具有相同解法模板的题目表示在教师表示空间中和学生表示空间中进行互相靠近,从而实现解法逻辑的注入。此外,为了尽可能地保留以预训练语言模型进行初始化的学生编码器中所蕴涵的知识和高质量表示能力,我们使用知识蒸馏,利用教师编码器的特征表示作为监督,约束学生编码器的表示要与已训练好的教师编码器具有相同的表示能力,从而实现语义保持。


图 14 基于解法模板和预训练语言模型的对比蒸馏预训练方法


在实验中,我们使用不同的预训练语言模型作为初始化并验证我们方法的效果。我们分别使用 BERT-base 和 Roberta-base 权重对问题编码器 MathEncoder 进行初始化,并使用 GTS 中的 decoder 作为表达式解码器。我们统称基于 MathEncoder 的求解器为 MathSolver。我们将 MathSolver 与多个方法在 Math23K 和 CM17K 上进行了对比。实验结果如下表所示。


从实验结果可以看到,我们所提出的方法能有效地提升求解器的解题能力,并能在多种不同的预训练语言模型上进行应用。该成果已投稿到 IEEE Transactions on Neural Networks and Learning Systems,更多细节敬请期待。


论文 8:An Introspective Data Augmentation Method for Training Math Word Problem Solvers

Jinghui Qin, Zhongzhan Huang, Ying Zeng, and Liang Lin


近年来,越来越多的研究者开始研究基于深度学习的方法进行数学应用题自动求解,因为数学应用题自动求解能充分展示机器智能的程度。因为标注高质量大规模的 MWP 数据集的代价很高,比如需要相应教育程度的专业知识和大规模可访问的题目数据,所以现有的高质量 MWP 数据集的规模对于训练一个高效的 MWP 解题器是远远不够的。


MWP 的数据瓶颈问题鼓舞我们思考如何使用成本高效的数据增强方法来改进数据利用效率,提升求解器的性能。最直接的数据增强方法就是基于输入的数据增强方法,如常用的字符替换,字符删除等,但是这类方法对于 MWP 来说是不适用的,因为 MWP 具有言简意赅的特点,对输入的文本的扰动或修改容易使得题意模糊。此外,题意所蕴含的数学关系是不能被改变的,但这类方法很可能会改变题意所蕴含的数学关系,如图 15 所示。


图 15  基于输入的数据增强方法不适用于 MWP 任务的示例


此外,中山大学人机物智能融合实验室团队还对基于输入的数据增强方法进行了一定的验证,其实验结果如图 16 所示。实验结果表明了基于输入的显式数据增强方法对于 MWP 任务来说是不适用的,无法有效地缓解 MWP 任务所遇到的数据瓶颈问题。


图 16 基于输入的数据增强方法无法提升 MWP 解题效果


为此,我们提出了一种适用于 MWP 数据的简单高效的数据增强方法 - 自省式数据增强方法(IDAM),在训练过程种对题目在隐空间的表示进行增强,从而解决了基于输入的数据增强方法在 MWP 求解任务上所遇到的问题。IDAM 方法通过对问题的表示编码执行不同的表示构建方法(均值池化、层次化聚合,随机丢弃,随机交换等),得到一个新的问题表示,然后使用一致性目标函数(基于表达式之间的 JS 散度)来约束求解器基于新问题表示的表达式解码输出要和基于原问题表示的表达式解码输出具有一致性。该方法的示意图如图 17 所示。


图 17 自省式数据增强方法(IDAM)示意图


在实验中,我们将 IDAM 嵌入到多个 SOTA 方法里并在多个数据集上进行了对比,验证了我们 IDAM 方法的有效性和通用性。实验结果如下表所示。从实验结果可以看到,在相同的实验配置下,我们的 IDAM 在不同的 MWP 数据集上均能对不同的求解器基线模型的性能进行提升。这充分说明了我们 IDAM 方法在 MWP 问题上的有效性。


该成果已投稿到 IEEE/ACM Transactions on Audio, Speech and Language Processing,更多细节敬请期待。

实验室简介

中山大学人机物智能融合实验室(HCP Lab)由林倞教授于2010年创办,围绕人工智能前沿技术布局研究课题,获得中国图像图形学会科技一等奖、吴文俊自然科学奖、省级自然科学一等奖等荣誉;培养了梁小丹、王可泽等国家级青年人才。


参考文献

[1] Qin J, Lin L, Liang X, et al. Semantically-Aligned Universal Tree-Structured Solver for Math Word Problems[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020: 3780-3789.[2] Qin J, Liang X, Hong Y, et al. Neural-Symbolic Solver for Math Word Problems with Auxiliary Tasks[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). 2021: 5870-5881.[3] Chen J, Tang J, Qin J, et al. GeoQA: A Geometric Question Answering Benchmark Towards Multimodal Numerical Reasoning[C]//Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. 2021: 513-523.[4] Yang Z, Qin J, Chen J, et al. Unbiased Math Word Problems Benchmark for Mitigating Solving Bias[J]. arXiv preprint arXiv:2205.08108, 2022.[5] Yang Z, Qin J, Chen J, et al. LogicSolver: Towards Interpretable Math Word Problem Solving with Logical Prompt-enhanced Learning[J]. arXiv preprint arXiv:2205.08232, 2022.

相关文章
|
6月前
|
存储 机器学习/深度学习 算法
​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
本文深度解析FlashAttention与PagedAttention两大LLM推理优化技术:前者通过分块计算提升注意力效率,后者借助分页管理降低KV Cache内存开销。二者分别从计算与内存维度突破性能瓶颈,显著提升大模型推理速度与吞吐量,是当前高效LLM系统的核心基石。建议收藏细读。
1127 125
|
7月前
|
机器学习/深度学习 人工智能 算法
AI 基础知识从 0.6 到 0.7—— 彻底拆解深度神经网络训练的五大核心步骤
本文以一个经典的PyTorch手写数字识别代码示例为引子,深入剖析了简洁代码背后隐藏的深度神经网络(DNN)训练全过程。
1154 56
|
5月前
|
人工智能 缓存 并行计算
用数学重构 AI的设想:流形注意力 + 自然梯度优化的最小可行落地
本文提出两个数学驱动的AI模块:流形感知注意力(D-Attention)与自然梯度优化器(NGD-Opt)。前者基于热核偏置,在局部邻域引入流形结构,降低计算开销;后者在黎曼流形上进行二阶优化,仅对线性层低频更新前置条件。二者均提供可复现代码与验证路径,兼顾性能与工程可行性,助力几何感知的模型设计与训练。
450 1
|
5月前
|
存储 人工智能 安全
《Confidential MaaS 技术指南》发布,从 0 到 1 构建可验证 AI 推理环境
Confidential MaaS 将从前沿探索逐步成为 AI 服务的安全标准配置。
|
6月前
|
存储 人工智能 NoSQL
用Context Offloading解决AI Agent上下文污染,提升推理准确性
上下文工程是将AI所需信息(如指令、数据、工具等)动态整合到模型输入中,以提升其表现。本文探讨了“上下文污染”问题,并提出“上下文卸载”策略,通过LangGraph实现,有效缓解长文本处理中的信息干扰与模型幻觉,提升AI代理的决策准确性与稳定性。
722 2
用Context Offloading解决AI Agent上下文污染,提升推理准确性
|
6月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
351 10
|
6月前
|
人工智能
AI推理方法演进:Chain-of-Thought、Tree-of-Thought与Graph-of-Thought技术对比分析
大语言模型推理能力不断提升,从早期的规模扩展转向方法创新。2022年Google提出Chain-of-Thought(CoT),通过展示推理过程显著提升模型表现。随后,Tree-of-Thought(ToT)和Graph-of-Thought(GoT)相继出现,推理结构由线性链条演进为树状分支,最终发展为支持多节点连接的图网络。CoT成本低但易错传,ToT支持多路径探索与回溯,GoT则实现非线性、多维推理,适合复杂任务。三者在计算成本与推理能力上形成递进关系,推动AI推理向更接近人类思维的方向发展。
415 4
|
6月前
|
人工智能 监控 数据可视化
如何破解AI推理延迟难题:构建敏捷多云算力网络
本文探讨了AI企业在突破算力瓶颈后,如何构建高效、稳定的网络架构以支撑AI产品化落地。文章分析了典型AI IT架构的四个层次——流量接入层、调度决策层、推理服务层和训练算力层,并深入解析了AI架构对网络提出的三大核心挑战:跨云互联、逻辑隔离与业务识别、网络可视化与QoS控制。最终提出了一站式网络解决方案,助力AI企业实现多云调度、业务融合承载与精细化流量管理,推动AI服务高效、稳定交付。

热门文章

最新文章