DeepSeek开源数学大模型,高中、大学定理证明新SOTA

简介: 【9月更文挑战第11天】DeepSeek团队近日发布了开源数学大模型DeepSeek-Prover-V1.5,在高中和大学级别的定理证明任务上取得SOTA成果。该模型基于语言模型,通过优化训练和推理流程,在多个基准测试集中表现优异。它引入了RMaxTS变体以生成多样化证明路径,并结合大规模数学预训练、在线强化学习等技术,显著提升了性能。尽管如此,该模型在更复杂问题及计算资源需求方面仍面临挑战。[报告链接](https://arxiv.org/pdf/2408.08152)。

DeepSeek团队近日发布了一款名为DeepSeek-Prover-V1.5的开源数学大模型,该模型在高中和大学级别的定理证明任务上取得了新的SOTA(State of The Art)成果。

DeepSeek-Prover-V1.5是一个基于语言模型的定理证明器,旨在解决形式化数学中的定理证明问题。它通过优化训练和推理过程,在DeepSeek-Prover-V1的基础上进行了改进。该模型在DeepSeekMath-Base上进行了预训练,并使用增强的形式化定理证明数据集进行了监督微调。此外,它还通过强化学习从证明助手反馈(RLPAF)中进行了进一步的优化。

DeepSeek-Prover-V1.5引入了一种名为RMaxTS的Monte-Carlo树搜索变体,该变体采用内在奖励驱动的探索策略来生成多样化的证明路径。与DeepSeek-Prover-V1相比,DeepSeek-Prover-V1.5在高中级别的miniF2F基准测试集上取得了63.5%的通过率,在大学级别的ProofNet基准测试集上取得了25.3%的通过率,显著提高了性能。

DeepSeek-Prover-V1.5的成功得益于其综合的框架,该框架结合了大规模的数学预训练、形式化数学语料库的构建和增强、基于证明助手反馈的在线强化学习以及用于定理证明的树搜索方法。该模型的预训练版本、监督微调版本和强化学习版本,以及Monte-Carlo树搜索算法的代码,都已公开发布,供进一步研究和应用。

然而,DeepSeek-Prover-V1.5也存在一些局限性。首先,尽管它在高中和大学级别的定理证明任务上取得了显著的成果,但在更复杂的数学问题上,如研究生级别的定理证明,其性能可能受到限制。其次,DeepSeek-Prover-V1.5的训练和推理过程可能需要大量的计算资源和时间,这可能限制了它的实际应用。

报告链接:https://arxiv.org/pdf/2408.08152

目录
相关文章
|
5月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
474 2
|
6月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
576 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
5月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
1675 2
|
6月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
699 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
5月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
2301 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
6月前
智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!
视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
931 0
|
6月前
|
编解码 算法 测试技术
MiniCPM-V4.0开源,多模态能力进化,手机可用,还有最全CookBook!
今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,官方也正式开源了 推理部署工具 MiniCPM-V CookBook,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。
919 0
|
6月前
|
人工智能 算法 测试技术
轻量高效,8B 性能强劲书生科学多模态模型Intern-S1-mini开源
继 7 月 26 日开源『书生』科学多模态大模型 Intern-S1 之后,上海人工智能实验室(上海AI实验室)在8月23日推出了轻量化版本 Intern-S1-mini。
877 50

热门文章

最新文章