DeepSeek开源数学大模型,高中、大学定理证明新SOTA

简介: 【9月更文挑战第11天】DeepSeek团队近日发布了开源数学大模型DeepSeek-Prover-V1.5,在高中和大学级别的定理证明任务上取得SOTA成果。该模型基于语言模型,通过优化训练和推理流程,在多个基准测试集中表现优异。它引入了RMaxTS变体以生成多样化证明路径,并结合大规模数学预训练、在线强化学习等技术,显著提升了性能。尽管如此,该模型在更复杂问题及计算资源需求方面仍面临挑战。[报告链接](https://arxiv.org/pdf/2408.08152)。

DeepSeek团队近日发布了一款名为DeepSeek-Prover-V1.5的开源数学大模型,该模型在高中和大学级别的定理证明任务上取得了新的SOTA(State of The Art)成果。

DeepSeek-Prover-V1.5是一个基于语言模型的定理证明器,旨在解决形式化数学中的定理证明问题。它通过优化训练和推理过程,在DeepSeek-Prover-V1的基础上进行了改进。该模型在DeepSeekMath-Base上进行了预训练,并使用增强的形式化定理证明数据集进行了监督微调。此外,它还通过强化学习从证明助手反馈(RLPAF)中进行了进一步的优化。

DeepSeek-Prover-V1.5引入了一种名为RMaxTS的Monte-Carlo树搜索变体,该变体采用内在奖励驱动的探索策略来生成多样化的证明路径。与DeepSeek-Prover-V1相比,DeepSeek-Prover-V1.5在高中级别的miniF2F基准测试集上取得了63.5%的通过率,在大学级别的ProofNet基准测试集上取得了25.3%的通过率,显著提高了性能。

DeepSeek-Prover-V1.5的成功得益于其综合的框架,该框架结合了大规模的数学预训练、形式化数学语料库的构建和增强、基于证明助手反馈的在线强化学习以及用于定理证明的树搜索方法。该模型的预训练版本、监督微调版本和强化学习版本,以及Monte-Carlo树搜索算法的代码,都已公开发布,供进一步研究和应用。

然而,DeepSeek-Prover-V1.5也存在一些局限性。首先,尽管它在高中和大学级别的定理证明任务上取得了显著的成果,但在更复杂的数学问题上,如研究生级别的定理证明,其性能可能受到限制。其次,DeepSeek-Prover-V1.5的训练和推理过程可能需要大量的计算资源和时间,这可能限制了它的实际应用。

报告链接:https://arxiv.org/pdf/2408.08152

目录
相关文章
|
1月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
198 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
14天前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
175 2
|
1月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
296 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
1月前
智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!
视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
365 0
|
1月前
|
编解码 算法 测试技术
MiniCPM-V4.0开源,多模态能力进化,手机可用,还有最全CookBook!
今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,官方也正式开源了 推理部署工具 MiniCPM-V CookBook,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。
285 0
|
5天前
|
人工智能 IDE 开发工具
CodeGPT AI代码狂潮来袭!个人完全免费使用谷歌Gemini大模型 超越DeepSeek几乎是地表最强
CodeGPT是一款基于AI的编程辅助插件,支持代码生成、优化、错误分析和单元测试,兼容多种大模型如Gemini 2.0和Qwen2.5 Coder。免费开放,适配PyCharm等IDE,助力开发者提升效率,新手友好,老手提效利器。(238字)
62 1
CodeGPT AI代码狂潮来袭!个人完全免费使用谷歌Gemini大模型 超越DeepSeek几乎是地表最强
|
7天前
|
机器学习/深度学习 人工智能 前端开发
通义DeepResearch全面开源!同步分享可落地的高阶Agent构建方法论
通义研究团队开源发布通义 DeepResearch —— 首个在性能上可与 OpenAI DeepResearch 相媲美、并在多项权威基准测试中取得领先表现的全开源 Web Agent。
993 26
|
8天前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
308 1
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
28天前
|
编解码 自然语言处理
通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作
今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。
382 29
|
1月前
|
数据采集 人工智能 定位技术
分享一个开源的MCP工具使用的AI Agent 支持常用的AI搜索/地图/金融/浏览器等工具
介绍一个开源可用的 MCP Tool Use 通用工具使用的 AI Agent (GitHub: https://github.com/AI-Agent-Hub/mcp-marketplace ,Web App https://agent.deepnlp.org/agent/mcp_tool_use,支持大模型从Open MCP Marketplace (http://deepnlp.org/store/ai-agent/mcp-server) 的1w+ 的 MCP Server的描述和 Tool Schema 里面,根据用户问题 query 和 工具 Tool描述的 相关性,选择出来可以满足

热门文章

最新文章