推理模型的“年终考试”,谁是国内目前最好的“o1”?

简介: 我们设计了一场“年终考试”,邀请了OpenAI的o1、通义千问QwQ、deepseek的R1、Kimi的K1和智谱的GLM-Zero参与。考试涵盖数学单选题、多选题、计算题、编程题、逻辑推理题和海龟汤问题,模拟日常生活中的应用场景。通过对比各模型的表现,发现它们在速度、准确性和推理过程上各有优劣。- **o1**:推理速度快且正确率高。- **QwQ**:表现中规中矩。- **deepseek R1**:数学和编程能力突出。- **Kimi K1**:自我反思能力强,逻辑自洽性佳。- **GLM-Zero**:综合表现优异,尤其在数学和编程方面不输o1,是国内目前最好的推理模型

4290da16c2266cc940b2fcf237e5b0968ecf8b8a5e45533a13dbafcabde5c2af.png

笛卡尔说:“我思,故我在。”

思考是文明存在的根本,是人类探索未知的永恒追求,现在也成了大模型技术演进的一个重要方向。

自OpenAI在9月中旬悄然发布o1模型后,一系列推理模型陆续开放测试。比如通义千问的QwQ、deepseek的R1、Kimi的K1以及智谱刚刚发布的GLM-Zero的初代版本GLM-Zero-Preview(智谱清言同步上线了智能体“Zero推理模型”)。

正好到了年末,我们萌生了举办一场推理模型“年终考试”的想法。

在“考试”正式开始前,先来简单科普下推理模型的特点:相较于基座模型,推理模型在回答问题前会像人类一样进行更长时间的“思考”,不断验证和纠错,更擅长编程、数学、科学等任务。

所以,这是一场面向“理科生”的考试。

需要说明的是,我们没有使用AIME2024、MATH500等专业的数据集,也无意对各个推理模型进行专业测评和排名,仅适用于多数人在日常生活中可能遇到的问题。

譬如给孩子辅导作业、应付面试时的“奇葩问题”、和朋友一起玩剧本杀时的推理游戏等等,和大家一起探索各个推理模型的“长项”和“短板”。

考试规则

一共有六道考题,分别用高三数学的单选题、多选题和计算题测试模型的数学计算能力,用一道常见的编程题目测试模型的编程能力,用一道逻辑问题和一道海龟汤问题测试模型的推理能力。

分数评定分为三个维度,最终根据推理结果(占比60%)、推理过程(占比25%)、推理时间(占比15%)加权平均。考虑到单次测试存在的不确定性,满分为100分,兜底分数为60分(即使做错了也有60分)。

考生名单:OpenAI o1、通义千问QwQ-32B-preview、deepseek深度思考(R1)、Kimi视觉思考版(K1)和智谱GLM-Zero。

下面,考试正式开始。

第一题:单选题

11.png

考虑到不少人曾经拿高考真题测试,为了防止可能的“作弊”行为,我们从《2024届浙江省镇海中学高三下学期期中数学试题》筛选了一道单选题目进行测试。(难度的话,至少本科毕业十年的我们是不会做的。)

鉴于测试的过程比较无趣,我们把5个模型的测试录屏放在了视频中,感兴趣的小伙伴可以点击观看,也可以直接查看最终的“考试”结果。

第一题成绩揭晓

单选题得分.png

五个推理模型均给出了正确答案。

其中o1模型的推理速度是最快的,推理过程简单高效,直接给出了计算过程和结果;可能是刚上线的缘故,GLM-Zero的推理速度相对慢一些,但推理过程是最符合人类思维的(在思维链中可以清晰地看到自我反思和优化、将复杂问题分解,并尝试用不同方法解决问题),可以作为解题的参考答案。另外三个模型的推理速度比o1稍慢,但在结果和推理过程上可以和o1媲美。

第二题:多选题

22.png

题目来源和单选题一样,难度有所增加,更考验模型处理复杂问题的能力,以及思考的方式和过程。(PS:我们在考前进行过类似题目的测试,部分模型每次都只给一个答案,所以在正式考试时特意给了多选题的提示。)

第二题成绩揭晓

多选题得分.png

五个推理模型中,只有三个模型给出了正确答案。

o1、GLM-Zero和QwQ回答正确,Kimi视觉思考版只给出了一个正确选项,deepseek深度思考的回答是“没有正确答案”(排除了图像识别问题)。在三个回答正确的模型中,GLM-Zero和QwQ表现出了不俗的归纳与演绎能力,提供了详细的解题过程,并通过反思进行多次验证,而且GLM-Zero的推理速度比上一题提升了不少。o1没有显示思考过程,直接给出了答案。

第三题:计算题

如果一个城市中 95%的人打了疫苗,而疫苗保护率是 90%,病毒传播率是5%,未接种者感染率是 50%,计算城市中总感染率。

这是一道AI拟定的题目,因为表述有点“模糊不清”,但又不乏逻辑自洽,审题不仔细的话,很可能给出错误答案。(毕竟我们当年就在高考试卷上吃过“马虎”亏,也要让AI尝尝什么叫审题要认真!!!!)

第三题成绩揭晓

计算题得分.png

和预料的一样,有两个模型“翻了车”。

这道题不仅仅计算,还考验模型的思考过程,能否识别中题目中的逻辑漏洞,找到最合理的假设。GLM-Zero在速度上“逆袭”了,整体表现比o1的表现还要优秀。deepseek深度思考的推理过程看起来最完善,考虑到了多种可能,最终给到的是最合理的答案。Kimi和QwQ也考虑了多种可能,但在逻辑漏洞的理解上出现了偏差,最终沿着错误的方向进行计算,导致计算结果错误。

第四题:编程题

写一个程序,将一个字符串中的所有单词翻转(例如输入:“Hello World”,输出:“World Hello”)。

由于我们不是程序员,对代码的认知停留在了大一的C语言入门阶段,所以选择的编程题目比较基础,主要考验代码的合理性和可用性。(如果你是程序员的话,希望进行更深度的测试,并将结果同步给我们。)

第四题成绩揭晓

编程题得分.png

五个推理模型都达到了及格分。

其中GLM-Zero和Kimi的代码解释最为详细,虽然程序很简单,依然进行了逐行解释,对新手程序员非常友好。o1模型照旧简单高效,deepseek给出了两种不同的实现方式,且均测试有效。就推理速度来看,GLM-Zero考虑到了更复杂的测试情形,反复推理验证,导致耗时比其他模型长了不少。

第五题:推理题

一个房间里有三个开关,分别对应三个灯泡,你只能进入房间一次,如何确定哪个开关对应哪个灯泡?

据传是微软的面试题,主要考验面试者的逻辑思维和判断能力,推理模型能否通过微软的面试呢?(本来打算用“牛过桥”的问题,据说是华为的面试题,考虑到逻辑性和答案的一致性,最终还是选择了灯泡问题。)

第五题成绩揭晓

推理题得分.png

也许是问题过于“经典”,五个模型均顺利过关。

其实也意味着,五个模型在推理上都有着不错的能力。就细节上来看,Kimi“不小心”出现了格式混乱,GLM-Zero和o1都在极短时间里给出了合理的推理过程和正确答案。之所以在得分上有差距,原因是deepseek和QwQ都特意补充“确保灯泡是白炽灯”,弥补了题目本身的缺陷,在逻辑上更加合理。

第六题:海龟汤题

一名男子在弹钢琴时,突然一根弦断了,他立即停止弹奏并开始哭泣。这是为什么?

海龟汤问题的答案通常是开放的,涉及不同领域的知识,模型需要对语言细节进行精确理解,并在回答中清晰地表达推理过程。同时需要从表面信息推导出隐藏的逻辑,要求模型能够分析隐含的信息并进行深度推理。

第六题成绩揭晓

海龟汤题得分.png

海龟汤题没有标准答案,主要考的是推理结果的合理性。

o1模型终于“翻车”了,将问题理解为了“脑筋急转弯”,而且推理几乎没有逻辑;deepseek陷入了思考死循环,等待了4分多钟后,我们被迫停止了测试;kimi、GLM-Zero和QwQ的表现不相上下,只是Kimi再次出现了格式混乱。遗憾的是,作为“理科生”的推理模型,都没有进行富有创造性的故事描述。

考试小结

我们按照文初提到的考试规则,进行了平均分的计算,考虑到单次测试的偶发性(比如将多选题拆解为单选题,进一步测试两个“翻车”的模型,最终都给出了正确答案),可以说各个推理模型并未拉开太大的差距,并没有陷入同质化,而是各有所长。

WX20241231-120231@2x.png

o1模型胜在推理速度和推理正确率;QwQ-32B-preview的表现中规中矩;deepseek深度思考在数学计算和编程方面表现优秀;Kimi视觉思考版“自我反思”能力强,在发散问题上的逻辑自洽性最佳;GLM-Zero在数学计算、编程和推理上的综合表现不输o1,可以说是目前国内最好的推理模型。

不过,Open AI已经发布了o3模型,整体性能比o1提升了20%,国内的几个推理模型仍然有很大的提升空间。其中智谱已经公开表态将持续优化迭代强化学习技术,并将推出正式版的GLM-Zero,将深度思考的能力从数理逻辑扩展到更多更通用的技术。

写在最后

正如OpenAI的介绍o1模型的博客文章里所提到的:“我们通往AGI的路上,已经没有任何阻碍。”

推理模型不仅能够模仿人类思维,还能跨越知识领域,将信息整合并生成新的知识,这正是AGI实现通用性的基础。

相较于我们的“单题测试“,推理模型在产业中落地的可能更大。比如在金融、医疗、法律等决策过程常涉及多变量权衡的领域,推理模型可以分析大量数据、找出相关性,并提供优化的解决方案。

以医疗场景为例,基于推理的诊断模型可以帮助医生快速排查可能病因并建议治疗方案,从而提高诊断效率;再比如智谱在AutoGLM上示范的人机协作场景,推理模型能够更好地理解人类的意图、预测需求、并主动提出建议,将进一步提升Agent的能力,帮助用户解决更多类型的问题。

可以预见,2024年是大模型落地应用的元年,在推理模型的赋能下,2025年将是AI进一步提质增效的一年。

相关文章
|
10月前
|
自然语言处理 监控 搜索推荐
如何通过电商 API 接口实现智能客服与用户互动?
随着电子商务的发展,企业对客户服务的需求激增。传统人工客服在高峰期难以应对大量咨询,导致效率低下和客户满意度下降。为此,越来越多的电商企业采用智能客服系统,通过电商API接口实现高效互动。本文探讨了如何利用电商API接口构建智能客服系统,介绍其技术组成、作用及实现策略,包括多渠道接入、优化交互界面、强化自然语言处理能力、个性化服务、提升自动化水平和监控分析等。同时,也讨论了面临的挑战与解决方案,强调统一API标准、加强数据安全和持续技术投入的重要性。最终,智能客服将为企业带来更高的服务效率和用户体验。
940 3
|
6月前
|
人工智能 自然语言处理 测试技术
能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息
Dream-7B是由香港大学与华为诺亚方舟实验室联合研发的开源扩散大语言模型,采用独特的掩码扩散范式,在文本生成、数学推理和代码编写等任务中展现出卓越性能。
300 3
能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息
|
10月前
|
传感器 监控 前端开发
产品经理-面试自我介绍
面试自我介绍主要包括个人基本信息、教育经历和工作经历。工作经历按时间倒序描述,重点介绍最近的工作内容与项目经验。例如:我叫小宋,毕业于浙江大学,12年B端产品经验,涉及智慧城市、智慧医疗等项目。项目经历中需说明角色、解决问题的能力及团队结构,如智慧城市项目的智能交通管理和能源管理等模块的规划与实施。成功的产品应符合公司商业价值并满足用户核心诉求。
|
10月前
|
机器学习/深度学习 人工智能 JSON
【实战干货】AI大模型工程应用于车联网场景的实战总结
本文介绍了图像生成技术在AIGC领域的发展历程、关键技术和当前趋势,以及这些技术如何应用于新能源汽车行业的车联网服务中。
1031 94
|
10月前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
3903 101
|
10月前
|
机器学习/深度学习 人工智能 安全
通义视觉推理大模型QVQ-72B-preview重磅上线
Qwen团队推出了新成员QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如MMMU、MathVista和MathVision上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。
2047 51
|
11月前
|
人工智能 JSON 算法
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式、 AI Native 的大模型与 AIGC 工程平台,为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例,详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
|
开发者 人工智能 消息中间件
|
10月前
|
机器学习/深度学习 人工智能 搜索推荐
底层技术大揭秘!AI智能导购如何重塑购物体验
双十一期间,淘宝内测AI助手“淘宝问问”,基于阿里通义大模型,旨在提升用户在淘宝上的商品搜索和推荐效率。该助手通过品牌推荐、兴趣商品推荐和关联问题三大板块,提供个性化购物体验。其背后采用多智能体架构,包括规划助理和商品导购助理,通过对话历史和用户输入,实现精准商品推荐。此外,文章还介绍了如何快速部署此解决方案,并探讨了其对现代购物体验的影响。
|
10月前
|
敏捷开发 存储 数据可视化
哪些办公软件适合游戏策划进行春节版本内容策划?
春节是游戏行业的竞争高峰期,游戏公司需精心策划活动以吸引玩家。为此,高效的团队协作办公软件至关重要。本文介绍了6款可视化协作工具:板栗看板、Trello、Asana、Miro、Jira和Confluence。板栗看板凭借丰富的模板、任务关联和实时协作功能脱颖而出;Trello简洁易用且插件丰富;Asana提供精细的任务管理和多视图展示;Miro的无限画布激发创意;Jira支持敏捷开发和问题追踪;Confluence则助力知识沉淀和信息整合。这些工具各具特色,帮助策划人员高效推进春节活动,确保项目顺利上线并取得成功。
149 5