全网最全的GPT-5测评文章!1.8万字详细实战测评!国内直接使用!

简介: OpenAI 发布了期待已久的 GPT-5,其在数学、编程、视觉理解和健康等领域表现卓越,推理能力媲美 Gemini 2.5 Pro,代码能力媲美 Claude 4。GPT-5 与 GPT-5-thinking 双模型协同工作,带来更高效体验。国内用户可通过指定平台直接访问,提供免费授权码体验。



零、前言

8月8号凌晨,OpenAI 发布了全世界期待以久的 GPT-5        。

23年3月15日,GPT-4发布。震惊全世界。

时隔2年半 GPT-5王者归来。

虚竹哥没有第一时间更文,我有更重要的使命要做 :让国内的小伙伴们能第一时间真真正正体验使用到GPT-5 最新版本。

虚竹哥AI平台已经集成了 GPT-5GPT-5-thinking ,今天跟虚竹哥一起来测评下。

一、操作指南

操作指导

AI 平台国内直接访问地址:https://sass.xiaoxuzhu.cn/

输入授权码即可。

提供了两种模式:

  • 一种是官网版本GPT-5
  • 另一种是官网的GPT-5 API模式

二、GPT-5 发布官宣

除了真实使用感受和各种跑分测试,在用户自己投票的大模型比拼中,GPT-5也拿下了总分和各个单项的第一名。

OpenAI公开的测试数据显示,GPT-5在数学、编程、视觉理解和健康等方面的表现都比前代强很多,是目前最强的模型。

在健康领域,OpenAI用HealthBench评估体系对GPT-5家族做了全面测试,包括HealthBench、HealthBench Hard和HealthBench Consensus等多个项目,并和之前的模型做了对比。

结果表明,GPT-5-thinking在健康领域全面碾压所有前代模型,包括GPT-4o、o1、o3和o4-mini。尤其是在难度最高的HealthBench Hard测试中,它的得分从o3的31.6%提升到46.2%,创下了目前的最佳成绩。

在数学方面,GPT-5在2025年美国AIME测试中,无工具答题得分94.6%,用Python提升到99.6%,如果是Pro专业版配合Python则能拿到满分100%,成绩也远超o3模型。

在SWE-bench软件测试中,GPT-5开启思考模式后得分74.9%,高于o3的69.1%和4o的30.8%,成为目前最强的编程模型。

三、GPT-5 家族

GPT-5是一个统一系统,里面有两个核心模型:一个是负责处理大部分问题的智能高速模型(gpt-5-main),另一个是专门解决高难度问题的深度推理模型(gpt-5-thinking)。

系统会用一个实时路由器,根据对话的类型、难度和用户意图自动决定用哪个模型。比如,你在提示里说“认真思考这个”,它就会调用gpt-5-thinking来处理。

这个路由器会不断学习我们的使用习惯,包括用户切换模型的情况、对回答的喜好和准确率的统计,从而持续优化选择策略。

除了主力模型外,系统还配备了应对高峰期的迷你版(gpt-5-main-mini 和 gpt-5-thinking-mini),以及给开发者用的更小更快版本(gpt-5-thinking-nano)。另外,Pro会员还能用支持并行计算的加强版——gpt-5-thinking-pro。

值得一说的是:o3和o4-mini,GPT-4.5 都下架了。

四、皆大欢喜 的价格

免费用户也能用GPT-5,但每天有次数限制。

Plus用户(每月20美元)拥有比免费用户多得多的使用额度,基本能满足日常需求。

Pro会员(每月200美元)可以使用 GPT-5 Pro版本,这个版本有更强的推理能力,能提供更全面、更精准的回答。

API用户的价格也非常有吸引力——输入每百万token只要1.25美元,输出每百万token为10美元。

这个价格比一直以“低价”著称的Gemini 2.5 Pro都更便宜。

五、实战:测评代码能力

俄罗斯方块

暂时无法在飞书文档外展示此内容

GPT-5

输入

输出


效果

GPT-5 生成效果实现非常好。而且是一次性生成,没有产生bug。

GPT-5-thinking

输入

输出


效果

第一次没成功,重新生成了第二次,才成功了。 GPT-5-thinking 生成的效果也非常好,界面漂亮。功能齐全。 有点缺陷是得分有问题。

小球旋转

暂时无法在飞书文档外展示此内容

GPT-5

输入

输出


效果

大部分效果非常好。 GPT-5 初始化时生成的小球,落在六边形时,有一小部分跑出去了。这是缺陷。

GPT-5-thinking

输入

输出


效果

GPT-5-thinking 生成的效果非常好,而且功能齐全,还有可调参数。 而且生成一次就成功了。

水桶模拟器

暂时无法在飞书文档外展示此内容

GPT-5

输入

输出


效果

GPT-5 这回是失败了。

GPT-5-thinking

输入

输出


效果

GPT-5-thinking 这次生成的 水桶模拟器 太惊艳了。比 claude4 和 gemini2.5pro效果还好。

小结

GPT-5 非常好地完成了俄罗斯方块开发; GPT-5-thinking 非常好地完成了 小球旋转 和 水桶模拟器。

GPT-5 + GPT-5-thinking 搭配使用,代码能力已经追上了 claude4 和 gemini2.5pro 。重大突破啊。

六、实战:测评推理能力

推理:过河

暂时无法在飞书文档外展示此内容

答案是:能。 解释是:这两个人一开始分别在河的两岸。 过程如下: 假设A在河的左岸,B在河的右岸,船在左岸。 A划船到右岸。 B划船到左岸。 这样,两个人都成功到达了河的对岸(相对于他们自己原来的位置)。

GPT-5

GPT-5 8s就得出答案,可以。答案正确。

GPT-5-thinking

GPT-5-thinking 反而答错了。。

推理:校长室的玻璃谁砸的

暂时无法在飞书文档外展示此内容

答案是:肇事者是 丙

GPT-5

GPT-5 又答对了。。

GPT-5-thinking

GPT-5-thinking 再一次答错了??

推理:谁养鱼?

暂时无法在飞书文档外展示此内容

答案是:德国人养鱼

GPT-5

牛逼啊! GPT-5 yyds! 又答对了。

GPT-5-thinking

GPT-5-thinking 终于答对一题了。

小结

GPT-5 的推理能力,居然已经追上了 gemini2.5pro !超过了 claude4!

奇怪的是 从版本命名来说, GPT-5-thinking的推理能力应该超过 GPT-5 才对。。

结果确是推理能力:GPT-5>GPT-5-thinking

推理能力: gemini2.5pro =GPT-5 >claude4 >GPT-5-thinking

七、实战:测评数学能力

2025新高考一卷-数学真题(选择题)

全程是没有开联网的状态下,这样测评才公平!

先上题目和答案。

上传截图

暂时无法在飞书文档外展示此内容

GPT-5

GPT-5 答对了。

GPT-5-thinking

GPT-5-thinking 也答对了。

2025新高考一卷-数学真题(填空题)

全程是没有开联网的状态下,这样测评才公平!

先上题目和答案。

上传题目图片

暂时无法在飞书文档外展示此内容

GPT-5


GPT-5 答对了。

GPT-5-thinking


GPT-5-thinking 也答对了。

2025新高考一卷-数学真题(解答题-简单)

全程是没有开联网的状态下,这样测评才公平!

先上题目和答案。

上传题目图片

暂时无法在飞书文档外展示此内容

如果发现图片识别不准确,可以先用4o把内容识别出来,再问。

暂时无法在飞书文档外展示此内容

暂时无法在飞书文档外展示此内容

GPT-5


GPT-5 答对了。

GPT-5-thinking




GPT-5-thinking 也答对了。

2025新高考一卷-数学真题(解答题-复杂)

全程是没有开联网的状态下,这样测评才公平!

先上题目和答案。最后一题大题。


上传题目图片

暂时无法在飞书文档外展示此内容

如果发现图片识别不准确,可以先用4o把内容识别出来,再问。

暂时无法在飞书文档外展示此内容

暂时无法在飞书文档外展示此内容

GPT-5



GPT-5 三个小题的答案都答对了。

GPT-5 牛逼!

GPT-5-thinking





GPT-5-thinking 三个小题的答案都答对了。

GPT-5-thinking牛逼!

小结

GPT-5-thinking 和GPT-5 在 2025新高考一卷-数学真题 选择题,填空题,解答题(简单),解答题(复杂)全部答对了。太牛了!

数学解题能力:gemini2.5pro =GPT-5 =GPT-5-thinking > claude4

八、实战:测评物理能力

2025北京卷-物理真题(选择题)

全程是没有开联网的状态下,这样测评才公平!

先上题目和答案。

上传截图

暂时无法在飞书文档外展示此内容

如果发现图片识别不准确,可以先用4o把内容识别出来,再问。

暂时无法在飞书文档外展示此内容

暂时无法在飞书文档外展示此内容

GPT-5


GPT-5 回答正确。

GPT-5-thinking


GPT-5-thinking 回答正确。

2025北京卷-物理真题(大题)

全程是没有开联网的状态下,这样测评才公平!

先上题目和答案。


上传题目图片

暂时无法在飞书文档外展示此内容

如果发现图片识别不准确,可以先用4o把内容识别出来,再问。

暂时无法在飞书文档外展示此内容

暂时无法在飞书文档外展示此内容

GPT-5



GPT-5 回答正确。

GPT-5-thinking



GPT-5-thinking 回答正确。

小结

GPT-5-thinking 和 GPT-5 挑战了2025年的高考物理真题。测试结果令人震撼:在无联网的公平对决下,模型均完美地解答了所有选择题和计算大题,展现出堪比人类物理学硕士的严谨逻辑与推理能力,最终平分秋色。

物理解题能力 : GPT-5-thinking 和 GPT-5 已经追上了 claude 4和 gemini2.5pro。

九、实战:写作能力

写作文

2025年 全国一卷

暂时无法在飞书文档外展示此内容

GPT-5




GPT-5-thinking



写故事

暂时无法在飞书文档外展示此内容

GPT-5



GPT-5-thinking


写段子

暂时无法在飞书文档外展示此内容

GPT-5

GPT-5-thinking

角色扮演,指定场景写作

你是一位久负盛名的小说家,文字极富感染力,风格细腻,善于挖掘和表达复杂的情绪与心理。现在,给你一个场景: 夜晚十一点半,你独自坐在一列开往远方的小城的绿皮火车上,车厢内昏暗的灯光时明时灭,窗外掠过荒凉的村庄、星星点点的灯火、偶尔传来的犬吠,车厢内空气沉闷、混杂着烟草与泡面的味道。你对目的地怀着某种难言的情绪,夹杂着期待、犹豫、忐忑甚至是恐惧。 请你使用第一人称,以细腻且富有感染力的文字,深入描写你此刻的内心活动和车厢内外的细节,尤其要注重细节密度、情绪层次和氛围营造,不少于500字。

GPT-5

GPT-5-thinking

小结

通过四个核心测评案例,系统性地考察了 GPT-5 和 GPT-5-thinking模型在不同文本创作场景下的关键能力:

  • 高考作文 (逻辑与宏大叙事能力):此项任务旨在评测模型在规范性、高压力命题下的逻辑思辨、观点提炼与宏大叙事构建能力。它不只是考察文笔,更是对其知识边界、价值观和严谨论证能力的“压力测试”。
  • 故事新编 (创意与共情能力):此任务要求模型挣脱“主角光环”,代入被忽略的“小人物”视角。这极好地评测了其叙事创造力、共情能力以及颠覆传统文本的解构与重构技巧,是衡量其是否具备真正“灵性”的关键指标。
  • 段子模仿 (风格捕捉与幽默感):以模仿李诞风格为题,这是一个精准的“图灵测试”。它评测的是模型对特定语言风格、节奏感、内在逻辑和文化语境的捕捉与再现能力,尤其考验其对“幽默”这一人类高级心智活动的理解。
  • 场景描写 (文笔与情绪感知力):此任务回归文学创作的本源,通过设定一个富含情绪张力的具体情境,深度评测模型的环境氛围营造、感官细节捕捉以及对复杂内心活动进行细腻、富有感染力描写的纯文学创作水平。

十、感受

先说结论:

代码能力:GPT-5 + GPT-5-thinking 搭配使用,代码能力已经追上了 claude4 和 gemini2.5pro 。

推理能力: gemini2.5pro =GPT-5 >claude4 >GPT-5-thinking

数学解题能力:gemini2.5pro =GPT-5 =GPT-5-thinking > claude4

物理解题能力 : GPT-5-thinking = GPT-5 = claude 4=gemini2.5pro。

写作能力,大家自行判断,这种比较主观。

GPT-5 居然比 GPT-5-thinking 强!真的是太奇怪了~ 哈哈哈~

这次对 GPT-5 及 GPT-5-thinking 的系统性评测,给人留下了深刻的印象。核心感受是,GPT-5 已成为一个能力全面且极具竞争力的“多边形战士”。在代码、数学和物理等硬核技术能力上,它已经成功追平甚至超越了现有强者,展现了其强大的逻辑推理核心。这标志着它不再仅仅是一个“文科生”,而是一个全面发展的“优等生”。

我们正处在一个AI能力大爆发的时代,模型间的差距在缩小,但各自的“性格”和“特长”也愈发鲜明。GPT-5 无疑是第一梯队的领跑者之一,但在具体的应用场景中,选择哪个模型,依然取决于我们对“工具”核心需求的精准定义。

有提供免费的授权码可体验~

有提供免费的授权码可体验~

有提供免费的授权码可体验~

私信虚竹哥,获取体验码~ 国内可直接使用~

提供了两种模式:

  • 一种是官网版本GPT-5
  • 另一种是官网的GPT-5 API模式

我是虚竹哥,目标是带十万人玩转AI。

目录
相关文章
|
SQL 前端开发 关系型数据库
LLM大模型实战 —— DB-GPT阿里云部署指南
DB-GPT 是一个实验性的开源应用,它基于FastChat,并使用vicuna-13b作为基础模型, 模型与数据全部本地化部署, 绝对保障数据的隐私安全。 同时此GPT项目可以直接本地部署连接到私有数据库, 进行私有数据处理, 目前已支持SQL生成、SQL诊断、数据库知识问答、数据处理等一系列的工作。
10104 75
|
3天前
|
人工智能 自然语言处理 API
快速集成GPT-4o:下一代多模态AI实战指南
快速集成GPT-4o:下一代多模态AI实战指南
|
4天前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。
27 4
|
1月前
|
Apache 开发工具 数据格式
OpenAI 重返开源!gpt-oss系列社区推理、微调实战教程到!
时隔N年,OpenAI开放模型权重啦!欢迎使用gpt-oss 系列,专为强大的推理、代理任务和多用途开发场景设计。
711 0
|
11月前
|
机器学习/深度学习 弹性计算 人工智能
大模型进阶微调篇(三):微调GPT2大模型实战
本文详细介绍了如何在普通个人电脑上微调GPT2大模型,包括环境配置、代码实现和技术要点。通过合理设置训练参数和优化代码,即使在无独显的设备上也能完成微调,耗时约14小时。文章还涵盖了GPT-2的简介、数据集处理、自定义进度条回调等内容,适合初学者参考。
2110 6
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
机器学习/深度学习 自然语言处理 Swift
从头构建和训练 GPT-2 |实战
从头构建和训练 GPT-2 |实战
|
11月前
|
开发工具 git
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
280 0
|
数据采集 机器学习/深度学习 PyTorch
【Pytorch神经网络实战案例】34 使用GPT-2模型实现句子补全功能(手动加载)
GPT-2 就是一个语言模型,能够根据上文预测下一个单词,所以它就可以利用预训练已经学到的知识来生成文本,如生成新闻。也可以使用另一些数据进行微调,生成有特定格式或者主题的文本,如诗歌、戏剧。
1163 0

热门文章

最新文章