ChatGPT免费版数学暴涨24%,还藏了个语音大招

简介: 5月5号GPT-5.5 Instant上线,5月7号GPT-Realtime-2发布。 两天两发,一文本一语音。 免费用户直接拿到旗舰级智力,这事比跑分本身有意思。​![Image](https://ucc.alicdn.com/pic/developer-ecology/p3shvhj26rigq_d33476d1f0ce4b18918e987823c14271.png)##

5月5号GPT-5.5 Instant上线,5月7号GPT-Realtime-2发布。
两天两发,一文本一语音。
免费用户直接拿到旗舰级智力,这事比跑分本身有意思。

Image

不是阉割版,是旗舰智力配了极速响应

先说我判断变化的地方。

GPT-5.5 Instant刚发布时,我以为是GPT-5.5旗舰版的精简版。
Instant嘛,听着就像砍了功能换速度。

看完官方数据后,发现判断得改。
它拿的是旗舰版GPT-5.5的智力,配了更快的响应速度。
不是砍能力,是换了一种交付方式。

AIME 2025数学基准从65.4拉到81.2,涨了24%。
65分是大部分题做不对,81分是大部分题能做对。

ImageImage

但数学暴涨不是重点。
重点是:免费用户打开ChatGPT就能用。

免费拿到旗舰智力,这才是真正的大招

以前免费用户用GPT-5.3 Instant,付费Plus用更强的模型。
20美元一个月的差距。

这是GPT-5.3 Instant和 5.5 Instant的对比图。

Image

OpenAI把GPT-5.5 Instant给了免费用户。
打开ChatGPT就是81分的默认模型,一分钱不花。

豆包刚推付费订阅,68元/月起。
Claude免费版限制严格,Pro要20美元/月。
OpenAI反手就把旗舰级能力免费开放了。。。

这不是做慈善。
当你的免费模型比别人家付费的还好用,用户凭什么换?
抢的不是参数榜,是用户盘。

幻觉降了一半,比数学涨分实在

数学涨24%是明面上的。
真正影响日常体验的,是下面这组数据。

幻觉减少52.5%
52.5%来自医疗、法律、金融三个高危领域。
这三个领域有个共同点:胡编的代价很大。

医疗里一个错误的用药建议。
法律里一个不存在的判例引用。
金融里一个编造的数据。
每一个都可能造成实际损失。

幻觉降了一半以上,在"不能出错"的场景里可用性上了一个台阶。
不是完全不幻觉,是出错概率明显降低了。

用户反馈的事实错误减少37.3%
这个更值得关注。

不是实验室跑分,是真实用户在实际使用中反馈的数据。
实验室测试可以优化到好看,用户体感是另一回事。
37.3%说明这个差距是真用出来的。

回答少用了30.2%的词,少29.2%的行
AI回答一个常见问题:啰嗦。
问一个问题回一大段废话,有用的就两行。

GPT-5.5 Instant把输出压缩了三成。
砍的是废话,不是内容。
日常体验的提升,可能比数学涨24%更直接。

Image

MMMU-Pro多模态推理从69.2到76
多模态就是同时理解文字和图片。
从69.2拉到76,提升不小。

拍到一张图让它分析。
截图丢给它找问题。
上传表格提取数据。
都会更准。

如果对你有帮助,记得关注一波~

语音模型不是配角,是和文本同级别的更新

5月7号发布的GPT-Realtime-2,很多人把它当配角。
实际上它的深度不比文本部分低。

这是第一个带GPT-5级推理能力的语音模型。

语音AI一直有个硬伤。
你说一句它回一句,稍微复杂点就傻了。
问它多步骤的问题,它分不清上下文。

GPT-Realtime-2把GPT-5级推理搬到了语音场景里。
电话里问它一个需要分三步解决的问题。
它能一步步帮你理清楚,不用反复解释。

Image

使用场景很具体:
客服电话里处理退款,要查订单、确认金额、走审批流程。
语音AI在第二步就断了。
GPT-Realtime-2能跑完整个流程。

三个兄弟模型各有分工。
GPT-Realtime-2负责推理,能处理复杂多轮对话。
GPT-Realtime-Translate负责实时语音翻译。
GPT-Realtime-Whisper负责实时语音转文字。

三个模型把语音的推理、翻译、转写全包了。
语音AI从"听懂+复读"变成了"听懂+想+回答"。

目前是API层面的,普通用户暂时用不到。
开发者可以先接。
等进了ChatGPT产品,才是普通用户能感知的变化。

你看他给的方法,这不绝了么,你在任意场景下都能随时编写了,牛X到离谱。

Image

AI开始"认识"你了,但透明度也跟上了

GPT-5.5 Instant同时上线了个性化功能。
能调过去的对话记录。
能读你的文件。
能连你的Gmail。

不是简单记住你上次说了什么。
是AI开始知道你是谁、你在做什么、你的上下文是什么。

配套功能叫记忆来源。
你能看到AI回答时取了哪些信息。
它凭什么这么说,信息从哪来的,你能查到。

Image

这个在AI产品里是第一次。
AI说了一句话,你不知道它是从哪得出来的。
有了记忆来源,能追溯了。

有个限制:个性化功能先给Plus和Pro用户。
免费用户等几周。
Plus用户继续用GPT-5.5旗舰版,不是什么降级替代。

跑分好看,但别急着吹

几个边界说清楚。

1、跑分全来自OpenAI官方。
王婆卖瓜的嫌疑没法排除。实际表现跟跑分是两回事。

2、免费不等于无限。
ChatGPT免费版有消息条数限制。重度用户该花钱还是得花。

3、GPT-5.5 Instant强在短任务。
复杂编程和长文档推理,Plus用户继续用GPT-5.5旗舰版。

4、数学81.2分不等于数学专家。
AIME是高中竞赛,研究级数学该翻车还是翻车。

5、幻觉降了52.5%不等于不会幻觉。
在医疗和法律场景,哪怕5%的错误率也可能出事。
作为参考工具可以,替代专业判断不行。

OpenAI下的是用户盘,不是参数盘

写到这,最有意思的不是哪个模型多强。
是OpenAI同时在推两条线:免费文本拉用户,语音推理占赛道。

文本这边,免费用户打开就是GPT-5.5 Instant。
不用注册、不用付费、不用选模型。
默认就是最强的那个。

语音这边,GPT-Realtime-2把推理能力灌进去了。
给开发者用,后面进产品。
谁先在语音场景里做到"真正能用的助手",谁就多一条护城河。

跑分会追平,参数会过时。
谁先把"够用"拉到免费,谁就先占住用户。

工具越卷,真正值钱的是谁能让用户少想一步。


飞书****开源知识库(实时更新 交流群):
https://tffyvtlai4.feishu.cn/wiki/OhQ8wqntFihcI1kWVDlcNdpznFf

Claude Code & Openclaw 双顶流全中文从零开始的教程:不懂代码照样造网站,老金15万字Claude Code+OpenClaw教程免费开源


每次我都想提醒一下,这不是凡尔赛,是希望有想法的人勇敢冲。
我不会代码,我英语也不好,但是我做出来了很多东西。
我真心希望能影响更多的人来尝试新的技巧,迎接新的时代。

谢谢你读我的文章。
如果觉得不错,随手点个赞、在看、转发三连吧🙂
如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。

相关文章
|
29天前
|
监控 安全 数据可视化
Process Explorer中文版免费下载:系统管理员都在用的进程监控工具
Process Explorer是微软官方出品的免费进程管理工具,堪称任务管理器的终极升级版。支持进程树查看、彩色编码标识、文件/注册表/网络监控,绿色便携、无需安装,兼容Win7-Win11,权威可靠,是系统管理员与普通用户的必备利器。(239字)
|
3月前
|
人工智能 运维 自然语言处理
说话就能让AI写出顶级代码?Vercel官方经验包来了
## 先说前提:这个干嘛的 用大白话说:Vercel是全球最大的网页托管平台。 你知道GitHub吗?全球最大的代码托管平台。 Vercel就是网页版的GitHub,全世界数百万网站都用它托管。 服务过哪些大牌? 有字节跳动、Adobe、IBM这些巨头。 现在Vercel把内部多年积累的开发经验,打包成了一个 经验包。 你不用学技术,不用背规则,甚至不用看文档。 只要正常跟AI说话,AI就会
749 131
|
1月前
|
人工智能 自然语言处理 安全
AI术语看不懂?这24个核心概念,帮你把AI底层逻辑一次讲清
本文系统梳理AI领域24个核心概念,分四层解析:基础认知(如Token、大模型)、使用交互(Prompt、CoT)、工程架构(RAG、LoRA、Transformer)与进阶能力(Agent、多模态)。拒绝空谈,直击本质,帮你构建真正可用的AI认知框架。
|
1月前
|
缓存 人工智能 测试技术
Claude Code 一周烧掉一半配额?我从逆向工程中看到了 Agent 测试的致命盲区
Claude Code近期频现隐蔽Bug:缓存TTL从1小时骤降至5分钟、客户端截断、伪造限速等,致Token消耗暴增、用户配额“蒸发”。问题根源在于Agent系统缺乏可观测性与透明经济模型,信任危机已蔓延至整个AI工具生态。
|
17天前
|
人工智能 自然语言处理 安全
阿里云百炼 Token Plan 与 Coding Plan:定位、差异与选择指南
阿里云百炼推出Token Plan(团队版)与Coding Plan(个人版)两大AI订阅服务:前者以Credits积分制支持多模态大模型,满足企业级资源管理、成本分摊与安全合规需求;后者按请求次数计费,专注代码生成,助力开发者低成本高效编程。精准匹配不同场景,降本增效。
962 4
|
4月前
|
数据采集 人工智能 自动驾驶
烦透了AI焦虑?读懂智源2026报告,抓住3个真机会
写完这篇文章我思考了很久,当AI越来越强大,我们作为人类到底还有什么独特的价值? 我的答案是:不是计算能力,而是意义创造。
|
2天前
|
人工智能 搜索推荐 程序员
豆包收费68到500,Codex收入7天翻倍,免费AI到头了
上个月翻信用卡账单,发现一个事。 AI相关的月订阅已经悄悄超过2000块了。 Claude,Chatgpt,Gemini,GLM,Minimax,即梦,挨个看了一遍,一个都舍不得停。 每一个都在某个工作流里,真离不开。 我以前觉得AI工具会越来越便宜,最终走向免费。 直到这周看到了两条消息。 ## 企业端在掏真金白银了 OpenAI发了条战报。 GPT-5.5发布一周,A
|
5月前
|
人工智能 程序员 API
GPT-5.2来了,老金详细给你说说它为什么是王
OpenAI悄然上线GPT-5.2,因谷歌Gemini 3发布引发“红色警报”。新模型提升显著:幻觉减少38%,上下文达40万token,支持长文档精准处理;ARC-AGI-2与GDPval评测显示其真实推理与工作能力大幅增强,尤其适合金融、法律等专业场景。推出Instant、Thinking、Pro三版本,满足不同需求。虽无惊艳发布,但聚焦打工人实际应用,标志着AI向通用生产力工具迈进。
667 11
|
4月前
|
数据采集 人工智能 运维
为什么你跟AI说话它总是听不懂?12000星项目揭秘答案
想让AI真正听懂你的话?别再靠“感觉”编程!从Vibe Coding到上下文工程,用三份说明书(项目规矩、需求详情、执行清单)系统化提升AI输出质量。老金实测:前期多花30分钟,后期省下2小时返工。附开源知识库+GitHub高星项目解读,助你打造靠谱AI搭档。
|
人工智能 监控 算法
卷不过AI就驯服它!AI训练师速成攻略
这是一篇关于AI训练师职业的全面指南。文章从“驯服AI”的理念出发,将AI训练师比作“幼儿园老师”,详细描述了该职业的工作内容、入行技能要求、成长路径及工作日常。新手可以从基础的数据标注做起,逐步学习Python、数学知识和工具使用,通过三年计划实现职业进阶。文中还分享了摸鱼技巧、崩溃与高光时刻,以及避坑建议和未来转型方向。无论是在电商公司给商品打标签,还是训练医疗AI辅助诊断,这个职业都充满挑战与机遇。最后鼓励大家主动拥抱变化,把AI变成自己的左膀右臂,而非竞争对手。
3378 3

热门文章

最新文章