16项测试赢了13项!Gemini 3.1 Pro碾压GPT-5.2和Claude

简介: 昨天晚上(2月19号),老金我刷到一条消息——Google发布了 Gemini 3.1 Pro。![Image](https://ucc.alicdn.com/pic/developer-ecology/p3shvhj26rigq_c55cf33e4d734d38913fcb367357e44d.jpg)说实话,第一反应是"又更新?Gemini 3 Pro去年11月才出,这才3个月就搞.1

昨天晚上(2月19号),老金我刷到一条消息——Google发布了 Gemini 3.1 Pro。

image.png

说实话,第一反应是"又更新?Gemini 3 Pro去年11月才出,这才3个月就搞.1版本?"
谷歌你是不是太急了。

但老金我点进官方博客一看,卧槽。
ARC-AGI-2推理测试,得分从31.1%直接飙到77.1%。
推理能力翻了不止一倍,价格跟上一代完全一样。

老金我今天花了一上午扒完所有公开资料。
5大核心升级,一次给你讲清楚。

最炸裂的升级:推理能力暴涨148%

这次Gemini 3.1 Pro最大的看点就一个——推理。

ARC-AGI-2 是目前业界公认最难的推理测试之一,专门考AI"举一反三"的能力。
不是靠死记硬背能过的,得真的理解题目里的模式,然后推导出答案。

上一代Gemini 3 Pro得分31.1%。
这次直接干到77.1%,涨了46个百分点,涨幅148%。

77.1%是什么水平?横向对比一下:

image.png

比Claude Opus 4.6高了8.3个百分点,比GPT-5.2高了24.2个百分点。
谷歌第一次在推理赛道上,把OpenAI和Anthropic同时甩在身后。

16项测试赢了13项:不过也不是全赢

推理最亮眼,但其他方面呢?

根据Google公布的数据,Gemini 3.1 Pro在16项标准测试中拿下了13项第一。
老金我挑几个最关键的说:

image.png

几个关键数字解读一下。

GPQA Diamond 94.3%,考的是研究生级别的科学难题。
94.3%意味着在物理、化学、生物这些硬核学科上,答题水平超过了大部分研究生。

SWE-Bench Verified 80.6%,这个对程序员最重要。
用真实GitHub issue来测AI能不能修bug,十个真实bug能修八个,已经非常实用了。

但老金我必须说句公道话——Claude也没输透。

SWE-Bench上Claude Opus 4.6以80.8%微微领先。
GDPval-AA专家任务测试里,Claude Sonnet 4.6拿了1633分,Gemini 3.1 Pro只有1317分,差距不小。
Humanity's Last Exam(工具辅助版),Claude也赢了,53.1%对51.4%。

所以真实情况是:Gemini 3.1 Pro在大部分测试上确实领先,但在专家级任务和部分场景上,Claude仍然有优势。
不是某一家全面碾压,而是各有各的强项。


最容易被忽略的升级:SVG生成和Agent能力

这两个升级很多人可能没注意到,但老金我觉得挺重要。

第一个是 SVG文件生成 大幅提升。
SVG就是网页上常用的矢量图格式(做数据可视化、图标、交互图表都靠它)。
Gemini 3.1 Pro在这方面比上一代有了质的飞跃。

Google给了一个很硬核的demo。
让Gemini 3.1 Pro独立配置了一个公开遥测数据流,实时可视化国际空间站的轨道,做成了一个航空航天仪表盘。

image.png

注意关键词:独立配置。
不是"帮你写段代码你自己跑",而是AI自己找数据源、自己生成可视化、自己搭了一个能跑的仪表盘。

这已经是真正的 Agent能力 了——给它一个目标,它自己想办法搞定。

Google也明确说了,后续会继续优化在"ambitious agentic workflows"上的表现。
翻译成大白话就是:让AI能独立完成更复杂的多步骤任务。

image.png

如果对你有帮助,记得关注一波~


价格不变渠道拉满:诚意确实到位

重要的事情说三遍:价格没涨。

image.png

跟Gemini 3 Pro完全一样的价格,性能翻倍升级。
100万token的上下文窗口也保留了,能塞进去的信息量还是业界天花板。

能在哪用?渠道铺得很开:

消费端:Gemini App(Pro和Ultra用户)、NotebookLM
开发端:Gemini API、Google AI Studio、Gemini CLI、Google Antigravity、Android Studio
企业端:Vertex AI、Gemini Enterprise
微软端:GitHub Copilot、Visual Studio、VS Code

对,你没看错。
GitHub Copilot现在也能选Gemini 3.1 Pro做底层模型了。
Google的模型跑在微软的产品里——放在两年前这是不可想象的。

另外这次还有个细节值得注意:这是Google第一次用.1版本号做中期更新。
以前Gemini的中期迭代都是.5(比如1.5、2.5),这次改成.1,说明更新节奏在加快。

老金我的建议

说了这么多好的,老金我也得泼盆冷水。

第一,目前是 Preview状态。
Google自己说了还在调优,特别是Agent工作流方面。
Preview就意味着可能有bug、可能改API,生产环境别急着上。

第二,benchmark分数高不等于什么都强。
ARC-AGI-2考的是模式推理,但你日常用AI写代码、写文章、做分析,推理只是其中一个维度。
前面也说了,Claude在专家任务上依然强势,GPT在通用对话上也有自己的优势。

第三,这些数据都是Google自己报的。
第三方独立验证还没出来,等更多人实测之后结论会更靠谱。

总的来说,Gemini 3.1 Pro这次升级确实有料。
推理翻倍、16项测试赢13项、价格不变、渠道拉满,诚意是实打实的。

老金我的建议:
开发者可以先在Google AI Studio上试试,API价格跟上代一样,试错成本很低。
普通用户有Gemini Pro或Ultra订阅的,直接在App里就能用上了。
没订阅的别着急,等正式版出来再考虑也不迟。

你们觉得Gemini 3.1 Pro这次升级怎么样?
评论区聊聊,老金我很好奇你们的看法。


往期推荐:

AI编程教程列表
提示词工工程(Prompt Engineering)
LLMOPS(大语言模运维平台)
AI绘画教程列表
WX机器人教程列表


每次我都想提醒一下,这不是凡尔赛,是希望有想法的人勇敢冲。
我不会代码,我英语也不好,但是我做出来了很多东西,在文末的开源知识库可见。
我真心希望能影响更多的人来尝试新的技巧,迎接新的时代。

谢谢你读我的文章。
如果觉得不错,随手点个赞、在看、转发三连吧🙂
如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。

开源知识库地址(实时更新交流群):
https://tffyvtlai4.feishu.cn/wiki/OhQ8wqntFihcI1kWVDlcNdpznFf

Claude Code 全中文从零开始的教程:老金开源10万字Claude Code中文教程,零基础到企业实战完整路径

开源项目请参考这里写的:公众号写作2年,从几十到几千阅读量,我靠这3件事做到的

相关文章
|
1月前
|
人工智能 运维 前端开发
GLM-5深夜官宣:Pony Alpha身份揭晓,编程能力逼近Claude Opus
刚发完DeepSeek V4,智谱又来搞事情。 今天是老金我写的 第三篇文章,手都快敲断了。 但这个消息不写不行——GLM-5 正式(偷摸地)发布了。 2月11日深夜,智谱AI官宣新一代旗舰大模型GLM-5。 之前在OpenRouter上神秘出现的"Pony Alpha",身份终于揭晓。 据DoNews报道:Pony Alpha就是GLM-5的低调测试版。 ![Image](https://u
454 25
|
1月前
|
人工智能 运维 自然语言处理
说话就能让AI写出顶级代码?Vercel官方经验包来了
## 先说前提:这个干嘛的 用大白话说:Vercel是全球最大的网页托管平台。 你知道GitHub吗?全球最大的代码托管平台。 Vercel就是网页版的GitHub,全世界数百万网站都用它托管。 服务过哪些大牌? 有字节跳动、Adobe、IBM这些巨头。 现在Vercel把内部多年积累的开发经验,打包成了一个 经验包。 你不用学技术,不用背规则,甚至不用看文档。 只要正常跟AI说话,AI就会
444 131
|
1月前
|
安全 Java 数据挖掘
高效转换Word表格为Excel:Python方案全解析
本文介绍如何用Python自动化将Word表格转为Excel,解决手动复制易出错、耗时长等问题。基于python-docx读取表格,结合openpyxl或pandas写入,支持多表合并、数字格式识别、合并单元格处理及大文件优化,30行代码即可实现高效精准转换。(239字)
245 13
|
21天前
|
人工智能 网络协议 网络安全
2026阿里云OpenClaw/Clawdbot部署+集成iMessage指南:苹果生态AI助手搭建教程
2026年,OpenClaw(前身为Clawdbot、Moltbot)凭借轻量化容器化架构、灵活的跨平台集成能力,成为个人与小型团队打造专属AI助手的首选工具。其支持自然语言指令解析、多任务自动化执行、多终端同步响应的核心特性,完美适配苹果生态用户的办公与生活需求。iMessage作为苹果生态核心的即时通讯工具,覆盖iPhone、Mac、iPad全终端,具备端到端加密、无缝同步的优势,将两者深度对接,可实现“iMessage发指令、AI自动化执行、全终端收结果”的跨场景体验,无需切换APP,随时随地调用AI能力处理文档生成、数据查询、任务提醒等事务。
687 18
|
21天前
|
人工智能 网络协议 机器人
2026年OpenClaw(原ClawdBot)部署接入QQ/飞书/钉钉/微信喂饭教程(阿里云专属,零基础保姆级)
2026年,OpenClaw(原ClawdBot,曾用名Moltbot)凭借“自然语言驱动+多任务自动化执行+全渠道适配”的核心优势,成为开源AI智能体赛道的现象级项目,GitHub星标数突破18.6万,吸引了无数个人用户和企业团队投身部署使用。作为一款定位为“真正能干事情的AI”,OpenClaw的核心价值不仅在于自动化办公、代码辅助、网页抓取等基础功能,更在于其强大的多渠道对接能力——可无缝接入QQ、飞书、钉钉、微信(喂饭模式)四大主流通讯工具,让AI助理突破Web控制台的限制,融入日常聊天场景,实现“聊两句就能下达指令、完成任务”。
1344 6
|
3月前
|
人工智能 Rust 运维
这个神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
加我进AI讨论学习群,公众号右下角“联系方式”文末有老金的 开源知识库地址·全免费
6470 20
|
21天前
|
人工智能 开发者 API
阿里云百炼 Coding Plan 又双叒上新了!模型任选+首购 7.9/月,开发者速冲🚀
百炼Coding Plan春节升级!新增Qwen3.5-Plus等多款先进模型,Lite/Pro版新用户首月低至7.9元、39.9元,享2折起优惠;全面兼容Cursor、Claude Code等主流AI编程工具,订阅灵活,性价比超高!活动至4月1日。
|
26天前
|
人工智能 运维 架构师
老金开源Agent Teams编排Skill:一句话自动组队,手动挡时代结束了
加我进AI讨论学习群,公众号右下角“联系方式” 文末有老金的 **开源知识库地址·全免费** --- 术语说明:"Swarm/蜂群"是多Agent协作的通用说法(OpenAI有官方项目叫Swarm),但 Claude Code的官方概念是Agent Teams。本文使用官方术语Agent Teams,保留"蜂群"作为通俗说明。 先说老金我昨儿开源了[老金开源10万字Claude Code中文
2015 10
老金开源Agent Teams编排Skill:一句话自动组队,手动挡时代结束了
|
17天前
|
人工智能 JavaScript Serverless
这个Skill能自动学会你的所有习惯,踩过的坑!
Claudeception是一款让Claude Code自动学习用户工作模式的智能插件。它通过分析调试过程、写作流程、文件管理等真实行为,将经验沉淀为可复用的Skill,实现“越用越懂你”。GitHub获1660星,适合Claude重度用户,2–3周后效果显著。(239字)

热门文章

最新文章