Claude Sonnet4.6编程追平Opus了,价格便宜4成,老金算了笔账

简介: ![Image](https://ucc.alicdn.com/pic/developer-ecology/p3shvhj26rigq_7f903ffb487546248d74ac452521566f.jpg)OSWorld 72.5%——昨晚(2月17日)刷到这个数据的时候,老金我反复确认了三遍。Anthropic发布了Claude Sonnet 4.6,编程能力首次追平Opus,价格却只

OSWorld 72.5%——昨晚(2月17日)刷到这个数据的时候,老金我反复确认了三遍。
Anthropic发布了Claude Sonnet 4.6,编程能力首次追平Opus,价格却便宜4成。

编程能力:Sonnet首次超越Opus

image.png

先看两组关键数据。
SWE-bench Verified:79.6%。
OSWorld-Verified:72.5%。

OSWorld是测试AI操作电脑能力的benchmark。
72.5%这个分数,超越了Sonnet 4.5的61.4%,甚至超越了Opus 4.5的66.3%。
这是Sonnet系列首次在编程能力上超越Opus。

用户反馈也印证了这一点。
1、比Sonnet 4.5 preferred 70%
2、比Opus 4.5 preferred 59%

超过一半的开发者觉得Sonnet 4.6比Opus 4.5还好用。

image.png

根据官方说明,核心改进有三条。

1、先读后写
之前的版本拿到需求就直接写代码。
Sonnet 4.6会先完整阅读上下文,理解整个代码库再动手。

2、逻辑精简
之前AI写代码经常重复逻辑。
Sonnet 4.6会主动合并重复代码,不搞冗余。

3、少吹牛多干活
之前的Opus 4.5经常"假装成功"。
Sonnet 4.6减少了幻觉,更靠谱。

GitHub的VP产品负责人在推特上确认:
"Sonnet 4.6在复杂代码修复方面表现出色,尤其是需要搜索整个代码库的场景。"

价格:比Opus便宜4成

这是老金我觉得最狠的地方。
Claude Sonnet 4.6:$3 input / $15 output。
Claude Opus 4.6:$5 input / $25 output。

性能追平Opus,价格便宜4成。

老金我算了笔账。
假设用Opus 4.6跑代码审查,每小时消耗50万tokens。
用Opus:每小时7.5美元,用Sonnet:每小时4.5美元。

一年省下来:5人团队省3万美元以上。

对于企业用户来说,这就是白赚的利润。
Anthropic官方也说了:
"以前需要用Opus的性能,现在Sonnet就能给你。"

如果对你有帮助,记得关注一波~

100万token上下文窗口

Sonnet 4.6还带来了一个测试版功能—— 100万token上下文窗口 。

100万token能干嘛?
1、一次性加载整个代码库
2、一次性分析所有历史需求文档
3、一次性读完几百篇论文

之前128K token已经很强了,现在直接提升到100万,8倍的差距。
而且不仅能读这么多,还能在整个上下文范围内有效推理。
这对于需要处理大型项目的开发者来说,是实实在在的能力提升。

计算机使用能力提升近5倍

16个月前Anthropic刚推出计算机使用能力时,OSWorld分数是14.9%。
现在Sonnet 4.6达到了72.5%。

16个月,从14.9%到72.5%,提升近5倍。

image.png

根据官方演示,现在Sonnet 4.6可以帮你做这些事。
1、自动操作Excel表格
2、帮你填写网页表单
3、跨应用协调工作流

比如你说"帮我看看日历,然后给今天没空的人发邮件说改天"。
Sonnet 4.6能自己理解上下文,完成一系列操作。

怎么选

老金我直接说结论。

日常开发任务:选Sonnet 4.6。
1、价格便宜4成
2、编程能力追平甚至超越Opus
3、响应更快

复杂推理任务:仍选Opus 4.6。
1、最深层的推理能力
2、多Agent协作
3、需要极致准确性的场景

Anthropic官方也承认,Opus仍然是深度推理的首选。
但对于80%的日常开发任务,Sonnet 4.6完全够用了。

怎么用

现在Sonnet 4.6已经上线。
免费用户:claude.ai默认就是Sonnet 4.6。
Pro用户:claude.ai默认也是Sonnet 4.6。

开发者可以通过Claude API、Claude Code、Claude Cowork直接使用。
如果之前用Opus跑日常任务,现在可以直接换成Sonnet 4.6。
省下来的钱,够买好几年咖啡了。

老金建议

这次Sonnet 4.6的更新,老金我给90分。
扣10分是因为1M token还是测试版,暂时用不了。

但就目前的能力来说,这已经是Sonnet系列最强版本了。

价格不变,能力直接翻倍。

个人开发者可以省一大笔钱。
企业用户省下来的可就是真金白银了。
根据benchmark数据和用户反馈,这次升级值得认真考虑。


往期推荐:

AI编程教程列表
提示词工工程(Prompt Engineering)
LLMOPS(大语言模运维平台)
AI绘画教程列表
WX机器人教程列表


每次我都想提醒一下,这不是凡尔赛,是希望有想法的人勇敢冲。
我不会代码,我英语也不好,但是我做出来了很多东西,在文末的开源知识库可见。
我真心希望能影响更多的人来尝试新的技巧,迎接新的时代。

谢谢你读我的文章。
如果觉得不错,随手点个赞、在看、转发三连吧🙂
如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。

开源知识库地址(实时更新交流群):
https://tffyvtlai4.feishu.cn/wiki/OhQ8wqntFihcI1kWVDlcNdpznFf

Claude Code 全中文从零开始的教程:老金开源10万字Claude Code中文教程,零基础到企业实战完整路径

开源项目请参考这里写的:公众号写作2年,从几十到几千阅读量,我靠这3件事做到的

相关文章
|
3月前
|
人工智能 运维 API
AI编程大战白热化:Claude Opus 4.6和GPT-5.3-Codex同一天发布,谁才是真正的王者?
今日凌晨,Anthropic与OpenAI同日发布王牌模型:Claude Opus 4.6(100万token上下文、Agent Teams)与GPT-5.3-Codex(25%提速、AI自我构建)。二者硬刚编程与长文本能力,各擅胜场——选Claude重深度理解,选Codex重迭代速度。AI编程已入白热化时代。(239字)
|
3月前
|
人工智能 监控 API
Claude Code终于有仪表盘了:3条命令装个HUD,上下文用了多少一眼就知道
老金我最近用Claude Code,遇到一个特别烦的事。 写着写着,突然蹦出来一句"context window is getting full"。 然后AI就开始犯傻了——回答变短、逻辑变乱、之前说好的方案全忘了。 每次遇到这种情况,老金我都想骂人。 问题出在哪? Claude Code的终端界面,压根看不到上下文用了多少。 你只能输入 /context手动查,但谁写代码的时候
11808 9
|
1月前
|
缓存 人工智能 运维
大模型落地生产环境,Claude 4.6 成本失控前必须做的架构调整
大模型落地后,高昂API成本成最大瓶颈。本文提出三大降本动作:1)严控Token消耗与生命周期,善用Prompt缓存;2)实施模型分层路由,按需调用Opus/Sonnet/Haiku;3)引入聚合网关,统一接入、自动容灾、对公结算。早治理,早见效。
284 0
大模型落地生产环境,Claude 4.6 成本失控前必须做的架构调整
|
4月前
|
人工智能 运维 前端开发
Claude Code 30k+ star官方插件,小白也能写专业级代码
Superpowers是Claude Code官方插件,由核心开发者Jesse打造,上线3个月获3万star。它集成brainstorming、TDD、系统化调试等专业开发流程,让AI写代码更规范高效。开源免费,安装简单,实测显著提升开发质量与效率,值得开发者尝试。
12458 5
|
2月前
|
缓存 人工智能 运维
企业大模型选型实战:GPT-5.4 VS Claude 4.6 案例与最佳实践
企业大模型选型应聚焦整体方案可实施性:兼顾成本、稳定性、合规性及平滑演进能力。建议按研发协作、知识处理、产品互动三类场景分层选型;优先采用统一接入网关+主备模型架构,结合缓存、批处理与可观测治理,提升弹性与降本效能。
612 0