GPT-5.2 Codex来了:能独立跑7+小时的AI程序员,老金手把手教你玩转

简介: OpenAI发布GPT-5.2 Codex,支持异步自主编程,7小时持续任务不断线。采用上下文压缩技术,胜任复杂重构与安全审计。对比Claude Code的同步交互,Codex更像远程员工,适合甩手任务。Plus用户可免费体验,API性价比高,配合本地工具高效开发。

加我进AI讨论学习群,公众号右下角“联系方式”

文末有老金的 开源知识库地址·全免费


12月18号,OpenAI悄咪咪放了个大招。

GPT-5.2 Codex。

老金当天晚上就去折腾了一番,研究了两天才敢写这篇。

因为这玩意儿跟Claude Code完全是两个物种,不搞清楚核心区别容易误导大家。

Image


最核心的区别:异步 vs 同步

先说结论,这是GPT-5.2 Codex和Claude Code最本质的差别。

Claude Code是同步交互式:

  • 你发一条消息,它回一条消息
  • 你在本地终端盯着看
  • 每一步都要你确认才能继续
  • 适合边写边调的日常开发

GPT-5.2 Codex是异步自主式:

  • 你给一个任务,它后台自己干
  • 在云端沙箱里独立跑7+小时不断
  • 中间不需要你盯着
  • 适合扔个任务出去吃饭,回来收结果

看出来了吗?

Claude Code像个贴身助理,你说一句它做一句。

Codex像个远程员工,你发个任务单它自己去搞。

这不是优劣问题,是使用场景完全不同。


为啥能跑7+小时?Context Compaction

这是Codex的核心黑科技。

普通AI的问题你们都知道:聊着聊着就忘了前面说啥。改个大项目,改到一半它突然问你"请问你想改哪个文件"——我刚才不是说了吗!

Codex怎么解决的?

Context Compaction(上下文压缩)技术:

  • 当上下文窗口快满的时候,自动压缩历史内容
  • 保留跟当前任务相关的关键信息
  • 丢弃无关的细节
  • 压缩后继续干活,周而复始

这样就能支持几百万token的超长会话。

官方数据:单次任务能连续跑7+小时,中间不断片。

Hacker News上有老哥实测,让Codex从零搭一个完整的SaaS应用,3小时17分钟自己搞定了,中间没干预过。


性能数据说话

SWE-bench是专门测AI解决真实GitHub issue能力的,不是玩具题,是真实项目里的真实bug。

GPT-5.2 Codex的成绩:

  • SWE-bench Pro:56.4%(SOTA,行业第一)
  • SWE-bench Verified:约80%
  • Terminal-Bench 2.0:64%

对比一下:

  • Claude Opus 4.5:SWE-bench Verified 80.9%
  • Claude Sonnet 4.5:SWE-bench Verified 72.7%
  • Gemini 3 Flash:SWE-bench Verified 78%
  • 老版GPT-4o:SWE-bench才33%

注意这里有个细节:

SWE-bench Pro和SWE-bench Verified是两个不同的测试集。Pro更难,问题更复杂;Verified相对标准化。

GPT-5.2 Codex在Pro上拿了56.4%的SOTA,在Verified上约80%跟Claude Opus 4.5差不多。

总结:编程能力确实是第一梯队,但不是吊打所有人,Claude也很强。


安全审计:这个真牛逼

GPT-5.2 Codex有个隐藏技能让老金眼前一亮:发现安全漏洞。

官方案例:它在React源码里发现了一个安全漏洞,编号CVE-2025-55182,CVSS评分10.0(最高危)。

不是那种一眼能看出来的SQL注入,是需要深度分析代码逻辑才能发现的问题。

做安全的同学应该懂这意味着什么——以前代码审计得人工一行行看,现在让AI先过一遍,效率直接起飞。

OpenAI还搞了个"Trusted Access Pilot"计划,邀请验证过的安全研究人员用Codex做漏洞挖掘。


价格怎么说

当然老金还是推荐直接使用中转站,国内直连,并且现在大部分的中转站都直接一个Key支持了Claude、Codex和Gemini了。

ChatGPT Plus用户($20/月):

  • 直接用Codex,不额外收费
  • 打开codex.openai.com登录就能用

API调用:

  • 输入:$1.75/百万token
  • 输出:$14/百万token

对比Claude API价格:

  • Claude Sonnet输入$3/百万token,输出$15/百万token
  • Claude Opus输入$15/百万token,输出$75/百万token

GPT-5.2 Codex的API价格比Claude Sonnet还便宜点,比Opus便宜很多。

但实际花多少钱看你用法。长时间异步任务消耗的token量会比较大,但你省下了盯着屏幕的时间。

如果对你有帮助,记得关注一波~


和Claude Code怎么选?

老金两个都在用,说点真话。

选Claude Code的场景:

  • 日常开发,边写边调
  • 需要实时反馈的任务
  • 本地代码库操作
  • MCP生态里有你要用的工具

选GPT-5.2 Codex的场景:

  • 大型重构、迁移任务
  • 复杂bug排查
  • 安全审计、代码审查
  • 不想盯着屏幕等的任务

老金现在的用法:

日常改几行代码、写新功能,用Claude Code;

拿到一个"把这个老项目升级到新框架"的任务,扔给Codex,我去喝咖啡。

两个配合用,效率拉满。


怎么用上?

1、终端

安装指令:

npm -g i @openai/codex@latest

启动终端后,输入codex启动

Image

不需要每次允许的方法,输入 /

Image

选择全部允许:

Image

2.VS Code插件

在扩展(Ctrl+Shift+X)中,搜索codex

Image

如下点击选择操作:

Image

Plus用户:

    1. 打开 codex.openai.com
    1. 登录你的Plus账号
    1. 直接开干

用API:

    1. 到OpenAI官网申请API Key
    1. 模型名:gpt-5.2-codex(别写错)
    1. 支持400K输入 / 128K输出的上下文窗口

老金建议:有Plus的先在Codex里体验,感受一下异步执行是什么感觉,再决定要不要深度用API。


老金实测

拿了个真实项目试了试,任务是把一个3000行的Python文件拆成模块化结构。

Codex的做法:

    1. 先分析整体结构,列出拆分计划
    1. 一个模块一个模块地创建
    1. 自动处理import依赖
    1. 生成单元测试
    1. 跑测试确认没改坏

结果:耗时2小时47分钟,中间没断过,代码风格保持一致。

关键是这2小时47分钟我在干别的事,不是盯着屏幕等。

换以前用Claude Code,这活儿我得在旁边守着,虽然Claude可能更快,但我的时间也搭进去了。

这就是异步的价值。


最后说两句

GPT-5.2 Codex不是"更强的Claude Code",是完全不同的工具。

Claude Code是同步协作——你和AI一起干活。

Codex是异步委派——你甩手让AI自己干。

两个都是第一梯队的AI编程工具,选哪个看你的工作方式:

  • 喜欢掌控感、实时调整的,用Claude Code
  • 喜欢甩任务、多线程干活的,用Codex
  • 最聪明的,两个都用

AI编程工具这一年卷得太厉害了,但工具不重要,会不会用才重要。

Plus用户直接上Codex体验异步执行的感觉,值得一试。


参考来源

  • OpenAI官方博客:GPT-5.2 Codex发布
  • SWE-bench排行榜
  • Hacker News讨论帖
  • OpenAI API定价页

往期推荐:

提示词工工程(Prompt Engineering)

LLMOPS(大语言模运维平台)

WX机器人教程列表

AI绘画教程列表

AI编程教程列表


谢谢你读我的文章。

如果觉得不错,随手点个赞、在看、转发三连吧🙂

如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。

开源知识库地址:

https://tffyvtlai4.feishu.cn/wiki/OhQ8wqntFihcI1kWVDlcNdpznFf

相关文章
|
3月前
|
人工智能 Rust 运维
这个神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
加我进AI讨论学习群,公众号右下角“联系方式”文末有老金的 开源知识库地址·全免费
6060 20
|
3月前
|
人工智能 程序员 API
GPT-5.2来了,老金详细给你说说它为什么是王
OpenAI悄然上线GPT-5.2,因谷歌Gemini 3发布引发“红色警报”。新模型提升显著:幻觉减少38%,上下文达40万token,支持长文档精准处理;ARC-AGI-2与GDPval评测显示其真实推理与工作能力大幅增强,尤其适合金融、法律等专业场景。推出Instant、Thinking、Pro三版本,满足不同需求。虽无惊艳发布,但聚焦打工人实际应用,标志着AI向通用生产力工具迈进。
458 11
|
1月前
|
人工智能 运维 API
AI编程大战白热化:Claude Opus 4.6和GPT-5.3-Codex同一天发布,谁才是真正的王者?
今日凌晨,Anthropic与OpenAI同日发布王牌模型:Claude Opus 4.6(100万token上下文、Agent Teams)与GPT-5.3-Codex(25%提速、AI自我构建)。二者硬刚编程与长文本能力,各擅胜场——选Claude重深度理解,选Codex重迭代速度。AI编程已入白热化时代。(239字)
|
3月前
|
机器学习/深度学习 缓存 物联网
打造社交APP人物动漫化:通义万相wan2.x训练优化指南
本项目基于通义万相AIGC模型,为社交APP打造“真人变身跳舞动漫仙女”特效视频生成功能。通过LoRA微调与全量训练结合,并引入Sage Attention、TeaCache、xDIT并行等优化技术,实现高质量、高效率的动漫风格视频生成,兼顾视觉效果与落地成本,最终优选性价比最高的wan2.1 lora模型用于生产部署。(239字)
1278 103
|
2月前
|
人工智能 运维 前端开发
Claude Code 30k+ star官方插件,小白也能写专业级代码
Superpowers是Claude Code官方插件,由核心开发者Jesse打造,上线3个月获3万star。它集成brainstorming、TDD、系统化调试等专业开发流程,让AI写代码更规范高效。开源免费,安装简单,实测显著提升开发质量与效率,值得开发者尝试。
2635 5
|
应用服务中间件 nginx
Nginx rewrite(URL)地址重定向
Nginx rewrite(URL)地址重定向
1051 0
|
10月前
|
人工智能 自然语言处理 安全
💻 Codex 来了:OpenAI 推出多任务软件工程 AI 代理,开发者工作方式将被重塑?
Codex 是 OpenAI 推出的一款云端智能开发代理,基于优化后的 Codex-1 模型,能够执行从代码编写、Bug 修复到 PR 提交的完整工程任务。通过 ChatGPT 的界面,用户可向 Codex 分配任务,它将在独立沙盒中运行并返回结果。Codex 支持多任务异步处理,遵循项目规范(AGENTS.md),并生成日志与测试报告以确保透明性。作为“AI 参与式开发”的里程碑,Codex 不仅提升效率,还可能重塑开发者角色,使他们从具体编码转向指导 AI 完成任务,推动软件工程进入意图驱动的新时代。
1016 16
|
9天前
|
人工智能 缓存 安全
OpenClaw避坑指南:告别OAuth封禁风险,阿里云合规部署OpenClaw+国内大模型平替方案
2026年2月,OpenClaw用户圈爆发大规模账号封禁潮——Google Gemini、Anthropic Claude纷纷出手,以“违反服务条款”为由,封禁大量通过OAuth令牌接入第三方工具的账号。Claude更是直接在官方文档中明文禁止:“将Free/Pro/Max账号的OAuth令牌用于OpenClaw等第三方产品,构成服务条款违规”。无数用户辛苦积累的账号权益一夜清零,甚至面临申诉无门的困境。
1351 5

热门文章

最新文章