前OpenAI CTO憋了一年,我看到AI从聊天框里爬出来

简介: Thinking Machines Lab(前OpenAI核心团队创立)发布交互模型TML-Interaction-Small,突破传统“回合制”AI范式,支持音频、视频、文本多模态实时感知与微秒级响应(200ms微回合),让AI真正融入人类混乱、动态的工作过程——不是等指令,而是懂节奏、知分寸、陪思考。

昨晚我看到 Thinking Machines Lab 那篇文章,本来只是想随手瞄一眼,结果看了十几分钟,老金我真有点坐直了。
模型分数有没有涨,榜单有没有刷新,其实都不是重点。
真正让我停下来的,是那个我们天天用的聊天框,可能要慢慢过时了。

这家公司不普通。
创始人是前 OpenAI CTO Mira Murati,团队里还有前 OpenAI 应用研究负责人 Lilian Weng。
更夸张的是,TML 之前完成过 20 亿美元种子轮融资,估值到了 120 亿美元,这个量级放在创业公司里已经很离谱。路透社和 TechCrunch 都报道过这轮融资。

但这次我真正关心的不是钱。
TML 创立一年多后,终于第一次把核心技术方向摆出来。
它发的是 Interaction Models,中文可以叫交互模型,官方说这是一个研究预览,不是马上给所有人用的正式产品。

Image

这两年,我们已经被AI训练得很熟练。
写提示词,补背景,限定格式,最后还要加一句别太像AI。
一套流程走下来,人还没开始创作,先把自己累一遍。

有时候真挺烦。
资料明明就在屏幕上,我还得复制一遍给它。
我只是觉得某段气口不对,结果为了让AI理解,又要讲成表达风格、上下文、目标受众这一套东西。

折腾到最后,不像AI在帮我。
更像我先要把自己翻译成AI能听懂的人。

现在很多AI,知识量确实够。
但它没眼力见。
你随口说一句这段怪怪的,它马上给你一整套写作原则,逻辑对,结构也对,但你心里会冒出一句,兄dei,我真不是要这个。

麻烦就出在这里。
它能看到你最后发出去的那段话,却看不到那段话之前发生了什么。
你为什么停顿,为什么删掉一句,为什么盯着屏幕没动,这些东西它大概率接不住。

可真实工作里,很多关键信息恰恰藏在这些小动作里。
一个人写东西卡住,不一定是缺资料。
很多时候是那个感觉还没出来。

TML 这次拿出来的东西,就在碰这个问题。
它不是简单做一个语音版聊天机器人。
官方的说法是,交互模型可以持续接收音频、视频、文本,并且实时思考、回应、行动。

Image

翻译成普通人能懂的话,就是AI不再只等你把问题打包好再处理。
它开始尝试进入你的工作现场。
你说话,它听着;你看屏幕,它也看着;你还没完全想明白,它先跟着你的节奏走。

这不是普通语音助手那条路。
语音助手本质上还是你说完,它先识别。
识别完以后,它再回答。

中间那条缝一直在。
只是把打字换成了说话。
人和人一起干活,不是这种节奏。

你跟同事讨论方案,对方不会等你完整讲完五百字才开始理解。
很多时候你刚说到一半,他已经知道你哪里不对。
甚至会直接把你拉回来。

TML 这次真正想改的,就是这个节奏。
以前的AI像微信聊天。
你发一段,它回一段,礼貌、清楚、体面,但始终隔着一层。

Image

真实工作更像两个人坐在同一张桌子前。
旁边摊着草稿、资料、咖啡,还有一堆没想明白的东西。
那种状态很乱,但很多真正有价值的东西,就是这么冒出来的。

老金我写公众号就是这样。
一开始通常只有一个很模糊的感觉,比如这篇,我最开始只知道 TML 这事不普通。
但到底哪里不普通,其实是写着写着才摸出来的。

最后我发现,戳我的不是 Mira 的名头,也不是融资数字。
真正关键的地方,是它承认了人类工作本来就很混乱。
我们很少能一开始就把需求清清楚楚打包好,再交给机器执行。

很多AI产品默认人是清醒的。
你知道自己要什么,也能把问题讲完整,甚至能给出准确的上下文。
但真实情况没这么体面。

很多时候,人是写到一半才知道自己想说什么。
看到一个页面,才意识到竞品真正想抓的不是原来那类用户。
会议开到一半,才发现大家争的根本不是同一个问题。

如果一个模型只能处理清晰指令,它能帮上的地方就很有限。
它处理的是你已经想明白的部分。
可真正值钱的东西,往往藏在那个还没想明白的过程里。

这才是交互模型想钻进去的地方。

TML 这次的模型叫 TML-Interaction-Small。
官方博客写得很清楚,它是一个 276B 参数的 MoE 模型,每次激活 12B 参数。
它还会搭配一个异步运行的背景模型使用,交互模型负责实时陪你对话,背景模型负责工具调用、网页搜索、长推理这些更重的活。

这个设计挺有意思。
前台那个AI要一直在场,不能动不动消失去想半天。
后台那个模型可以慢慢查资料、跑工具、做推理,然后把结果递回来。

这就像你身边有个人陪你聊。
另一个人在后面查资料。
前面的人不会因为查资料就突然失联,他还能继续听你说话,继续接住新的上下文。

Image

这里面最关键的技术点,是 micro-turn,中文可以理解成微回合。
别看这个词冷,大概意思很简单。
模型别等人把一整句话说完,先按很短的时间片跟着走。

TML 选的节奏大概是 200 毫秒。
也就是把音频、视频、文字切成一小段一小段来处理。
官方说,模型会在这些连续片段里同时处理输入和输出,不再靠人为设定的回合边界来判断什么时候该说话。

这个点别小看。
真人聊天本来就不是机械回合制。
朋友一句话说慢了,你大概能感觉他在犹豫。

他突然看向屏幕一角,你也会下意识跟过去。
很多信息不是靠句子传出来的。
它是靠现场传出来的。

过去的模型能处理你最后发出的文字,却经常错过文字之前的那一串状态。
那一串状态,很多时候才是问题真正开始的地方。
所以我不太想把这次写成前 OpenAI CTO 发布新模型。

这个说法太浅了。
它真正释放的信号,是AI正在从聊天界面,往人的工作过程里走。

如果对你有帮助,记得关注一波~

这里要讲一个很烦但很关键的东西,VAD。
它的全称是 Voice Activity Detection,语音活动检测。
你可以理解成,系统用它来判断你有没有说完话。

Image

现在很多AI通话,节奏其实跟对讲机差不多。
你停一下,它就以为你说完了,然后开始抢答。
可人说话会停顿、会思考、会犹豫,VAD 分不清你是在想,还是已经结束了。

所以AI经常在你脑子刚转到一半的时候插进来。
讲道理,这个真的很烦。
TML 的思路是让模型自己学会什么时候该听、什么时候该说,不要再让一个比模型笨很多的组件主导对话节奏。

Image

更有意思的是,这条路不是 TML 一家公司在走。
面壁智能今年也做了类似的方向。
他们在 2 月开源了 MiniCPM-o 4.5,论文 4 月底挂到 arXiv,核心也是让模型能实时看、听、说。

Image

MiniCPM-o 4.5 是 9B 参数。
论文里写到,它能做实时全双工全模态交互,可以在持续理解现场的同时,说话、提醒、评论。
更重要的是,它能在低于 12GB RAM 的端侧设备上运行。

这就说明一个事。
TML 做的是云端大模型路线,面壁走的是端侧小模型路线。
路径不同,但大家都看到了同一个问题。

交互瓶颈不只是延迟。
更不是单纯多接几个模态。
真正的瓶颈在范式上。

传统AI太像轮流发言,你说完我再说,我说完你再说。

但真实协作不是这么回事。
人和人之间有停顿、插话、眼神、手势、临时改口,还有一堆讲不清楚但能感受到的现场信息。
谁能把这些东西接进模型里,谁就有机会做出下一代AI交互。

TML 和面壁的解法也不一样。
TML 把时间切到 200 毫秒,追求更细的实时感知。

Image

面壁的 Omni-Flow 用的是以秒为单位的时间窗口,论文里说它把多模态输入和输出对齐到同一条时间轴上,把传统回合制交互变成全双工、时间对齐的过程。

两边各有取舍。
TML 粒度更细,模型更大,还拆了前台交互模型和后台背景模型。
面壁模型更小,更强调端侧部署,把看、听、说这些能力尽量放进一个 9B 模型里。

我觉得这组对比很有意思。
一个是前 OpenAI 核心团队,拿着巨额融资做云端交互模型。
一个是国内团队,押端侧小模型,把同样的问题往本地设备上推。

它们共同指向一个判断。
AI 下一步的竞争,不只是看谁回答得更聪明。
还要看谁更会和人一起做事。

这事听起来很美,但也有点危险。
一个能听声音、看画面、跟随工作流的模型,拿到的信息会非常多。
它看到的不只是一个问题,而是一整段工作切片。

客户资料、会议内容、产品方案,甚至一个人的犹豫、迟疑、坏习惯,都可能被它捕捉到。
所以这玩意儿越像同事,边界就越重要。
不然它不像助手,更像一个坐在旁边的摄像头。

这一点必须说清楚。
先别急着吹未来已来。
TML 现在还是研究预览,官方说未来几个月会开放有限研究预览,今年晚些时候再考虑更大范围发布。

所以你不用焦虑,也不用马上学什么新技能。
但这个信号值得看懂。
过去两年,我们一直在琢磨怎么跟AI说话,以后可能要反过来问,机器能不能适应人类本来就乱糟糟的工作方式。

这个变化挺大。
一旦AI真的进入过程,最重要的能力就不只是回答正确。
它还要知道什么时候提醒,什么时候沉默,什么时候轻轻插一句,什么时候让人自己想完。

这东西比做一道题难多了。
我一直觉得,最烦人的AI不是答错的AI。
答错了还能改,真正烦的是那种永远积极、永远建议、永远觉得自己该说点什么的AI。

想象一下,你刚打开PPT,它就在旁边说这页可以优化。
你第一句话还没写完,它又提醒你表达不够精炼。
这种东西再聪明,也会让人想关掉。

人类需要的不是一个不停输出的喇叭。
我们需要的是一个有分寸的帮手。
交互模型最难的地方,也许就在这个分寸上。

技术上,它要低延迟、多模态、实时响应。
产品上,它要懂边界、懂场合,还要懂什么时候别烦人。
前者是工程问题,后者是相处问题。

我这段时间在各个社区交流时,其实一直在讲一个判断。
AI真正的爆发点,不是把活全权交给AI。
那听起来很爽,但现实里经常会翻车。

因为大多数有价值的工作,都不是把需求扔出去就完事。
写文章、做产品、搞营销,甚至写复杂代码,里面都有大量临时判断、目标校准和现场取舍。
这些东西不能只靠AI自己闷头跑。

老金我更相信的是人机协作。
人负责目标、判断、取舍,AI负责搜索、生成、执行和提醒。
最后要的不是一个AI自己觉得合理的结果,而是一个符合人类目标的结果。

这句话很关键。
符合人类目标。
不是符合提示词表面意思,也不是符合模型自己推出来的最优解。

有时候你让AI写一篇文章,它确实能写得很完整。
但完整不等于能发,逻辑顺不等于有吸引力,结构清楚也不等于像你。
这就是为什么人不能完全退出。

这些事更像一条河。
人在里面走,边走边改方向。
有时候需要AI递个工具,有时候需要它提醒前面有坑,有时候它最好闭嘴,别打断那个刚要冒出来的念头。

如果 TML 和 MiniCPM-o 这条路继续往前走,我觉得AI产品的味道会变。
你说它是同事吧,还早。
但要说它只是一个软件,好像也不太对了。

它更像一个没有身体、但能待在现场的东西。
你干活的时候,它不急着抢方向。
它只是跟着你的节奏,把你快漏掉的东西接住。

这一下,挺关键。

这件事最打动我的地方就在这里。
AI没有变得更像神。
它反而开始变得更像一个能帮忙的人。

当然,现在还早。
研究预览离好用产品,中间隔着成本、延迟、隐私、安全和一堆工程细节。
端侧实时模型也会遇到算力、续航、隐私、误触发这些麻烦。

但老金我承认,看到这个方向时,心里有一下是亮的。
AI的下一步,可能不是离人越来越远,也不是变成一个高高在上的超级大脑。
它开始往人的工作现场里走。

它不用你跪着问,也不该闷头替你干完。
更好的状态,是跟你一起待在那个还没想清楚的过程里。
这可能才是AI真正进入日常工作的样子。

不一定轰轰烈烈。
也不一定像发布会演示那么炸。
它可能只是出现在一个很普通的瞬间。

你写到一半,觉得哪里不对。
旁边那个东西没急着生成一篇大纲,只是提醒你一句。
“刚才那句话,可能才是重点”


飞书****开源知识库(实时更新 交流群):
https://tffyvtlai4.feishu.cn/wiki/OhQ8wqntFihcI1kWVDlcNdpznFf

Claude Code & Openclaw 双顶流全中文从零开始的教程:不懂代码照样造网站,老金15万字Claude Code+OpenClaw教程免费开源


每次我都想提醒一下,这不是凡尔赛,是希望有想法的人勇敢冲。
我不会代码,我英语也不好,但是我做出来了很多东西。
我真心希望能影响更多的人来尝试新的技巧,迎接新的时代。

谢谢你读我的文章。
如果觉得不错,随手点个赞、在看、转发三连吧🙂
如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。

相关文章
|
28天前
|
Windows
npp.8.5.Installer文本编辑器安装步骤详解(附Notepad++配置与插件安装教程)
Notepad++ 8.5 是Windows平台广受欢迎的免费开源文本编辑器,支持语法高亮、多标签页、代码折叠等功能,远超系统记事本。本文详解其安装流程:下载安装包、以管理员身份运行、选择中文界面、自定义安装路径与组件,并快速启动验证。
|
29天前
|
人工智能 安全 API
Claude和GPT全买了,AI用起来为啥还是不好用?老金来告你!
先说一个可能不太舒服的结论。 AI用得好不好,跟工具几乎没关系。 老金我在一开始认为模型越好就行了。 换了Claude、GPT、Gemini轮着试。 结果发现不对——同样的工具,不同人用出来的效果完全不同。 你可以做一个实验。 找两个同事,一个干过三年产品,一个刚入行。 让他们用同一个AI,写一份竞品分析报告。 资深的人出来的东西,方向对,框架稳。 该查哪些数据口径心
|
1月前
|
人工智能 搜索推荐 程序员
豆包收费68到500,Codex收入7天翻倍,免费AI到头了
上个月翻信用卡账单,发现一个事。 AI相关的月订阅已经悄悄超过2000块了。 Claude,Chatgpt,Gemini,GLM,Minimax,即梦,挨个看了一遍,一个都舍不得停。 每一个都在某个工作流里,真离不开。 我以前觉得AI工具会越来越便宜,最终走向免费。 直到这周看到了两条消息。 ## 企业端在掏真金白银了 OpenAI发了条战报。 GPT-5.5发布一周,A
|
12小时前
|
Web App开发 人工智能 IDE
小白速通 Codex App:带录播回放
**文末有录播地址** 早上 9 点,你同时有三件事要干:改一个页面、修一个小 bug、整理一份项目说明。 以前这三件事排在一起,你大概率会先挑一个做,剩下两个往后拖。用 AI 编程以后,情况变了。你可以让不同任务并行跑,自己回来只看结果、看 diff、看哪里需要确认。 这也是我为什么要重点讲 Codex App。 Codex 入口很多,CLI、IDE、Cloud/Web、Mobile 都
小白速通 Codex App:带录播回放
|
6月前
|
人工智能 程序员 API
GPT-5.2来了,老金详细给你说说它为什么是王
OpenAI悄然上线GPT-5.2,因谷歌Gemini 3发布引发“红色警报”。新模型提升显著:幻觉减少38%,上下文达40万token,支持长文档精准处理;ARC-AGI-2与GDPval评测显示其真实推理与工作能力大幅增强,尤其适合金融、法律等专业场景。推出Instant、Thinking、Pro三版本,满足不同需求。虽无惊艳发布,但聚焦打工人实际应用,标志着AI向通用生产力工具迈进。
745 11
|
缓存 NoSQL Java
Java工具篇之Guava-cache内存缓存
常在业务系统中做开发,不会点高级知识点,有点不好意思了。在业务系统中,提高系统响应速度,提供系统高并发能力,其实方向很简单,三个方向,六个字而已: **缓存降级限流。** 当然这是在排除代码质量非常差的情况,如果代码质量很差,都是while循环和高内存占用,那么其实再怎么做都于事无补。除非你有一个马云爸爸,性能不够,机器来凑嘛。阿里云前来支持(1000台机器够了吗?)
1802 0
|
28天前
|
人工智能 大数据 测试技术
把“算不清的 Token”变成“看得见的成本”:虚拟凭证的分钟级归因实践
很多团队已经把大模型接入业务,但成本管理仍停留在“月底看总账”。本文从工程落地角度,分享一套“虚拟凭证 + 运行时注入 + 请求级审计”的治理方案,用最小改造实现 AI 成本可见、可控、可追溯。
186 7
|
4月前
|
存储 人工智能 开发工具
Claude Code自动记忆来了!配合老金三层记忆系统全开源!加强Plus!
昨天晚上,老金我照例打开 Claude Code 准备写代码。 随便聊了几句项目架构,Claude突然冒出一句: "Based on our previous discussions, this project uses pnpm and TypeScript strict mode." 老金我愣了一下。 上次提到pnpm是三天前的事了,这中间重启了好几次。 打开 ~/.claude/p
|
1月前
|
人工智能 自然语言处理 算法
大模型应用:搜索的智能革命:大模型如何重塑传统搜索算法构建新一代智能检索.110
本文详解大模型如何赋能传统搜索:突破关键词匹配瓶颈,通过语义理解、Embedding向量化、意图推理与结果生成,实现“召回更全、排序更准、体验更优”的智能搜索升级,并附完整代码示例。
168 6
|
4月前
|
人工智能 编解码 运维
Nano Banana 2 来了,Google 把口喷修图卷上天了!4K 效果称王!
今天凌晨 Google 悄悄上线了 Nano Banana 2 的 Flash 模型。 老金我当时的反应是:又来?上次 Nano Banana 刚出的时候,社区吹得天花乱坠。 抱着"先试试看"的心态,老金我打开了 Gemini。 结果这一试,真的不一样了。 ## 先说 Nano Banana 到底是什么 很多人可能还不知道这玩意儿。 简单说,Nano Banana 是 Google