前OpenAI CTO憋了一年，我看到AI从聊天框里爬出来-阿里云开发者社区

昨晚我看到 Thinking Machines Lab 那篇文章，本来只是想随手瞄一眼，结果看了十几分钟，老金我真有点坐直了。
模型分数有没有涨，榜单有没有刷新，其实都不是重点。
真正让我停下来的，是那个我们天天用的聊天框，可能要慢慢过时了。

这家公司不普通。
创始人是前 OpenAI CTO Mira Murati，团队里还有前 OpenAI 应用研究负责人 Lilian Weng。
更夸张的是，TML 之前完成过 20 亿美元种子轮融资，估值到了 120 亿美元，这个量级放在创业公司里已经很离谱。路透社和 TechCrunch 都报道过这轮融资。

但这次我真正关心的不是钱。
TML 创立一年多后，终于第一次把核心技术方向摆出来。
它发的是 Interaction Models，中文可以叫交互模型，官方说这是一个研究预览，不是马上给所有人用的正式产品。

这两年，我们已经被AI训练得很熟练。
写提示词，补背景，限定格式，最后还要加一句别太像AI。
一套流程走下来，人还没开始创作，先把自己累一遍。

有时候真挺烦。
资料明明就在屏幕上，我还得复制一遍给它。
我只是觉得某段气口不对，结果为了让AI理解，又要讲成表达风格、上下文、目标受众这一套东西。

折腾到最后，不像AI在帮我。
更像我先要把自己翻译成AI能听懂的人。

现在很多AI，知识量确实够。
但它没眼力见。
你随口说一句这段怪怪的，它马上给你一整套写作原则，逻辑对，结构也对，但你心里会冒出一句，兄dei，我真不是要这个。

麻烦就出在这里。
它能看到你最后发出去的那段话，却看不到那段话之前发生了什么。
你为什么停顿，为什么删掉一句，为什么盯着屏幕没动，这些东西它大概率接不住。

可真实工作里，很多关键信息恰恰藏在这些小动作里。
一个人写东西卡住，不一定是缺资料。
很多时候是那个感觉还没出来。

TML 这次拿出来的东西，就在碰这个问题。
它不是简单做一个语音版聊天机器人。
官方的说法是，交互模型可以持续接收音频、视频、文本，并且实时思考、回应、行动。

翻译成普通人能懂的话，就是AI不再只等你把问题打包好再处理。
它开始尝试进入你的工作现场。
你说话，它听着；你看屏幕，它也看着；你还没完全想明白，它先跟着你的节奏走。

这不是普通语音助手那条路。
语音助手本质上还是你说完，它先识别。
识别完以后，它再回答。

中间那条缝一直在。
只是把打字换成了说话。
人和人一起干活，不是这种节奏。

你跟同事讨论方案，对方不会等你完整讲完五百字才开始理解。
很多时候你刚说到一半，他已经知道你哪里不对。
甚至会直接把你拉回来。

TML 这次真正想改的，就是这个节奏。
以前的AI像微信聊天。
你发一段，它回一段，礼貌、清楚、体面，但始终隔着一层。

真实工作更像两个人坐在同一张桌子前。
旁边摊着草稿、资料、咖啡，还有一堆没想明白的东西。
那种状态很乱，但很多真正有价值的东西，就是这么冒出来的。

老金我写公众号就是这样。
一开始通常只有一个很模糊的感觉，比如这篇，我最开始只知道 TML 这事不普通。
但到底哪里不普通，其实是写着写着才摸出来的。

最后我发现，戳我的不是 Mira 的名头，也不是融资数字。
真正关键的地方，是它承认了人类工作本来就很混乱。
我们很少能一开始就把需求清清楚楚打包好，再交给机器执行。

很多AI产品默认人是清醒的。
你知道自己要什么，也能把问题讲完整，甚至能给出准确的上下文。
但真实情况没这么体面。

很多时候，人是写到一半才知道自己想说什么。
看到一个页面，才意识到竞品真正想抓的不是原来那类用户。
会议开到一半，才发现大家争的根本不是同一个问题。

如果一个模型只能处理清晰指令，它能帮上的地方就很有限。
它处理的是你已经想明白的部分。
可真正值钱的东西，往往藏在那个还没想明白的过程里。

这才是交互模型想钻进去的地方。

TML 这次的模型叫 TML-Interaction-Small。
官方博客写得很清楚，它是一个 276B 参数的 MoE 模型，每次激活 12B 参数。
它还会搭配一个异步运行的背景模型使用，交互模型负责实时陪你对话，背景模型负责工具调用、网页搜索、长推理这些更重的活。

这个设计挺有意思。
前台那个AI要一直在场，不能动不动消失去想半天。
后台那个模型可以慢慢查资料、跑工具、做推理，然后把结果递回来。

这就像你身边有个人陪你聊。
另一个人在后面查资料。
前面的人不会因为查资料就突然失联，他还能继续听你说话，继续接住新的上下文。

这里面最关键的技术点，是 micro-turn，中文可以理解成微回合。
别看这个词冷，大概意思很简单。
模型别等人把一整句话说完，先按很短的时间片跟着走。

TML 选的节奏大概是 200 毫秒。
也就是把音频、视频、文字切成一小段一小段来处理。
官方说，模型会在这些连续片段里同时处理输入和输出，不再靠人为设定的回合边界来判断什么时候该说话。

这个点别小看。
真人聊天本来就不是机械回合制。
朋友一句话说慢了，你大概能感觉他在犹豫。

他突然看向屏幕一角，你也会下意识跟过去。
很多信息不是靠句子传出来的。
它是靠现场传出来的。

过去的模型能处理你最后发出的文字，却经常错过文字之前的那一串状态。
那一串状态，很多时候才是问题真正开始的地方。
所以我不太想把这次写成前 OpenAI CTO 发布新模型。

这个说法太浅了。
它真正释放的信号，是AI正在从聊天界面，往人的工作过程里走。

如果对你有帮助，记得关注一波~

这里要讲一个很烦但很关键的东西，VAD。
它的全称是 Voice Activity Detection，语音活动检测。
你可以理解成，系统用它来判断你有没有说完话。

现在很多AI通话，节奏其实跟对讲机差不多。
你停一下，它就以为你说完了，然后开始抢答。
可人说话会停顿、会思考、会犹豫，VAD 分不清你是在想，还是已经结束了。

所以AI经常在你脑子刚转到一半的时候插进来。
讲道理，这个真的很烦。
TML 的思路是让模型自己学会什么时候该听、什么时候该说，不要再让一个比模型笨很多的组件主导对话节奏。

更有意思的是，这条路不是 TML 一家公司在走。
面壁智能今年也做了类似的方向。
他们在 2 月开源了 MiniCPM-o 4.5，论文 4 月底挂到 arXiv，核心也是让模型能实时看、听、说。

MiniCPM-o 4.5 是 9B 参数。
论文里写到，它能做实时全双工全模态交互，可以在持续理解现场的同时，说话、提醒、评论。
更重要的是，它能在低于 12GB RAM 的端侧设备上运行。

这就说明一个事。
TML 做的是云端大模型路线，面壁走的是端侧小模型路线。
路径不同，但大家都看到了同一个问题。

交互瓶颈不只是延迟。
更不是单纯多接几个模态。
真正的瓶颈在范式上。

传统AI太像轮流发言，你说完我再说，我说完你再说。

但真实协作不是这么回事。
人和人之间有停顿、插话、眼神、手势、临时改口，还有一堆讲不清楚但能感受到的现场信息。
谁能把这些东西接进模型里，谁就有机会做出下一代AI交互。

TML 和面壁的解法也不一样。
TML 把时间切到 200 毫秒，追求更细的实时感知。

面壁的 Omni-Flow 用的是以秒为单位的时间窗口，论文里说它把多模态输入和输出对齐到同一条时间轴上，把传统回合制交互变成全双工、时间对齐的过程。

两边各有取舍。
TML 粒度更细，模型更大，还拆了前台交互模型和后台背景模型。
面壁模型更小，更强调端侧部署，把看、听、说这些能力尽量放进一个 9B 模型里。

我觉得这组对比很有意思。
一个是前 OpenAI 核心团队，拿着巨额融资做云端交互模型。
一个是国内团队，押端侧小模型，把同样的问题往本地设备上推。

它们共同指向一个判断。
AI 下一步的竞争，不只是看谁回答得更聪明。
还要看谁更会和人一起做事。

这事听起来很美，但也有点危险。
一个能听声音、看画面、跟随工作流的模型，拿到的信息会非常多。
它看到的不只是一个问题，而是一整段工作切片。

客户资料、会议内容、产品方案，甚至一个人的犹豫、迟疑、坏习惯，都可能被它捕捉到。
所以这玩意儿越像同事，边界就越重要。
不然它不像助手，更像一个坐在旁边的摄像头。

这一点必须说清楚。
先别急着吹未来已来。
TML 现在还是研究预览，官方说未来几个月会开放有限研究预览，今年晚些时候再考虑更大范围发布。

所以你不用焦虑，也不用马上学什么新技能。
但这个信号值得看懂。
过去两年，我们一直在琢磨怎么跟AI说话，以后可能要反过来问，机器能不能适应人类本来就乱糟糟的工作方式。

这个变化挺大。
一旦AI真的进入过程，最重要的能力就不只是回答正确。
它还要知道什么时候提醒，什么时候沉默，什么时候轻轻插一句，什么时候让人自己想完。

这东西比做一道题难多了。
我一直觉得，最烦人的AI不是答错的AI。
答错了还能改，真正烦的是那种永远积极、永远建议、永远觉得自己该说点什么的AI。

想象一下，你刚打开PPT，它就在旁边说这页可以优化。
你第一句话还没写完，它又提醒你表达不够精炼。
这种东西再聪明，也会让人想关掉。

人类需要的不是一个不停输出的喇叭。
我们需要的是一个有分寸的帮手。
交互模型最难的地方，也许就在这个分寸上。

技术上，它要低延迟、多模态、实时响应。
产品上，它要懂边界、懂场合，还要懂什么时候别烦人。
前者是工程问题，后者是相处问题。

我这段时间在各个社区交流时，其实一直在讲一个判断。
AI真正的爆发点，不是把活全权交给AI。
那听起来很爽，但现实里经常会翻车。

因为大多数有价值的工作，都不是把需求扔出去就完事。
写文章、做产品、搞营销，甚至写复杂代码，里面都有大量临时判断、目标校准和现场取舍。
这些东西不能只靠AI自己闷头跑。

老金我更相信的是人机协作。
人负责目标、判断、取舍，AI负责搜索、生成、执行和提醒。
最后要的不是一个AI自己觉得合理的结果，而是一个符合人类目标的结果。

这句话很关键。
符合人类目标。
不是符合提示词表面意思，也不是符合模型自己推出来的最优解。

有时候你让AI写一篇文章，它确实能写得很完整。
但完整不等于能发，逻辑顺不等于有吸引力，结构清楚也不等于像你。
这就是为什么人不能完全退出。

这些事更像一条河。
人在里面走，边走边改方向。
有时候需要AI递个工具，有时候需要它提醒前面有坑，有时候它最好闭嘴，别打断那个刚要冒出来的念头。

如果 TML 和 MiniCPM-o 这条路继续往前走，我觉得AI产品的味道会变。
你说它是同事吧，还早。
但要说它只是一个软件，好像也不太对了。

它更像一个没有身体、但能待在现场的东西。
你干活的时候，它不急着抢方向。
它只是跟着你的节奏，把你快漏掉的东西接住。

这一下，挺关键。

这件事最打动我的地方就在这里。
AI没有变得更像神。
它反而开始变得更像一个能帮忙的人。

当然，现在还早。
研究预览离好用产品，中间隔着成本、延迟、隐私、安全和一堆工程细节。
端侧实时模型也会遇到算力、续航、隐私、误触发这些麻烦。

但老金我承认，看到这个方向时，心里有一下是亮的。
AI的下一步，可能不是离人越来越远，也不是变成一个高高在上的超级大脑。
它开始往人的工作现场里走。

它不用你跪着问，也不该闷头替你干完。
更好的状态，是跟你一起待在那个还没想清楚的过程里。
这可能才是AI真正进入日常工作的样子。

不一定轰轰烈烈。
也不一定像发布会演示那么炸。
它可能只是出现在一个很普通的瞬间。

你写到一半，觉得哪里不对。
旁边那个东西没急着生成一篇大纲，只是提醒你一句。
“刚才那句话，可能才是重点”

飞书****开源知识库（实时更新 交流群）：
https://tffyvtlai4.feishu.cn/wiki/OhQ8wqntFihcI1kWVDlcNdpznFf

Claude Code & Openclaw 双顶流全中文从零开始的教程：不懂代码照样造网站，老金15万字Claude Code+OpenClaw教程免费开源

每次我都想提醒一下，这不是凡尔赛，是希望有想法的人勇敢冲。
我不会代码，我英语也不好，但是我做出来了很多东西。
我真心希望能影响更多的人来尝试新的技巧，迎接新的时代。

谢谢你读我的文章。
如果觉得不错，随手点个赞、在看、转发三连吧🙂
如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章。

前OpenAI CTO憋了一年，我看到AI从聊天框里爬出来

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

前OpenAI CTO憋了一年，我看到AI从聊天框里爬出来

热门文章

最新文章

相关电子书