当你还在等ChatGPT一字一句输出回复时,Mira Murati已经让AI学会了插嘴。在最近公开的Demo中,一个男人边做俯卧撑边数数,AI实时看着画面:…17、18、19…,当他数错时,AI立刻打断:等一下,刚才那是第20个,不是第19个。没有请稍候,没有转圈加载,AI就像一个真实的人那样在对话中插话、纠错、实时反馈。这就是Mira Murati离开OpenAI后蛰伏18个月拿出的第一个作品——Thinking Machines Lab的Interaction Models。

图1:Mira Murati与她创立的Thinking Machines Lab,这位前OpenAI CTO正在重新定义人机交互的边界
这个Demo之所以震撼整个AI圈,不在于模型有多大,而在于它击穿了一个所有人都习以为常的假设:AI对话必须是轮次式的。
轮次式对话的三个死穴
今天我们用的所有大模型,本质上都是一问一答的翻牌机:你说一句话,等它说完,你再说下一句。这种模式有三个无法突破的硬伤:
第一,打断成本极高。你在GPT说话时想插话?要么等它说完,要么手动点停止生成,上下文还可能断片。人类对话中最自然的等等,我补充一下在AI这里变成了极其别扭的操作。
第二,多模态输入是批处理的。你给GPT发一张图加一段话,它必须等你全部输入完毕后才开始思考,而不是像人那样边听边看边想。这就导致AI永远无法做到真正的实时反应。

图2:200ms微轮次实时对话概念图——AI不再等待完整输入,而是以人类感知不到的速度进行微轮次交互
第三,工具调用与推理不能并行。当AI需要查资料时,你会看到正在使用工具的提示,整个对话卡住直到工具返回结果。后台推理完全阻塞了前台交互,这在人类交流中是不可想象的——谁也不会因为你在脑子里想事情就停止说话。
双层架构:把交互训练进模型骨子里
Thinking Machines的解决方案简单到让人拍大腿:把一个模型拆成两个模型。

图3:交互模型+背景模型的双层架构示意图——前台负责实时响应,后台负责深度处理
交互模型(Interaction Model):
专门负责接话茬。它以200ms的微轮次持续运行,不断接收音频、视频、文本流,同时生成最即时的回应。这个模型不需要懂太多,只需要反应快——像人类的反射弧。发布的TML-Interaction-Small是276B参数的MoE模型,但每次只激活12B参数,FD-bench延迟仅0.4秒,对比Gemini的0.57秒和GPT-4的1.18秒,快了整整一个数量级。
背景模型(Background Model):
在幕后异步运行,处理复杂的推理、工具调用、长上下文整合。它不需要快,但需要深——像人类的深度思考。最重要的是,背景模型的工作完全不会阻塞前台交互。
最关键的认知突破:整个行业都在把交互能力作为外挂(比如流式输出、语音中断),而Thinking Machines从第一天就把实时交互作为模型本身的训练目标。这不是在现有模型上加了一个对话管理层,而是从架构底层重新设计了AI的工作方式。
这东西到底有什么用?三个让你脊背发凉的场景
场景一:实时口译。现在的AI同传是等对方说完一句话再翻译,延迟3-5秒。而交互模型可以做到边听边翻,你刚说三个词,翻译已经开始输出,延迟低于人类同声传译员。
场景二:教学指导。想象你在学钢琴,弹错一个音的瞬间,AI老师就说:这里升fa,你弹成了还原fa。而不是等你弹完整首曲子才给你一份报告。

图4:多模态实时协作场景图——AI边看边听边反馈,实现真正的人机实时协作
场景三:代码结对编程。你敲代码的同时,AI在旁边实时评论:这个循环可能溢出,建议加个边界检查,而不是等你写完100行才开始review。即时反馈的价值怎么强调都不为过——教育心理学早就证明,反馈延迟每增加1秒,学习效果下降20%。
边界与坑:别把它当成万能药
第一,实时不代表正确。200ms的响应代价是可能说错话——交互模型可能给出一个快速但不准确的回答,然后背景模型稍后更正。这种自我修正在人类对话中很自然,但在AI场景中可能造成信任危机。
第二,算力成本极高。持续运行的微轮次对话意味着每200ms就要跑一次前向传播,单位时间内的算力消耗是传统模型的5-10倍。这不是一个可以免费给C端用户用的技术。
第三,交互礼仪的设计难度远超想象。什么时候该插嘴?什么时候该等对方说完?插话的语气如何才不烦人?这些人类社交中默认的规则,AI需要从零学起,一不小心就会变成一个令人讨厌的话痨。
第四,隐私风险被放大。麦克风和摄像头持续开启,数据流持续进入模型,这对数据安全和隐私保护提出了全新的挑战。
第五,这还只是研究预览。公开的Demo是精心挑选的场景,实际在开放域中的表现如何,还有待验证。276B参数的模型离真正的产品化还有距离。
一页纸行动清单
1. 立刻去看Thinking Machines Lab的官方Demo视频,建立第一手感知
2. 盘点你的产品中哪些场景对实时反馈敏感(客服、教育、医疗、协作工具)
3. 计算一下:如果你把用户等待时间从1秒降到0.4秒,能提升多少转化率
4. 关注实时交互的UI/UX设计——这会是下一个设计竞赛场
5. 不要等技术完全成熟再行动,现在就开始设计低延迟交互的产品原型
6. 重新审视你的多模态策略——同时处理和批处理是完全不同的技术路线
7. 关注算力成本曲线:MoE稀疏激活技术可能让持续运行的模型变得经济可行

图5:人机协作未来展望图——实时交互模型打开了人机无缝协作的新篇章
最后说一句
当所有人都在比谁的模型参数更大、谁的上下文更长时,Mira Murati选了一条更少有人走的路:让AI更像一个真正的对话者,而不是一个查询引擎。轮次式对话不是AI的本质属性,只是我们在算力有限时做出的工程妥协。现在,这个妥协正在被打破。
你认为第一个被实时交互模型颠覆的行业会是什么?欢迎在评论区留下你的判断。
夜雨聆风