AI终于意识到,它不能把人晾在一边

你有没有过这种体验？跟一个AI对话，你话还没说完，它就开始回答了。或者你想打断它，插一句重要的补充，它根本不听，只顾着把自己那长篇大论的答案说完。你感觉自己在跟一个不会看脸色、不会听语气、不会停顿的朋友聊天。你只能适配它，它没法适配你。

这种体验的根源是AI的交互模式还停留在上个时代，它把对话当成了一来一往的回合制游戏。你说一句，它回一句。你再多说一句，它再回一句。中间的任何停顿、犹豫、打断、同时说话，都被当作噪音或者错误丢弃了。

但真实的人与人之间的协作不是这样的，你会一边听一边点头，会在对方犹豫时插一句“你的意思是……”，会在看到对方表情不对时主动追问，协作是连续的、并行的、实时校准的。

最近有一家由前OpenAI的CTO Mira创办的新公司，发布了他们首个“人机交互”模型。他们提出了一个核心判断：过去大家都在做“更聪明的AI”，现在是时候该做“更会协作的AI”了。他们不追求让AI像个Agent一样自己埋头干半天然后给你一个结果，他们追求的是让AI能像一个人一样，实时地、流畅地、有节奏地跟你一起协作。

在技术上，他们主要做了以下三件事。

把对话切成微小的单元，传统模型看到的是一场对话的完整记录，用户说了一大段，模型回答一大段。他们则把音频、视频、文字都拆成200毫秒一截的碎片，这样用户的犹豫、重叠的说话、短暂的沉默、突然的打断都不会被丢掉，模型能感知到你在想、在犹豫、在试图插话。

给AI配了两个大脑，一个前台大脑反应极快负责实时交互，它可以听你说话、看你动作、判断该不该插话、该用什么语气回应。一个后台大脑推理更深，负责处理那些不需要立刻回应的重活，比如搜资料、算数据、调用工具。前台一边跟你聊着，后台悄悄把活干完，再把结果自然融入进对话里。

让AI能真正地看和听，此前的语音AI是先用一个软件把你的对话转成文字，再把文字喂给大模型理解，最后把答案转成声音读给你。这中间丢失了太多信息，比如语气、停顿、环境音、画面里的动作。他们则把声音和画面直接送进模型，让模型自己学会什么时候该回应更多。例如你可以对着镜头做俯卧撑，让它帮你计数，在你累的时候说一句“加油”。

这些技术加在一起带来的最大改变是“模型变得在场了”，你不再需要把任务描述得清清楚楚等它跑半天再给你结果，你可以像跟一个实习生交代工作一样边做边说，它边看边听。要是发现跑偏了你直接打断，它会立刻调整，这才是人类最自然的协作方式。

当然，这个方向还很早期。新模型的很多评测是他们自己做的，还需要行业来复现，但它指出的方向比它的技术成熟度更加重要。

未来的AI产品不会只有一个对话框和一个“发送”按钮，它会像空气一样自然而然地出现在你身边，不说话时不打扰你，需要时随时搭把手。你不需要学怎么用，你只需要像跟人协作一样用你的方式跟它说话。