AI终于意识到,它不能把人晾在一边你有没有过这种体验?跟一个AI对话,你话还没说完,它就开始回答了。或者你想打断它,插一句重要的补充,它根本不听,只顾着把自己那长篇大论的答案说完。你感觉自己在跟一个不会看脸色、不会听语气、不会停顿的朋友聊天。你只能适配它,它没法适配你。这种体验的根源是AI的交互模式还停留在上个时代,它把对话当成了一来一往的回合制游戏。你说一句,它回一句。你再多说一句,它再回一句。中间的任何停顿、犹豫、打断、同时说话,都被当作噪音或者错误丢弃了。但真实的人与人之间的协作不是这样的,你会一边听一边点头,会在对方犹豫时插一句“你的意思是……”,会在看到对方表情不对时主动追问,协作是连续的、并行的、实时校准的。最近有一家由前OpenAI的CTO Mira创办的新公司,发布了他们首个“人机交互”模型。他们提出了一个核心判断:过去大家都在做“更聪明的AI”,现在是时候该做“更会协作的AI”了。他们不追求让AI像个Agent一样自己埋头干半天然后给你一个结果,他们追求的是让AI能像一个人一样,实时地、流畅地、有节奏地跟你一起协作。把对话切成微小的单元,传统模型看到的是一场对话的完整记录,用户说了一大段,模型回答一大段。他们则把音频、视频、文字都拆成200毫秒一截的碎片,这样用户的犹豫、重叠的说话、短暂的沉默、突然的打断都不会被丢掉,模型能感知到你在想、在犹豫、在试图插话。给AI配了两个大脑,一个前台大脑反应极快负责实时交互,它可以听你说话、看你动作、判断该不该插话、该用什么语气回应。一个后台大脑推理更深,负责处理那些不需要立刻回应的重活,比如搜资料、算数据、调用工具。前台一边跟你聊着,后台悄悄把活干完,再把结果自然融入进对话里。让AI能真正地看和听,此前的语音AI是先用一个软件把你的对话转成文字,再把文字喂给大模型理解,最后把答案转成声音读给你。这中间丢失了太多信息,比如语气、停顿、环境音、画面里的动作。他们则把声音和画面直接送进模型,让模型自己学会什么时候该回应更多。例如你可以对着镜头做俯卧撑,让它帮你计数,在你累的时候说一句“加油”。这些技术加在一起带来的最大改变是“模型变得在场了”,你不再需要把任务描述得清清楚楚等它跑半天再给你结果,你可以像跟一个实习生交代工作一样边做边说,它边看边听。要是发现跑偏了你直接打断,它会立刻调整,这才是人类最自然的协作方式。当然,这个方向还很早期。新模型的很多评测是他们自己做的,还需要行业来复现,但它指出的方向比它的技术成熟度更加重要。未来的AI产品不会只有一个对话框和一个“发送”按钮,它会像空气一样自然而然地出现在你身边,不说话时不打扰你,需要时随时搭把手。你不需要学怎么用,你只需要像跟人协作一样用你的方式跟它说话。