

大家好,我是小松。
事情是这样的。
这两天一个国外叫 Farza 的老哥发了段视频,全程不碰键盘,不碰鼠标,就坐那儿,张嘴说话,电脑就乖乖照办。开网页、来回翻、一顿操作,行云流水。
他配了句话,「看我怎么光用语音控制电脑。这就是操作系统的未来, gpt-realtime-2 这玩意被严重低估了」。
下面是具体的演示
视频很快冲到了 50 多万观看。
说真的,第一眼我还以为是剪出来的。
因为语音操控这事,已经喊了得有十年了吧,从 Siri 到一堆智能音箱,结果你也知道,到今天大部分人用语音助手,也就是设个闹钟、问个天气,稍微复杂一点的活,立马抓瞎。
那为啥这次不一样了?
得从它背后那个模型说起,gpt-realtime-2,OpenAI 五月初刚放出来的新东西。
你想想看,以前的语音助手是怎么干活的。你说一句,它先把你的话转成文字,再丢给一个脑子去想,想完再转成声音念给你听。中间这么转来转去,又慢又容易掉链子。更要命的是,那个所谓的脑子其实挺笨的,只够听懂一句简单指令。
gpt-realtime-2 干的事,是头一回给实时语音模型配上了 OpenAI 自己说的 GPT-5 级推理,官方叫它 GPT-5-class reasoning。说人话,就是给语音装了个会思考的脑子。
它不再是听一句答一句,而是能边听边想,想到一半还能自己伸手去调工具,查你的日历、跑个流程、把东西给你订上,干完再回来接着跟你唠。
更有意思的是几个小细节。
它会在动手之前先垫一句,比如「行,我帮你查一下啊」,不会让你对着屏幕干等。它干活的时候还会跟你同步「我正在翻你的日历」,让你知道它没死机。万一真出岔子了,它会老老实实跟你说「我这边好像有点问题」,而不是直接哑火,留你在那儿一脸懵。
你发现没,这些东西加在一起,语音助手就从一个「能听懂话的玩具」,悄悄变成了一个「能替你把事办了的人」。
这才是这段视频真正让人有点上头的地方。
不过得说句公道话,免得你误会。那段演示里,真正点网页、翻页面的,不是模型自己长了手。是一个跑在本地的小工具,把操作电脑的能力接给了 gpt-realtime-2。模型负责听、负责想、负责发号施令,工具负责动手。模型是大脑,工具是手脚,俩搭一块儿才有那段魔法。它不是模型裸奔在控制电脑,背后还隔着一层应用和权限。
当然,我也不想把它吹上天。
它有它的代价。你要是把它的思考调到最猛那一档,从你说完到它出声,中间大约要等两秒多,这两秒搁真人对话里,其实挺尴尬的。聪明是拿速度换来的。还有就是,它不便宜。
而且这条赛道上挤着的狠角色,一个比一个能打。
先说谷歌的 Gemini,这哥们走的是另一个极端,主打一个又快又便宜。它回话几乎不带卡的,张嘴就来。价格也便宜得离谱,光音频那块的官方报价,输入差不多只要 gpt-realtime-2 的十分之一,输出也就五分之一。它支持的语言也多,实时这块官方写的是七十多种语言,覆盖两百多个国家和地区。你要是做面向全球、走量的那种语音产品,掰着指头算成本,谷歌是真香。
再说一个叫 ElevenLabs 的,这家又是另一个路子。它不跟你拼脑子,拼的是嗓子。音色是这一票里最顶的,自然、有感情,甚至还能做声音克隆,把某个人的声音整个复刻出来。你打客服电话,那种听着特别像真人、特别舒服的声音,背后说不定就是它在干活。
我把这三家摊开,放一张表里,你扫一眼就清楚了。

表里最后那行「专用 / 开源」是另一拨玩家,它们不跟你拼全能,要么只把某一个环节做到极致,比如专做语音转文字的 Deepgram,要么干脆开源让你搬回自己服务器上跑,图个数据不出门、自己说了算。属于有特殊需求时的备选,这里就不展开了。
所以你看,这事就有意思了。
谷歌赢在快和便宜,ElevenLabs 赢在声音好听,那 gpt-realtime-2 凭啥?
凭的是,它在拼脑子这件事上是头部,还顺手把一整套家伙什都给你备齐了。打电话、连各种工具、读图片、接实时语音对话,一个模型全给你包圆。它不是哪个单项的冠军,但它是那个各项都能打、还啥活都接得住的全能选手。
说人话就是,谷歌是性价比之王,ElevenLabs 是声优天花板,而 gpt-realtime-2,是这里头最像「能替你把事办了的助理」的那个。
但你把镜头往后拉一拉,会发现一件更有意思的事。
过去这些年,做语音 AI 的厂商,比的是谁反应快、谁延迟低。可现在这个比法,悄悄变了。大家开始比的是,谁能在你说话的同时,真的把活给你干漂亮了。
你品品这个跨度。
延迟低,到今天只是张入场券了。真正的胜负手,是它到底能不能在那一来一回的对话里,稳稳地替你思考、替你动手。
说到底,我们跟电脑打交道的方式,可能真的正在变。
从敲键盘,到点鼠标,再到现在,也许有那么一天,就剩你随口说的一句话。
Farza 把话说得挺满,张嘴就说这是操作系统的未来。但看完那段从头到尾一只手都没抬的演示,我心里原本那个「不可能吧」的声音,确实小了那么一点。
会不会真有那么一天,我们对着电脑说话,就跟对着身边一个大活人说话一样自然。
反正这一天,我还挺想亲眼看到的。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
夜雨聆风