昨天晚上,我躺在床上刷手机,突然想起来明天有朋友过生日,得订个蛋糕。
打开美团,搜了半天,要么太贵要么不配送。想打电话问问,号码找了5分钟没找到。
这时候我老公在旁边说了一句:"你直接让AI帮你订不就完了?"
我说:"AI能打电话?"
他翻了个白眼:"你还在用AI打字呢?人家已经开始用AI说话办事了。"
他说的,就是这周OpenAI发布的GPT-Realtime-2——一个能让AI直接替你打电话、订餐厅、处理琐事的"会说话"的AI。
同一天,谷歌宣布Gemini全面接管安卓,手机里的AI助手从问答升级成办事。
这不是技术升级,这是范式切换。
二、发生了什么
先说分量。
过去十年,所有语音助手都是同一个套路:
你说→转文字→AI读文字→再转语音→AI说
这叫三段式流水线。每一段都在丢东西。
第一段丢情绪。你说"我很好",可能是真的好,也可能是憋着火说的。转成文字,这层信息没了。
第二段丢细节。AI不知道你停顿了三秒、叹了口气、声音在抖。它拿到的是干巴巴的文字。
第三段丢真实感。合成出来的声音机械、平直,像在念稿。所有人都听得出来"这是机器"。
GPT-Realtime-2砸碎了这个架构。
它是端到端的——声波直接进去,声波直接出来。中间没有文字这个翻译层。
模型听到的不是"你说了什么",而是"你怎么说的"。
你咳嗽一下,它会停下来等你。你语气犹豫,它会追问确认。
这不是技术细节,这是架构革命。
具体参数:
• 响应速度:1.12秒,比Siri平均快0.7秒
• 上下文窗口:128k,大概是40分钟对话的容量
• 推理能力:GPT-5级,能边听边想边调用工具
翻译成人话就是:它不仅能听清你说的,还能记住你半小时前提到的细节,然后帮你干活。
就像从功能机到智能机——不是"更好用",是"完全不同的用法"。
三、普通人能怎么用
你一定会说:这听起来很牛,但我能用来干嘛?
说三个真实场景。
场景一:替代客服电话
改签机票、退订套餐、查账单——这类电话你打过吧?等位十分钟,对话三分钟,挂了还是一脸懵。
现在你可以让AI帮你打。它会记住你的订单号、航班信息、历史偏好,打完电话直接给你汇报结果。
场景二:替代App操作
"帮我查明天北京飞上海的航班"
"帮我把上个月的账单明细发我邮箱"
"帮我预约下周三上午10点的牙科"
以前你得打开App、找到入口、一步步操作。现在张嘴就行。
场景三:语音+工作流=专属助手
你可以搭一个"说话就能办事"的AI助手:查天气、定闹钟、记日程、查快递——全靠嘴。
不用学代码,不用记口令,就像有个24小时在线的助理。
四、5分钟用扣子搭建你的语音助手
重头戏来了。
如果你用的是扣子(coze.cn),现在就能搭一个"说话就能办事"的AI助手。
注意:扣子目前支持语音输入(手机麦克风转文字),配合智能体处理,能实现"语音指挥AI"的体验。虽然不是原生的端到端语音,但门槛更低、马上能用。
第一步:创建Bot
进入coze.cn,点击"创建智能体(Bot)"。名字随便起,比如"我的语音助理"。模型选默认的就好。
第二步:配置人设
在"人设与回复逻辑"里,写清楚这个AI是干什么的。参考模板:
你是我的私人助理,擅长:
1. 查询天气、日历、待办事项
2. 帮用户查找信息、总结内容
3. 设置提醒、记录灵感
用户可以用自然语言跟我说话,我用口语化、简洁的方式回复。
第三步:配置工具
扣子的优势在于可以接入各种工具。点击"插件",添加:
• 日历插件(查日程、加日程)
• 天气插件(查天气)
• 搜索插件(查信息)
• 邮件插件(发邮件)
工具越多,AI能帮你做的事越多。
第四步:开启语音输入
在手机端使用扣子时,点击输入框旁边的麦克风图标,直接说话就行。
语音会自动转成文字发给Bot,Bot处理完再转成语音读给你。
费用说明:扣子的语音功能免费版就能用,不需要升级高阶版。但语音合成和识别会消耗资源点——免费版每天500点,日常轻度用够了。如果打算高频使用(比如每天对话几十轮),建议升级个人进阶版,1000点/天才够用。
测试一下
对着手机说:"帮我查一下明天下雨吗?"
看看Bot能不能正常回复。
踩坑提醒:
1. Bot的人设描述要具体。越清楚,AI越知道你该干嘛。
2. 工具别贪多。先加2-3个用得上的,慢慢迭代。
3. 语音输入会有误差。长段话说慢点,专有名词可能识别不准。
五、认知收束
打字→说话,不是输入方式的改变,是人机交互范式的升级。
就像触屏替代键盘,不是"更好用",是"另一种用法"。
以前我们适应机器的局限——你得打字、得记住命令、得一步步操作。
现在机器开始适应我们——你只要开口,它来干活。
这不是AI更聪明了,是AI终于学会听人话了。
评论区扣「语音」,私信我「语音助手」,我把完整的Bot配置提示词发给你。
👍
觉得有用,点个👍
「在看」+「转发」让更多人看到
我们下期见。
#语音AI #GPTRealtime2 #AI革命 #人机交互 #扣子实战

我是青言|扣子工作流架构师
一个正在用系统重装人生的INTJ妈妈
相信一切重复操作都该被自动化。只发经实测的Coze实战方案,不讲废话。
夜雨聆风