乐于分享
好东西不私藏

Google发布语音听写程序打开文档,说就行了

Google发布语音听写程序打开文档,说就行了

你打开一个空白 Google Doc。光标闪了十秒。你打了三个字,删掉,又打了五个字,又删掉。最后你打开微信,给自己发了条语音:”就是那个,上次说的那个方案,关于怎么把成本降下来的,老板说太贵了。”

然后你把这条语音转成文字,复制,粘贴进文档。开始手动删掉里面的”就是那个”和”然后”。改标点。分段。把碎句子拼成能看的东西。

这套操作很多人都试过,而最近Google 刚在 I/O 上发布了一个产品,让上面全部步骤变成一步:打开 Docs,点一个按钮,直接对着屏幕说话。结巴也没关系。说错也没关系。夹杂”那个那个”也没关系。说完,文档就好了。

它叫 Docs Live。今年夏天向付费用户开放。

你负责说,它负责写

Docs Live 做的事情,跟以前的语音听写有一个本质区别。

以前的听写是转录员。你说什么,它记什么。你说”就是那个那个那个上次我们讨论的方案”,它就原封不动地敲出”就是那个那个那个上次我们讨论的方案”。你回头还得自己删。自己改。自己给句子梳头。

Docs Live 不止在听,它在理解。它知道你说了”那个那个那个”是因为你在想词。它知道”老板说太贵了”是一句话的收尾,”上次讨论的方案”应该放在前面。它会自动把”就是那个那个上次我们讨论的那个方案关于怎么降成本的老板说太贵了那个”,整理成”上次讨论的降成本方案,老板认为预算过高。”

Google 官方描述是:”消除思考到书写之间的摩擦。”翻译成大白话:你脑子的转速跟手速不匹配的问题,AI 帮你解决了。

我们说话比打字快三倍。普通人在键盘上半小时能敲八百到一千字。用嘴说,半小时三千字起步。但你还得自己去改。现在 AI 帮你改。

Keep 也能听了:碎碎念变待办清单

同一个思路搬到了 Google Keep 上。

这功能是给那类人设计的:脑子里事太多,打开备忘录之后反而不知道该记什么。Google 叫它”brain dump”脑暴。你点录音,开始说。语速不限,逻辑不限,语种不限。你可以从”明天要见王总”跳到”冰箱里牛奶没了”再跳到”A 方案的数据好像有问题”。

Google 的原话是:”它不仅理解你的碎碎念,还会在后台默默工作,把你的意识流整理成笔记和清单。”

你最烦的那件事:脑子很清楚、但写出来的东西乱七八糟,现在AI它替你做了。

新版的 AI 语音输入跑在设备本地,不需要联网。这意味着在地铁上、电梯里、信号只有一格的地方,你照样能对着手机说话。说完,键盘输出一段可以直接发出去的句子。

这个场景比 Docs Live 更常用。你不是每天都在写文档,但你每天都在回消息。

已关注

关注

重播 分享

这波跟以前有什么不一样

语音听写本身不新。Whisper、Chirp 3、Apple 的本地引擎,随便拎一个出来都能把 95% 以上的单词写对。

变了的是 AI 的角色。以前是”听见什么写什么”,现在是”听见意思写出来”。中间差的那一步:把口语变成书面语。以前是你自己做,现在是 AI 做。这一步就是”辅助功能”和”主力输入方式”之间的区别。

功能虽好但要收费

Docs Live 和 Keep 脑暴都在 AI Pro 和 Ultra 订阅里,不是免费功能。Google 把这东西放在付费墙后面,说明它自己相信这东西值得收钱。

Gmail 也是同一个路线。Google 说类似功能会进入邮件场景,你对着 Gmail 说话,AI 帮你写、回、整理。

微软也在 Word 里推 Copilot 语音输入。Apple 下周 WWDC,大概率会有类似发布。

打到 2026 年年中,局面已经清楚了:谁先把语音从”辅助输入”变成”默认输入”,谁就赢了下一代办公入口。而你已经在用微信给自己发语音、再转文字、再粘贴进文档了。这套流程本身就是最好的证据,证明这个需求真实存在。

下次你打开空白文档发愣的时候,试试对着屏幕说话。然后看 AI 把你那些散装的念头,变成一段干干净净的文字。