万字解析 | AI 必争之地:听写赛道已从春秋迈入战国

过去，我们耳熟能详的“听写产品”代表其实并不多，叫得上号的可能有讯飞、Otter、Notta等。如今新生代 Plaud、WisprFlow、Typeless等陆陆续续横空出世，整个AI 听写赛道的玩家都变多了，竞争也变得更激烈了：一场百花齐放、百家争鸣的时代正式拉开。“听写”就像诸子百家起于春秋（思想萌芽，学派不多），鼎盛于战国（百家争鸣）。

曾经的“录音转文字”到现在的“AI即听即译”，听写赛道正从简单的转写，变成了理解用户在说什么，并试图用更好的陈述方式还原文字、从帮用户做转录渐渐代替了键盘输入。

传统听写的范式：声音 → 文字。ASR 准确率是核心指标。

AI 加持后的新范式：声音 → 意图 → 可用结果，

结果可以是一段润色过的文本、一个结构化任务、一封写好的邮件，甚至一个被自动执行的动作。

人的口语天生不适合直接变成书面语。重复、犹豫、口头禅、逻辑跳跃、句子不完整：这些问题用任何 ASR 模型都解决不了。因为它们不是识别问题，而是表达问题。

所以 AI 听写产品真正要做的事，是补上人类口语缺失的那部分：结构、语气、上下文、意图、格式。

接下来，就让我们直接进入今天的正题：

全文约1万字，深度阅读需要 40分钟。

关于AI听写赛道，我们做了尽可能完整的解析。内容过硬，建议先转发，再细看。

听写赛道的四位面战争

Gboard如果明天上线一个"自动润色听写文本"的按钮，多少 AI 听写创业公司的估值会被削掉一半？这不是假设，而是整个赛道正在面对的现实。

Google、Apple、Samsung、Microsoft：所有控制系统入口的玩家，都已经具备把"听写 + 清理 + 改写"做成默认功能的技术储备；

Whisper 类开源模型遍地都是，大模型可以反向纠正转写错误，端侧推理能力正在快速提升：NPU 算力已从两年前的个位数 TOPS 跃升到今天的 40-70+ TOPS。

未来的竞争是肉眼可见的激烈，但也并不是说中小公司就完全没有一席之地了。

认清自己产品的定位在这个赛道里是非常重要的，你知道和谁竞争，你才知道怎么去设计自己的大方针大方向，并在对应的大方针下优化好自己的产品。

实际上，"听写"这个赛道，被四股力量瓜分：

系统输入法、AI 写作代理、会议记忆工具、垂直工作流。

每一层的生存逻辑其实是有一定差异的。

四位面战争：谁吃入口，谁抢表达

第一位面：系统基建层

这一层的本质不是 App，而是操作系统的输入基建。

代表：Gboard、Apple Dictation、Samsung Galaxy AI、Microsoft Voice Access、Nothing 手机的 Essential Voice

核心优势：默认入口 + 系统权限 + 十亿级分发。

用户不需要安装任何东西，打开键盘就能用。系统还能接触通讯录、日历、文件、剪贴板。但这一层有一个结构性弱点：不敢替用户做决定，即从录音转写时的语译策略必须保守。

它可以帮你加标点、去掉"嗯""那个"，但不会把你随口说的一段话改写成一封正式邮件。因为一旦改错，丢单的就是整个手机市场。

Nothing 这个手机可能对大部分人来说蛮陌生的，我们也是最近才关注到这部手机。

主要原因是它把语音输入变成了其手机主推的输入方式，更接近 "Voice as System Entry" ：

按一下，说一句，系统替你处理（邮件，聊天）。

这种大胆的尝试，也验证了语音输入在AI时代下会真的逐步代替手打键盘的方式，即AI听写的功能会越来越重要。

说句题外话，其实我们在写这篇内容前就察觉自己的输入方式已经在悄然被AI大模型软件改变了。基本上，不管与哪个国内外大模型的对话方式首要就会选择语音输入的方式。

商业化判断：手机厂商不会把系统级能力交付给第三方，尤其是AI听写这么重要的输入口。

你如果执意想做一款"语音输入法"APP（类似键盘输入法应用），本质你就是在这个位面去参与竞争，但这个位面真正有话语权的参与者都是OS，你在未来就是跟 OS 直接打仗，所以赢面太小。

第二位面：表达增强层

这一层的本质，其实是在特定场景下，

基于原意做的表达增强，从而减少二次修正的时间，提升效率。

代表： Typeless、Wispr Flow、Superwhisper、Aqua、Willow、AudioPen

这一层的卖点是：

"在用户自然语言表达之后，通过纠正语法、口癖、错别字以及尝试用更贴切的表达方式重组语句"来让一段表达上较混乱的内容变成有章法、逻辑清晰的段落。像极了语文老师在替你修改作文的感觉。

Typeless就会把它“为你节省了多少修改时间”的贡献放在他产品的首页，时刻提醒你，它高效如斯：

大致体验上，我举个例子：

你对着麦克风说：

"我刚才那个想说的是呃我们明天可能要把这个文档发给客户然后你看下有没有问题。"

普通听写直接输出原话，而表达增强层的应用会输出：

"我们明天需要把这份文档发给客户，你能先帮我检查一下吗？"

差距不在识别率，在于后面那一步改写之后的信息传递效率。

不过Typeless 也切了键盘输入的入口，用户可以通过调起它的键盘输入口去做语音内容的转写。但它又能绕过和OS系统在输入法层面上的直接竞争（就算竞争也竞争不过）。怎么理解这句话？

首先，OS 基建位面的竞争主要集中在“泛”聊天的文本输入场景或者咱们说是高频的对话场景，这种场景并不需要很官方无暇的表达，只要去掉一些基本的口癖和水词，用正确的语法去转写出来就行。甚至在日常对话场景中，我们更希望能还原说话人的风格。

所以在这种日常交流的泛场景下，Typeless 这种很正式的但也比较复杂的转写并没有明显的优势，而且作为键盘输入法的时候，Typeless没有办法做到录音的时候同步出文字，它的交互是要等用户一口气说完才会进行全篇的转写，这种没有办法即时校对文字的体感很差（如果用户没法第一时间知道听写的转写是否正确，很多时候人们说完了一段后也会忘记之前说的是什么，用户又如何校验Typeless 是否把自己的本意转写完整了呢？），且一定会拖慢日常对话的节奏。

以我自己的输入习惯为例，我只有在写大段文章内容的时候，才会去唤起起 Typeless。但我自己日常在微信里，直接会使用微信自带的语音转文字输入法，因为我觉得那样能保留我的一些语气。Typeless 往往会把我的非常多的语气给去掉，也就是那些能保留我心情的语气词（嗯、额、耶等）都给去掉了。

所以说，这类APP在泛场景是没优势的。

但在特定的输入场景，会自动分析上下文语境的、注重表达层的APP的优势就来了。比如你说一句：“今天先不上了，明天再看看。”

在不同场景里，就应该变成不同风格：

在Slack：Hey, let’s pause for today and revisit tomorrow.
在Gmail：Hi John, I think we should hold off for today and continue the discussion tomorrow.
在X：skipping today. revisit tmw.
在Notion：Deferred to tomorrow for further review.

Typeless 的特殊点在于它更强调：App-aware/social-aware/vibe-aware，而不是单纯的“高准确率”。

所以它会尝试理解：这是在 dating app 里？是在工作软件里？是在客服后台？是在写 X？是在写 PRD？然后自动切换人格。

而且在一些更为特殊的对话场景，比如你和律师沟通、和老板汇报工作的时候，注重表达层级别的官话式改写就变得有优势了。

注重表达层的竞争也很激烈，产品非常多。

但它的护城河并不是靠拼技术代差，而是要拼分发，多分发多拿数据。

拿到了数据就能沉淀出用户的个人表达模型：写作风格、专业词库、历史习惯，这样用户就离不开你。

这一点上，Typeless 也是那么做的。

你可以看到它的首屏，用了非常多的占位来展示用户个人表达模型的完善程度。

并且会帮我收录，去记录我自己的用户词典。

此处声明，虽然笔者这边非常浓墨重彩地讲了很多Typeless 的案例，但是在截稿前都没有收 Typeless 的广告费，我们是一家中立的行业媒体（严肃）。

看到这儿的各位开发者，如果你有自信你的产品能让我们团队产生 aha moment，或者说能丝滑嵌入我们媒体团队的日常工作流，请联系我（kleo945，备注开发者），我会不收一分钱地帮你用心推广产品。

然后说一下Wispr Flow，它和Typeless 是怎样的竞争关系？

我们可以这样类比：他们不是Spotify vs Apple Music（同量级对手），更像Notion vs Obsidian

Wispr Flow = Notion：大融资、企业市场、平台化野心、闭源、高估值、从个人工具向企业协作OS演进。
Typeless = Obsidian：小团队或bootstrapped、消费者驱动、免费层慷慨、社区口碑好、在特定用户群（如writer、doctor、个人使用者）中赢在"性价比+准确率"。

它们短期内不会正面交战，因为：

Wispr Flow 的增长引擎是企业（125新企业客户/周），Typeless 没有企业销售能力（无SOC2=进不了采购流程）。
Typeless 的增长引擎是个人用户的Product Hunt口碑+慷慨free tier转化，跟Wispr Flow 抢的是不同预算线的钱。

商业化判断：

这类产品如果把自己定位成"更好的输入法"，用户不会付钱。

但如果定位成"效率工具"：帮你省掉每天反复润色邮件、消息、文档的时间：就能收费了。

ASR 准确率是基操，丝滑嵌入每天的工作流才是结果。

另外，这一层的生存条件很苛刻：

你在特定场景中必须比 OS 默认体验的听写好 10 倍，用户才会多装一个 App。

虽然咱们说术业有专攻，OS厂商没必要去切垂类场景，技能点也是有限的，不能无限制乱点。

但如果哪天 Gboard 非要加了个"润色文本"按钮，开发者的日子肯定更难受。

所以真正能活下来的，是那些最懂分发的，能快堆积个人数据沉淀和围绕用户垂直领域的日常工作流的：让用户用得越久越爽，越离不开。

就像扫描全能王，即使苹果自创了扫描功能，仍然阻挡不了扫描全能王的增长趋势。

第三位面：会议/记忆层

这一层的本质不是转写工具，而是"替你做日常会后 dirty work 的TA"。

代表：Otter、Fireflies、Granola、Fathom、Plaud、Limitless（2025年12月已被 Meta 收购）

你不想花时间整理会议纪要、梳理每个人说了什么、接下来谁该干什么：它帮你干。

长音频转写、说话人区分、自动摘要、行动项提取、同步到 CRM 和 Notion，一条龙服务的明明白白。

B2B 有明确的付费意愿，结果可量化，乍一看是个非常 sexy 的商业模式。

但这一层有一个结构性压力：

会议软件巨头只需要在现有产品上加一个功能，就能把你逼上正面战场拼刺刀。

Zoom AI Companion、Microsoft Teams Copilot、Google Meet Gemini，全都在做 AI 会议总结。

通用摘要的差异化正在被快速抹平。这跟我们在第二位战争面里讲过的逻辑一模一样：Gboard 上线一个"润色"按钮，表达增强层就要重新证明自己存在的理由。平台做功能优化的成本，远低于创业公司建立一个独立品类的成本。

开个玩笑，如果还在卯着劲做通用会议摘要，咱们的对手不是同赛道创业公司签KA 的速度有多快，而是 Zoom 的产品经理想要完成下个季度的 OKR的决心有多大。

那么，这个位面能活下来的产品，只有一条路：

进入垂直工作流，把"会议摘要"变成"和业务关联的产出"。

举个例子：

帮销售团队在会议结束 30 秒内自动更新 CRM 里的客户状态、预算、下一步跟进动作
帮招聘团队自动生成候选人评估卡，直接同步进人才池
帮用户研究团队从 20 场访谈里自动提炼洞察，按主题聚类
帮 PMO 团队在会议结束 30 秒内自动输出项目 timeline 表格：哪个阶段做什么事，哪个团队负责配合。

单纯的"会议记录"在2026年已不是新鲜事儿，把"那个岗位上最不想做但又必须做的dirty work 做了"。这才是付费点。

题外话：硬件形态在这个位面值得单独说一句。

Plaud做实体录音笔 + AI 总结，Limitless 在被Meta 收购前做的是可穿戴记忆设备Pendant 。

它们做对了一件事：把场景从线上会议扩展到线下对话，甚至全天候个人记忆。这意味着 capture 的边界在扩大。

很多人会忽视一个点：用一个 APP 录音，你得先想起来打开它，这是一个非常有感知、非常刻意的动作。但如果它是一个硬件：别在胸前、贴在手机背面：你看到它，就想起来要用它。硬件的实体存在本身就是唤起机制。

从我们自己的体感来看，AI 在生活中的应用，最终一定会走向硬件和实体。

原因很简单：

硬件看得见、摸得着，带在身上就能随时想起来用。
一个硬件给了一个可拍摄的实体，更符合influencer 们来做创作传播。
软件藏在手机里几十个 APP 中间，你不刻意记着它，就会忘掉它。很多时候决定用户留存的不是功能好不好，而是他能不能想起来去用。

但 capture 从来不是终点。

这条路线真正的分水岭是 resurfacing：在你需要的时候重新出现。

你三周前和客户聊过的一个定价细节，在你写方案的时候自动弹窗提示；
你上个月面试候选人时提到的一个顾虑，在你做 offer 决策时弹出来；
一个在会议纪要里列得轻描淡写的 to do，到了对应的时间点它会提醒你：这事儿你好像还没干。

商业化判断：谁能把用户甚至不需要记得自己曾经记录过这件事给做好了，就赢了。

第四位面：垂直工作流层

这一层的本质是深度理解行业knowhow 的产出系统。

代表：Nuance Dragon Medical（医疗；Microsoft 以 $19.7B 收购 Nuance）、Gong/Chorus（销售）、各类法律转写工具

很不sexy ，但壁垒最深的位面。需要大量前期积累，适合垂直行业 insider 老炮儿的创业方向。

护城河不来自某一项技术，而来自五层叠加：专业词库、合规认证、行业数据、与既有系统的绑定、用户迁移成本。

这些都不是技术壁垒，是资源壁垒。

大厂拿通用能力复制不了，因为每一层都需要时间和行业关系去堆，说白了还是数据，LLM 厂商未必拿得到这些细分垂类的数据。

这跟我们在第三位面里讲的逻辑形成对照：会议层的创业公司怕的是 Zoom 产品经理下个季度的 OKR，而垂直工作流层怕的从来不是大厂：是竞品进入行业的时间够不够久、在行业的knowhow 够不够深、渠道积累够不够多。

具体来说，每个垂直场景要的东西完全不一样：

医生要的是结构化病历，口述三分钟，出来的是一份可以直接归档的病历文书，而不是一篇需要护士再花十五分钟整理的录音稿。
销售不是要会议录音：要的是客户预算、竞品信息、决策链、下一步跟进动作，会议结束后 CRM 自动更新。这件事我们在第三位面讲过：会议摘要层的产品如果想活下来，就得往这个方向走。而垂直工作流层的产品，从第一天就得把客户的 " next to do "给融进产品里。
律师要的是庭审记录、证据摘要、案情梳理：而且每一段文本必须可追溯、可引用、可质证。"大概意思对了"在法庭上等于没对。

商业化判断：

四个位面里，这一层是最不需要怀疑"是不是真需求"的。付费意愿明确：效率提升可量化，替代方案迁移成本极高，ROI 可以精确到分钟和人效。

真正的难点不在需求端，在供给端：行业 know-how、合规资质、系统集成、KA 客户渠道，数据源头。每一项都是时间换来的门槛。

我们内部判断一个商业模式能不能跑通，通常从这四个维度拆解：产品、渠道、转化、运营。

这一层的特点是：每一个维度单点拉长形成长板，单点突破，对于一个想切进这个市场的优秀创业团队来说都不难，但是四个维度都做好，后来者要追上就很难了。

通用听写拼的是"效率"，垂直工作流拼的是行业经验和资源沉淀。

中文市场：跳过听写，直接进入"语音→结构化内容"

中国人对着手机说话这件事没有心理门槛，因为微信语音消息已经训练了十年的肌肉记忆，讯飞输入法日语音调用超 10 亿次，语音输入在中文市场根本不存在"教育用户"这个环节。

对比来看，Wispr Flow 的 CEO 2025 年融资时还在强调要说服用户"voice is faster than typing"，强调的核心痛点是英文用户长期不用语音是因为系统听写"too dumb"：中国用户早就用脚投票了。

既然说话的习惯不用培养，问题就变成了：说完之后怎么办？

对短消息和搜索来说，系统输入法已经把"说话转文字"做到了 90 分。

讯飞、搜狗、豆包、微信语音键盘覆盖了日常打字的绝大多数场景，这一层基本没有创业公司的生存空间。但对长段落、需要"成文"的场景，系统输入法完全不够。

中文口语的问题不在词汇级，我们没有英文那么多 um/uh/like 要清理。

问题在结构级：我们说出来的话是碎片化的，"然后"、"就是"、"那个"堆了一地，逻辑跳跃，句子不完整。

这种碎片靠"润色"修不好，得靠结构化重组才能变成可用的产出。

英文赛道的解法是"让口语变得像书面语"：去 filler、修语法、调 tone。

中文赛道的解法得再往前一步：把口语碎片直接变成系统里该有的那个东西。

这件事已经有人在做了：

钉钉 2025 年上线语音生成日报
通义听悟把长音频自动拆成结构化会议纪要（议题+决策+待办）
讯飞医疗的"讯录"把医生口述直接变成电子病历
销售易 NeoAgent让销售通过语音自动更新 CRM 记录

这些产品验证了同一件事："语音→结构化产出"在中文市场有真实付费意愿，"语音→纯文字"没有。

举几个更具象的场景：

销售拜访完客户，电梯里对手机说两分钟，CRM 里的客户状态、预算、下一步跟进 30 秒内自动写好
员工下班前对着手机说三分钟，日报周报自动生成，格式对齐公司模板
医生边看诊边口述，病历草稿实时成型，回头改两笔就能签字
创作者讲十分钟思路，自动拆成小红书文案、播客大纲、视频脚本三个版本

这些工作的交付物主要是文本，而AI 最擅长文本。并且还说明了一个共性，用户不排斥表达，但如果能节省说完之后还要坐下来花 20 分钟把它敲成系统需要的格式。

把这 20 分钟压到 30 秒：这才是付费的理由。

那问题来了：切哪个场景？

会议纪要这条路已经是红海。

飞书、通义、钉钉、讯飞四个巨头在打，跟欧美Zoom/Teams/Google Meet 挤压Otter 的逻辑一样：通用摘要的差异化正在被快速抹平，创业公司很难在这个位置活下来。

蓝海在更碎片化的垂直场景：

销售的 CRM 填写、医生的病历、内容创作者的多平台适配、教育场景的笔记整理。但这些场景的付费难度完全不同。

中国用户为"省时间"付费的阈值比欧美高得多，你得让用户觉得"如果没有这个工具我今晚要多花一小时"，才撑得起一个独立产品的现金流。

值得注意的是路径选择的差异：

Wispr Flow2026 年推出 Command Mode，开始往结构化方向走，CEO 明确要做"voice-led operating system"。海外的路径是先用通用听写获客，再叠加结构化服务：因为英文用户首先要被说服"语音比打字快"，这一步本身就是产品价值。

中国的路径得反过来：先从一个高痛感的结构化场景切进去，用确定性的输出证明价值，再横向覆盖。因为中国用户已经习惯语音输入了，只靠"转写"收不到钱。

终局可能殊途同归，但起手式决定了你第一批用户是谁、付费意愿有多强、留存靠什么撑住。

张三丰教张无忌太极剑，问他记住了多少。张无忌说全忘了，张三丰说可以上了。

这个故事被引用烂了，但放在这个赛道里有一层可以琢磨下的含义：

张无忌之所以能忘招式，是因为他已经把每一招都练过、拆过、理解过了。

忘掉的是形，留下的是对力量结构的直觉。

做中国市场的特定行业语音工作流产品也一样：你得先把这些行业里的脏活一个一个啃过，理解每个场景里"从口述到可用输出"的完整摩擦链，然后才有资格做模型、做平台。

跳过具体招式直接谈"语音意图引擎"，大概率是空转。

终局判断

AI听写赛道正在经历：

基础能力被系统级巨头标准化之后，独立产品要么向上长成"个人表达代理"（你用得越久它越懂你，迁移成本越高），要么向下扎进垂直工作流（一旦接入CRM、HIS、ERP，就再也拔不出来）。

中间那些"比系统自带好一点，但没有深度绑定"的产品，就会是最先被干掉的。

会被系统吞掉的：基础转写、自动标点、去口头语、简单改写、多语言输入、短消息润色、翻译。

Google2026年4月已经发布了免费的AI Edge Eloquent，本地运行Gemma模型，自动去filler、改写tone：这还只是一个实验性App，一旦集成进Android系统输入法就是降维打击。

Apple 2024年底已把Writing Tools（rewrite/proofread/summarize）做进了iOS 18系统级。24-36个月内，这些能力会成为OS标配。

会留下来的：跨app上下文感知（Wispr Flow已实现：在Slack自动用casual tone，在邮件自动用 professional tone）、个人风格的长期记忆、企业术语库、垂直场景的工作流绑定（医生/律师/销售/开发者）、深度语音编辑、本地隐私方案、与特定SaaS 的集成。

这些功能需要持续的个人数据积累，系统级工具短期内做不到这个深度。

能做大的只有两个位置：

一个是"个人表达代理"：用户用得越多，AI越懂你的风格、常用词汇、写作习惯。Wispr Flow 的数据证明了这条路：80%的6个月留存，用户72%的日常打字通过语音完成，本质上已经形成了输入习惯替代。这种产品的护城河是个性化数据飞轮。

另一个是"行业产出系统"：一旦接入业务系统（CRM、HIS、ERP），迁移成本极高。Otter.ai 的转型是活教材：2025年3月突破$100M ARR，靠的已经不是"会议摘要"，是Sales Agent（实时coaching）和SDR Agent（自动做产品demo）。讯飞医疗的"讯录"也是同理：语音进去，电子病历出来，嵌入医院信息系统后就拔不出来了。

中间地带："比系统输入法好一点但没有工作流绑定的通用听写工具"：会被两端挤死。

三个预测

2026-2027年：

系统级AI改写能力完成普及。

GoogleAI Edge Eloquent的Android系统集成版大概率在这个时间窗口落地（当前App Store描述已提及Android系统级键盘集成计划）。

Apple下一代iOS大概率将Writing Tools与Dictation打通。

结论：定价在$5-10/月的"基础AI听写"工具失去增长空间，获客成本急剧上升。

但Wispr Flow 这类产品是否真的会增速放缓？

目前没有证据。截至2026年4月它仍在40% MoM增长，$700M估值。

如果它的context awareness和个人风格记忆做得足够深，

系统级工具的普及反而可能帮它教育市场：

用户先在系统输入法里养成语音习惯，然后因为"不够懂我"迁移到专业工具。

类似Spotify的逻辑：系统播放器免费，但用户愿意为个性化体验付费。

2027-2028年：

通用会议摘要工具分化。

Zoom 已经在2024年10月从Marketplace移除Otter/Fathom/Colibri 等第三方AI工具，替换为自己的AI Companion。但Otter 没死：它转型为垂直AI Agent（Sales Agent做实时coaching，SDR Agent做自动demo），ARR从$81M（2024底）涨到$100M（2025.3）。

结论：纯会议摘要工具会死，能在垂直场景里替代人力动作的会活下来。

2028年之后：

"AI听写"作为一个独立品类名称可能消失，但产品形态不会消失：

会收敛到2-3个赢家，以"AI写作OS"或"个人表达代理"的面目存在。

这更像密码管理器的演化：系统自带了iCloud Keychain，但1Password 靠跨平台+企业功能+高级安全特性活得很好，只是不再叫自己"密码App"了。

给三类人的一段话

创业者：

不要做"又一个更好的听写App"。

往上做，做"用三个月之后离不开的个人表达代理"：

核心指标看用户第90天是否有50%以上输入通过你的产品完成

（Wispr Flow 已经验证了72%这个数字的可能性）。

往下做，做"某个岗位必须填的表/必须写的文档"的语音自动化：

核心指标看是否接入了业务系统、形成迁移成本。

投资人：

看三个数：

① 6个月留存（Wispr Flow做到80%，这是标杆）；

② 单用户月输入字数的增长曲线（越涨越多说明习惯在形成）；

③ 个人化数据深度（有没有学到用户的行业术语、常用表达、偏好格式）。

讲不出"用户的数据越多产品越好用"这个故事的，会被系统级能力吃掉。

产品经理：

这个赛道最可迁移的能力，不是语音识别：是"把模糊口语变成可信输出"的设计能力。

具体包括：上下文识别（用户在写邮件还是发X ？）、改写强度控制（用户想要逐字还是大幅度改？）、

纠错成本设计（错了一个字是打断用户还是默默修正？）、信任建立（用户什么时候开始不检查就直接发？Wispr Flow 的答案是"0.5秒出结果+10%以下错误率"）。

这些问题，所有AI Agent产品都要解决。

听写就是Agent化的最小可行场景。

做过这类产品的人，在任何Agent团队都是稀缺角色。

系统厂商拿走基础能力，平台吞掉通用摘要，

留给独立产品的空间只剩两块：

要么深入一个行业深到别人不愿跟 call ，要么沉淀一个人的表达习惯久到别人无法加注。基础能力归系统，深度绑定归场景，个人表达归记忆。

收敛是明天的事，

但选位置是今天的事。

选择大于努力。

创作本文的一些讨论花絮

已关注

关注

重播分享赞

视频详情

我放了一段视频花絮，是我和九日（@九日论道）关于这次选题时的一些碎片讨论。

我们还顺手做了件事：用两款主流 AI 听写软件（Typeless和 Get 笔记），

把这段对话的音频实时转写了一遍：为了让你对照视频的原声，直观感受一下当下优秀的听写应用的真实水准。附测试结果：

Typeless

Get笔记

- 全文完 -