
过去,我们耳熟能详的“听写产品”代表其实并不多,叫得上号的可能有讯飞、Otter、Notta等。如今新生代 Plaud、WisprFlow、Typeless等陆陆续续横空出世,整个AI 听写赛道的玩家都变多了,竞争也变得更激烈了 :一场百花齐放、百家争鸣的时代正式拉开。“听写”就像诸子百家起于春秋(思想萌芽,学派不多),鼎盛于战国(百家争鸣)。
曾经的“录音转文字”到现在的“AI即听即译”,听写赛道正从简单的转写,变成了理解用户在说什么,并试图用更好的陈述方式还原文字、从帮用户做转录渐渐代替了键盘输入。
传统听写的范式:声音 → 文字。ASR 准确率是核心指标。
AI 加持后的新范式:声音 → 意图 → 可用结果,
结果可以是一段润色过的文本、一个结构化任务、一封写好的邮件,甚至一个被自动执行的动作。
人的口语天生不适合直接变成书面语。重复、犹豫、口头禅、逻辑跳跃、句子不完整:这些问题用任何 ASR 模型都解决不了。因为它们不是识别问题,而是表达问题。
所以 AI 听写产品真正要做的事,是补上人类口语缺失的那部分:结构、语气、上下文、意图、格式。
接下来,就让我们直接进入今天的正题:

听写赛道的四位面战争
Gboard如果明天上线一个"自动润色听写文本"的按钮,多少 AI 听写创业公司的估值会被削掉一半?这不是假设,而是整个赛道正在面对的现实。
Google、Apple、Samsung、Microsoft:所有控制系统入口的玩家,都已经具备把"听写 + 清理 + 改写"做成默认功能的技术储备;
Whisper 类开源模型遍地都是,大模型可以反向纠正转写错误,端侧推理能力正在快速提升:NPU 算力已从两年前的个位数 TOPS 跃升到今天的 40-70+ TOPS。
未来的竞争是肉眼可见的激烈,但也并不是说中小公司就完全没有一席之地了。
认清自己产品的定位在这个赛道里是非常重要的,你知道和谁竞争,你才知道怎么去设计自己的大方针大方向,并在对应的大方针下优化好自己的产品。
实际上,"听写"这个赛道,被四股力量瓜分:
系统输入法、AI 写作代理、会议记忆工具、垂直工作流。
每一层的生存逻辑其实是有一定差异的。
四位面战争:谁吃入口,谁抢表达
第一位面:系统基建层
这一层的本质不是 App,而是操作系统的输入基建。
代表:Gboard、Apple Dictation、Samsung Galaxy AI、Microsoft Voice Access、Nothing 手机的 Essential Voice
核心优势:默认入口 + 系统权限 + 十亿级分发。
用户不需要安装任何东西,打开键盘就能用。系统还能接触通讯录、日历、文件、剪贴板。但这一层有一个结构性弱点:不敢替用户做决定,即从录音转写时的语译策略必须保守。
它可以帮你加标点、去掉"嗯""那个",但不会把你随口说的一段话改写成一封正式邮件。因为一旦改错,丢单的就是整个手机市场。
Nothing 这个手机可能对大部分人来说蛮陌生的,我们也是最近才关注到这部手机。
主要原因是它把语音输入变成了其手机主推的输入方式,更接近 "Voice as System Entry" :
按一下,说一句,系统替你处理(邮件,聊天)。
这种大胆的尝试,也验证了语音输入在AI时代下会真的逐步代替手打键盘的方式,即AI听写的功能会越来越重要。
说句题外话,其实我们在写这篇内容前就察觉自己的输入方式已经在悄然被AI大模型软件改变了。基本上,不管与哪个国内外大模型的对话方式首要就会选择语音输入的方式。
商业化判断: 手机厂商不会把系统级能力交付给第三方,尤其是AI听写这么重要的输入口。
你如果执意想做一款"语音输入法"APP(类似键盘输入法应用),本质你就是在这个位面去参与竞争,但这个位面真正有话语权的参与者都是OS,你在未来就是跟 OS 直接打仗,所以赢面太小。
第二位面:表达增强层
这一层的本质,其实是在特定场景下,
基于原意做的表达增强,从而减少二次修正的时间,提升效率。
代表: Typeless、Wispr Flow、Superwhisper、Aqua、Willow、AudioPen
这一层的卖点是:
"在用户自然语言表达之后,通过纠正语法、口癖、错别字以及尝试用更贴切的表达方式重组语句"来让一段表达上较混乱的内容变成有章法、逻辑清晰的段落。像极了语文老师在替你修改作文的感觉。
Typeless就会把它“为你节省了多少修改时间”的贡献放在他产品的首页,时刻提醒你,它高效如斯:

大致体验上,我举个例子:
你对着麦克风说:
普通听写直接输出原话,而表达增强层的应用会输出:
|
差距不在识别率,在于后面那一步改写之后的信息传递效率。
不过Typeless 也切了键盘输入的入口,用户可以通过调起它的键盘输入口去做语音内容的转写。但它又能绕过和OS系统在输入法层面上的直接竞争(就算竞争也竞争不过)。怎么理解这句话?
首先,OS 基建位面的竞争主要集中在“泛”聊天的文本输入场景或者咱们说是高频的对话场景,这种场景并不需要很官方无暇的表达,只要去掉一些基本的口癖和水词,用正确的语法去转写出来就行。甚至在日常对话场景中,我们更希望能还原说话人的风格。
所以在这种日常交流的泛场景下,Typeless 这种很正式的但也比较复杂的转写并没有明显的优势,而且作为键盘输入法的时候,Typeless没有办法做到录音的时候同步出文字,它的交互是要等用户一口气说完才会进行全篇的转写,这种没有办法即时校对文字的体感很差(如果用户没法第一时间知道听写的转写是否正确,很多时候人们说完了一段后也会忘记之前说的是什么,用户又如何校验Typeless 是否把自己的本意转写完整了呢?),且一定会拖慢日常对话的节奏。
以我自己的输入习惯为例,我只有在写大段文章内容的时候,才会去唤起起 Typeless。但我自己日常在微信里,直接会使用微信自带的语音转文字输入法,因为我觉得那样能保留我的一些语气。Typeless 往往会把我的非常多的语气给去掉,也就是那些能保留我心情的语气词(嗯、额、耶等)都给去掉了。
所以说,这类APP在泛场景是没优势的。
但在特定的输入场景,会自动分析上下文语境的、注重表达层的APP的优势就来了。比如你说一句:“今天先不上了,明天再看看。”
在不同场景里,就应该变成不同风格:
在Slack:Hey, let’s pause for today and revisit tomorrow.
在Gmail:Hi John, I think we should hold off for today and continue the discussion tomorrow.
在X:skipping today. revisit tmw.
在Notion:Deferred to tomorrow for further review.
Typeless 的特殊点在于它更强调:App-aware/social-aware/vibe-aware,而不是单纯的“高准确率”。
所以它会尝试理解:这是在 dating app 里?是在工作软件里?是在客服后台?是在写 X?是在写 PRD?然后自动切换人格。
而且在一些更为特殊的对话场景,比如你和律师沟通、和老板汇报工作的时候,注重表达层级别的官话式改写就变得有优势了。
注重表达层的竞争也很激烈,产品非常多。
但它的护城河并不是靠拼技术代差,而是要拼分发,多分发多拿数据。
拿到了数据就能沉淀出用户的个人表达模型:写作风格、专业词库、历史习惯,这样用户就离不开你。
这一点上,Typeless 也是那么做的。

你可以看到它的首屏,用了非常多的占位来展示用户个人表达模型的完善程度。
并且会帮我收录,去记录我自己的用户词典。

此处声明,虽然笔者这边非常浓墨重彩地讲了很多Typeless 的案例,但是在截稿前都没有收 Typeless 的广告费,我们是一家中立的行业媒体(严肃)。
看到这儿的各位开发者,如果你有自信你的产品能让我们团队产生 aha moment,或者说能丝滑嵌入我们媒体团队的日常工作流,请联系我(kleo945,备注开发者),我会不收一分钱地帮你用心推广产品。
然后说一下Wispr Flow, 它和Typeless 是怎样的竞争关系?
我们可以这样类比:他们不是Spotify vs Apple Music(同量级对手),更像Notion vs Obsidian
Wispr Flow = Notion:大融资、企业市场、平台化野心、闭源、高估值、从个人工具向企业协作OS演进。
Typeless = Obsidian:小团队或bootstrapped、消费者驱动、免费层慷慨、社区口碑好、在特定用户群(如writer、doctor、个人使用者)中赢在"性价比+准确率"。
它们短期内不会正面交战,因为:
Wispr Flow 的增长引擎是企业(125新企业客户/周),Typeless 没有企业销售能力(无SOC2=进不了采购流程)。
Typeless 的增长引擎是个人用户的Product Hunt口碑+慷慨free tier转化,跟Wispr Flow 抢的是不同预算线的钱。
商业化判断:
这类产品如果把自己定位成"更好的输入法",用户不会付钱。
但如果定位成"效率工具":帮你省掉每天反复润色邮件、消息、文档的时间:就能收费了。
ASR 准确率是基操,丝滑嵌入每天的工作流才是结果。
另外,这一层的生存条件很苛刻:
你在特定场景中必须比 OS 默认体验的听写好 10 倍,用户才会多装一个 App。
虽然咱们说术业有专攻,OS厂商没必要去切垂类场景,技能点也是有限的,不能无限制乱点。
但如果哪天 Gboard 非要加了个"润色文本"按钮,开发者的日子肯定更难受。
所以真正能活下来的,是那些最懂分发的,能快堆积个人数据沉淀和围绕用户垂直领域的日常工作流的:让用户用得越久越爽,越离不开。
就像扫描全能王,即使苹果自创了扫描功能,仍然阻挡不了扫描全能王的增长趋势。
第三位面:会议/记忆层
这一层的本质不是转写工具,而是"替你做日常会后 dirty work 的TA"。
代表:Otter、Fireflies、Granola、Fathom、Plaud、Limitless(2025年12月已被 Meta 收购)
你不想花时间整理会议纪要、梳理每个人说了什么、接下来谁该干什么:它帮你干。
长音频转写、说话人区分、自动摘要、行动项提取、同步到 CRM 和 Notion,一条龙服务的明明白白。
B2B 有明确的付费意愿,结果可量化,乍一看是个非常 sexy 的商业模式。
但这一层有一个结构性压力:
会议软件巨头只需要在现有产品上加一个功能,就能把你逼上正面战场拼刺刀。
Zoom AI Companion、Microsoft Teams Copilot、Google Meet Gemini,全都在做 AI 会议总结。
通用摘要的差异化正在被快速抹平。这跟我们在第二位战争面里讲过的逻辑一模一样:Gboard 上线一个"润色"按钮,表达增强层就要重新证明自己存在的理由。平台做功能优化的成本,远低于创业公司建立一个独立品类的成本。
开个玩笑,如果还在卯着劲做通用会议摘要,咱们的对手不是同赛道创业公司签KA 的速度有多快,而是 Zoom 的产品经理想要完成下个季度的 OKR的决心有多大。
那么,这个位面能活下来的产品,只有一条路:
进入垂直工作流,把"会议摘要"变成"和业务关联的产出"。
举个例子:
帮销售团队在会议结束 30 秒内自动更新 CRM 里的客户状态、预算、下一步跟进动作
帮招聘团队自动生成候选人评估卡,直接同步进人才池
帮用户研究团队从 20 场访谈里自动提炼洞察,按主题聚类
帮 PMO 团队在会议结束 30 秒内自动输出项目 timeline 表格:哪个阶段做什么事,哪个团队负责配合。
单纯的"会议记录"在2026年已不是新鲜事儿,把"那个岗位上最不想做但又必须做的dirty work 做了"。这才是付费点。
题外话:硬件形态在这个位面值得单独说一句。
Plaud做实体录音笔 + AI 总结,Limitless 在被Meta 收购前做的是可穿戴记忆设备Pendant 。
它们做对了一件事:把场景从线上会议扩展到线下对话,甚至全天候个人记忆。这意味着 capture 的边界在扩大。
很多人会忽视一个点:用一个 APP 录音,你得先想起来打开它,这是一个非常有感知、非常刻意的动作。但如果它是一个硬件:别在胸前、贴在手机背面:你看到它,就想起来要用它。硬件的实体存在本身就是唤起机制。
从我们自己的体感来看,AI 在生活中的应用,最终一定会走向硬件和实体。
原因很简单:
硬件看得见、摸得着,带在身上就能随时想起来用。
一个硬件给了一个可拍摄的实体,更符合influencer 们来做创作传播。
软件藏在手机里几十个 APP 中间,你不刻意记着它,就会忘掉它。很多时候决定用户留存的不是功能好不好,而是他能不能想起来去用。
但 capture 从来不是终点。
这条路线真正的分水岭是 resurfacing:在你需要的时候重新出现。
你三周前和客户聊过的一个定价细节,在你写方案的时候自动弹窗提示;
你上个月面试候选人时提到的一个顾虑,在你做 offer 决策时弹出来;
一个在会议纪要里列得轻描淡写的 to do,到了对应的时间点它会提醒你:这事儿你好像还没干。
商业化判断: 谁能把 用户甚至不需要记得自己曾经记录过这件事 给做好了,就赢了。
第四位面:垂直工作流层
这一层的本质是深度理解行业knowhow 的产出系统。
代表:Nuance Dragon Medical(医疗;Microsoft 以 $19.7B 收购 Nuance)、Gong/Chorus(销售)、各类法律转写工具
很不sexy ,但壁垒最深的位面。需要大量前期积累,适合垂直行业 insider 老炮儿的创业方向。
护城河不来自某一项技术,而来自五层叠加:专业词库、合规认证、行业数据、与既有系统的绑定、用户迁移成本。
这些都不是技术壁垒,是资源壁垒。
大厂拿通用能力复制不了,因为每一层都需要时间和行业关系去堆,说白了还是数据,LLM 厂商未必拿得到这些细分垂类的数据。
这跟我们在第三位面里讲的逻辑形成对照:会议层的创业公司怕的是 Zoom 产品经理下个季度的 OKR,而垂直工作流层怕的从来不是大厂:是竞品进入行业的时间够不够久、在行业的knowhow 够不够深、渠道积累够不够多。
具体来说,每个垂直场景要的东西完全不一样:
医生要的是结构化病历,口述三分钟,出来的是一份可以直接归档的病历文书,而不是一篇需要护士再花十五分钟整理的录音稿。
销售不是要会议录音:要的是客户预算、竞品信息、决策链、下一步跟进动作,会议结束后 CRM 自动更新。这件事我们在第三位面讲过:会议摘要层的产品如果想活下来,就得往这个方向走。而垂直工作流层的产品,从第一天就得把客户的 " next to do "给融进产品里。
律师要的是庭审记录、证据摘要、案情梳理:而且每一段文本必须可追溯、可引用、可质证。"大概意思对了"在法庭上等于没对。
商业化判断:
四个位面里,这一层是最不需要怀疑"是不是真需求"的。付费意愿明确:效率提升可量化,替代方案迁移成本极高,ROI 可以精确到分钟和人效。
真正的难点不在需求端,在供给端:行业 know-how、合规资质、系统集成、KA 客户渠道,数据源头。每一项都是时间换来的门槛。
我们内部判断一个商业模式能不能跑通,通常从这四个维度拆解:产品、渠道、转化、运营。
这一层的特点是:每一个维度单点拉长形成长板,单点突破,对于一个想切进这个市场的优秀创业团队来说都不难,但是四个维度都做好,后来者要追上就很难了。
通用听写拼的是"效率",垂直工作流拼的是行业经验和资源沉淀。
中文市场:跳过听写,直接进入"语音→结构化内容"
中国人对着手机说话这件事没有心理门槛,因为微信语音消息已经训练了十年的肌肉记忆,讯飞输入法日语音调用超 10 亿次,语音输入在中文市场根本不存在"教育用户"这个环节。
对比来看,Wispr Flow 的 CEO 2025 年融资时还在强调要说服用户"voice is faster than typing",强调的核心痛点是英文用户长期不用语音是因为系统听写"too dumb":中国用户早就用脚投票了。
既然说话的习惯不用培养,问题就变成了:说完之后怎么办?
对短消息和搜索来说,系统输入法已经把"说话转文字"做到了 90 分。
讯飞、搜狗、豆包、微信语音键盘覆盖了日常打字的绝大多数场景,这一层基本没有创业公司的生存空间。但对长段落、需要"成文"的场景,系统输入法完全不够。
中文口语的问题不在词汇级,我们没有英文那么多 um/uh/like 要清理。
问题在结构级:我们说出来的话是碎片化的,"然后"、"就是"、"那个"堆了一地,逻辑跳跃,句子不完整。
这种碎片靠"润色"修不好,得靠结构化重组才能变成可用的产出。
英文赛道的解法是"让口语变得像书面语":去 filler、修语法、调 tone。
中文赛道的解法得再往前一步:把口语碎片直接变成系统里该有的那个东西。
这件事已经有人在做了:
钉钉 2025 年上线语音生成日报
通义听悟把长音频自动拆成结构化会议纪要(议题+决策+待办)
讯飞医疗的"讯录"把医生口述直接变成电子病历
销售易 NeoAgent让销售通过语音自动更新 CRM 记录
这些产品验证了同一件事:"语音→结构化产出"在中文市场有真实付费意愿,"语音→纯文字"没有。
举几个更具象的场景:
销售拜访完客户,电梯里对手机说两分钟,CRM 里的客户状态、预算、下一步跟进 30 秒内自动写好
员工下班前对着手机说三分钟,日报周报自动生成,格式对齐公司模板
医生边看诊边口述,病历草稿实时成型,回头改两笔就能签字
创作者讲十分钟思路,自动拆成小红书文案、播客大纲、视频脚本三个版本
这些工作的交付物主要是文本,而AI 最擅长文本。并且还说明了一个共性,用户不排斥表达,但如果能节省说完之后还要坐下来花 20 分钟把它敲成系统需要的格式。
把这 20 分钟压到 30 秒:这才是付费的理由。
那问题来了:切哪个场景?
会议纪要这条路已经是红海。
飞书、通义、钉钉、讯飞四个巨头在打,跟欧美Zoom/Teams/Google Meet 挤压Otter 的逻辑一样:通用摘要的差异化正在被快速抹平,创业公司很难在这个位置活下来。
蓝海在更碎片化的垂直场景:
销售的 CRM 填写、医生的病历、内容创作者的多平台适配、教育场景的笔记整理。但这些场景的付费难度完全不同。
中国用户为"省时间"付费的阈值比欧美高得多,你得让用户觉得"如果没有这个工具我今晚要多花一小时",才撑得起一个独立产品的现金流。
值得注意的是路径选择的差异:
Wispr Flow2026 年推出 Command Mode,开始往结构化方向走,CEO 明确要做"voice-led operating system"。海外的路径是先用通用听写获客,再叠加结构化服务:因为英文用户首先要被说服"语音比打字快",这一步本身就是产品价值。
中国的路径得反过来:先从一个高痛感的结构化场景切进去,用确定性的输出证明价值,再横向覆盖。 因为中国用户已经习惯语音输入了,只靠"转写"收不到钱。
终局可能殊途同归,但起手式决定了你第一批用户是谁、付费意愿有多强、留存靠什么撑住。
张三丰教张无忌太极剑,问他记住了多少。张无忌说全忘了,张三丰说可以上了。
这个故事被引用烂了,但放在这个赛道里有一层可以琢磨下的含义:
张无忌之所以能忘招式,是因为他已经把每一招都练过、拆过、理解过了。
忘掉的是形,留下的是对力量结构的直觉。
做中国市场的特定行业语音工作流产品也一样:你得先把这些行业里的脏活一个一个啃过,理解每个场景里"从口述到可用输出"的完整摩擦链,然后才有资格做模型、做平台。
跳过具体招式直接谈"语音意图引擎",大概率是空转。
终局判断
AI听写赛道正在经历:
基础能力被系统级巨头标准化之后,独立产品要么向上长成"个人表达代理"(你用得越久它越懂你,迁移成本越高),要么向下扎进垂直工作流(一旦接入CRM、HIS、ERP,就再也拔不出来)。
中间那些"比系统自带好一点,但没有深度绑定"的产品,就会是最先被干掉的。
会被系统吞掉的:基础转写、自动标点、去口头语、简单改写、多语言输入、短消息润色、翻译。
Google2026年4月已经发布了免费的AI Edge Eloquent,本地运行Gemma模型,自动去filler、改写tone:这还只是一个实验性App,一旦集成进Android系统输入法就是降维打击。
Apple 2024年底已把Writing Tools(rewrite/proofread/summarize)做进了iOS 18系统级。24-36个月内,这些能力会成为OS标配。
会留下来的:跨app上下文感知(Wispr Flow已实现:在Slack自动用casual tone,在邮件自动用 professional tone)、个人风格的长期记忆、企业术语库、垂直场景的工作流绑定(医生/律师/销售/开发者)、深度语音编辑、本地隐私方案、与特定SaaS 的集成。
这些功能需要持续的个人数据积累,系统级工具短期内做不到这个深度。
能做大的只有两个位置:
一个是"个人表达代理":用户用得越多,AI越懂你的风格、常用词汇、写作习惯。Wispr Flow 的数据证明了这条路:80%的6个月留存,用户72%的日常打字通过语音完成,本质上已经形成了输入习惯替代。这种产品的护城河是个性化数据飞轮。
另一个是"行业产出系统":一旦接入业务系统(CRM、HIS、ERP),迁移成本极高。Otter.ai 的转型是活教材:2025年3月突破$100M ARR,靠的已经不是"会议摘要",是Sales Agent(实时coaching)和SDR Agent(自动做产品demo)。讯飞医疗的"讯录"也是同理:语音进去,电子病历出来,嵌入医院信息系统后就拔不出来了。
中间地带:"比系统输入法好一点但没有工作流绑定的通用听写工具":会被两端挤死。
三个预测
2026-2027年:
系统级AI改写能力完成普及。
GoogleAI Edge Eloquent的Android系统集成版大概率在这个时间窗口落地(当前App Store描述已提及Android系统级键盘集成计划)。
Apple下一代iOS大概率将Writing Tools与Dictation打通。
结论:定价在$5-10/月的"基础AI听写"工具失去增长空间,获客成本急剧上升。
但Wispr Flow 这类产品是否真的会增速放缓?
目前没有证据。截至2026年4月它仍在40% MoM增长,$700M估值。
如果它的context awareness和个人风格记忆做得足够深,
系统级工具的普及反而可能帮它教育市场:
用户先在系统输入法里养成语音习惯,然后因为"不够懂我"迁移到专业工具。
类似Spotify的逻辑:系统播放器免费,但用户愿意为个性化体验付费。
2027-2028年:
通用会议摘要工具分化。
Zoom 已经在2024年10月从Marketplace移除Otter/Fathom/Colibri 等第三方AI工具,替换为自己的AI Companion。但Otter 没死:它转型为垂直AI Agent(Sales Agent做实时coaching,SDR Agent做自动demo),ARR从$81M(2024底)涨到$100M(2025.3)。
结论:纯会议摘要工具会死,能在垂直场景里替代人力动作的会活下来。
2028年之后:
"AI听写"作为一个独立品类名称可能消失,但产品形态不会消失:
会收敛到2-3个赢家,以"AI写作OS"或"个人表达代理"的面目存在。
这更像密码管理器的演化:系统自带了iCloud Keychain,但1Password 靠跨平台+企业功能+高级安全特性活得很好,只是不再叫自己"密码App"了。
给三类人的一段话
创业者:
不要做"又一个更好的听写App"。
往上做,做"用三个月之后离不开的个人表达代理":
核心指标看用户第90天是否有50%以上输入通过你的产品完成
(Wispr Flow 已经验证了72%这个数字的可能性)。
往下做,做"某个岗位必须填的表/必须写的文档"的语音自动化:
核心指标看是否接入了业务系统、形成迁移成本。
投资人:
看三个数:
① 6个月留存(Wispr Flow做到80%,这是标杆);
② 单用户月输入字数的增长曲线(越涨越多说明习惯在形成);
③ 个人化数据深度(有没有学到用户的行业术语、常用表达、偏好格式)。
讲不出"用户的数据越多产品越好用"这个故事的,会被系统级能力吃掉。
产品经理:
这个赛道最可迁移的能力,不是语音识别:是"把模糊口语变成可信输出"的设计能力。
具体包括:上下文识别(用户在写邮件还是发X ?)、改写强度控制(用户想要逐字还是大幅度改?)、
纠错成本设计(错了一个字是打断用户还是默默修正?)、信任建立(用户什么时候开始不检查就直接发?Wispr Flow 的答案是"0.5秒出结果+10%以下错误率")。
这些问题,所有AI Agent产品都要解决。
听写就是Agent化的最小可行场景。
做过这类产品的人,在任何Agent团队都是稀缺角色。
系统厂商拿走基础能力,平台吞掉通用摘要,
留给独立产品的空间只剩两块:
要么深入一个行业深到别人不愿跟 call ,要么沉淀一个人的表达习惯久到别人无法加注。基础能力归系统,深度绑定归场景,个人表达归记忆。
收敛是明天的事,
但选位置是今天的事。
选择大于努力。
创作本文的一些讨论花絮
我放了一段视频花絮,是我和九日(@九日论道)关于这次选题时的一些碎片讨论。
我们还顺手做了件事:用两款主流 AI 听写软件(Typeless和 Get 笔记),
把这段对话的音频实时转写了一遍 :为了让你对照视频的原声,直观感受一下当下优秀的听写应用的真实水准。附测试结果:
Typeless



- 全文完 -
夜雨聆风