为什么模型越来越强,AI应用却这么难做?

这周准备更新一篇文章，一开始想从Macaron靠知乎小说引流的案例开始写，后来又想从钉钉 ONE开始写，毕竟它们都挺有讨论度。

但写着写着，我发现这些案例离我还是有点远。Macaron 的投流链路我没有亲眼刷到，App现在好像挂了，我自己也没有完整登进去；钉钉 ONE 更多是从别人的复盘里看到的，不是我自己完整经历过的项目现场。

所以后来我想，还是先回到自己这两周真实用过、真实有体感的东西。

一、先说说工作中的一些案例

1、知识库：同事要啥都能快速给到

换组之后，总是有同事来找我要一些以前项目里的材料。类似这种事在工作里很常见：某个方案、某张截图、某个项目的效果。

上次把知识库的框架索引啥的整理好了之后，一次性的临时需求，claude 找起来很快。

搭建好知识库之后，我顺手用内部的模型做了一个我的知识库 agent，同事来问，直接把地址发过去让他们自行对话查找。

相对来说节省了一些麻烦吧。

2、CLaude/Codex + Figma结合：让demo修改变得更可控

如果只是“让 AI 生成一个 60 分 demo”，这件事其实早就可以做了。但真正烦人的问题不在“有没有初稿”，而在“后面怎么改”。

HTML生成的最大问题，是修改很不确定。你选中某个区域，跟它说“这里改轻一点”“这个模块弱化一下”“把这一块的信息层级拉开”，它确实会改。但它不一定真的理解你选中的是什么，也不一定只改你想改的那一处。你明明只说了一个点，它可能顺手给你改了十个点。

Claude/Codex + Figma结合在一起使用的区别在于，如果我在 prompt 里提前把方向、页面结构、交互链路和组件关系说清楚，它可以直接在 Figma 里生成一套完整的交互链路图，是一个个可以被选中、被定位、被继续修改的设计对象。

这才是我觉得它好用的地方。AI 生成的东西终于更像一个可以继续被编辑、被校准、被协作的对象了。

3、粗暴的 GUI + CUI：不是把聊天框放进去就叫 AI 产品

前面都是私人工作流上一些小的提效案例，接下来说说反例，是我在工作里看到的一些AI项目粗暴地落地。

外面先做一个 GUI，有列表、卡片、入口；用户点进去之后，复杂问题全部交给一个聊天框来承接。

表面上看，界面也有了，AI 也有了，好像产品已经智能化了。但真的用起来，就会发现它只是把很多没想清楚的东西，塞进了对话框里。追问默认都用 sug 承接，每一步都要用户自己往下追。

这不叫智能，这更像是把产品设计外包给用户。

有些信息本来就应该稳定地展示出来，比如数据、状态、证据、结构化结论和下一步选项。用户不需要每次都问一遍“有没有依据”，产品应该直接把依据放在旁边。用户不需要每次都问“那我接下来能做什么”，产品应该给出可比较、可选择、可复核的路径。

对话框当然很强。它适合承接模糊意图，适合追问，适合解释，也适合个性化补充。但它不是万能容器。很多时候用户不是想聊天，用户只是想更快看懂、更快判断、更快做决定。

如果一个产品只是把所有“不知道怎么设计”的部分都塞进聊天框，那它其实不是更智能了，只是更省设计了。

它不是接一个模型就结束了。它要重新判断：什么东西应该由 AI 生成，什么东西应该由界面稳定承载；什么东西需要用户确认，什么东西可以直接执行；什么信息应该展示证据，什么信息可以用一句话总结；什么时候应该让用户追问，什么时候应该主动给出下一步。

这些问题不解决，AI 越强，产品反而越容易变成一团高级混乱。

二、flomo AI的启发

如果说前面讲的是 AI 应用产品体验上的基础问题，flomo 让我看到的是另一个更复杂的问题：一个AI场景有可能是对的，甚至有可能真的跑出来，但它仍然要面对复访、定价和成本这些坎。

我之前为了flomo的AI洞察功能付过费。因为我本来就有记录习惯，也积累了不少零散想法。如果 AI 能帮我从这些笔记里看出线索，整理主题，提醒我过去反复在想什么，这件事理论上很有吸引力。

一开始用下来，我的复访很低。这不是说它完全没价值。它当然能生成一些总结，也能给我一些“你最近可能在关注什么”的反馈。第一次看的时候，我也会觉得，嗯，好像是有点懂我。

但很快就会出现一个问题：然后呢？

如果 AI 洞察告诉我“你最近一直在想 AI 产品和个人成长”，那我接下来要做什么？它会自动帮我聚合相关笔记吗？会生成一个可以持续追踪的主题吗？会隔一段时间提醒我回来看看这个想法有没有变化吗？会把某个念头推进成一篇文章吗？还是只是给我一段看起来挺懂我的总结？

如果只是最后一种，它就很容易变成一次性彩蛋。第一次看，觉得有点意思。第二次看，发现也就这样。第三次可能就忘了打开。

但我后来又遇到一个很有意思的时刻。

今天我突然想搞明白自己的 MBTI 到底是什么。之前我是跟 GPT 聊，因为我和它聊了一年多，它其实存了很多关于我的记忆，所以它能基于长期对话给我一个判断。为了印证这个判断，我又打开了 flomo。因为我也在 flomo 里记了一年多的笔记，它同样拥有一批很私人的、长期积累下来的材料。

这个时候，flomo AI 又变得有用了。因为问题很明确：我不是让它漫无目的地“洞察我”，而是让它基于我过去一年多的笔记，帮我判断一个具体问题。我的笔记就是上下文，MBTI 是明确问题，它的回答可以和 GPT 的判断互相印证。

它不是不好用。恰恰相反，当我带着一个明确问题回到它面前时，它是有价值的。它像一个建立在个人记录之上的咨询入口，可以在某个时刻帮我重新理解自己。

这也是 flomo 和很多消费级 AI 应用不一样的地方。

很多 AI 应用真正尴尬的是，它们只有一个模型入口，但没有自己的上下文。用户打开它，和打开豆包、Claude、ChatGPT，本质上差别不大。但 flomo 不一样。它手里有用户自己一点点写下来的东西：想法、情绪、项目、阅读、关系、困惑、变化。这些东西不是通用大模型天然拥有的，也不是随便换一个聊天框就能复制的。

这份长期记录，本身就是壁垒。

但是，因为它每天的 AI 洞察次数是有限制的。如果我想继续体验更多，就要付更多钱。这个逻辑我当然能理解，模型调用是有成本的，产品也需要商业化。但站在用户这边，感受就很微妙：我刚刚觉得这个功能有点意思，刚想继续往下挖，就被拦住了。

这种限制也许确实能制造复访。今天次数用完了，明天再来。它像一个钩子。但我不太喜欢这个钩子。因为它不是在用产品价值把我带回来，而是在用额度把我卡回来。它不是让我觉得“明天回来会有新的理解”，而是让我觉得“今天不让你继续用了”。这两种复访，体感差很多。

而且更可惜的是，当我用 MBTI 这个模式探索完之后，它没有自然给我一个继续对话的入口。按理说，这是一个特别适合继续深挖的场景。它已经基于我一年多的笔记，给出了一个人格判断，那我接下来很可能想继续问：为什么是这个类型？哪些笔记支撑了这个判断？有没有相反证据？我在工作关系里体现得更像哪一面？我的压力反应是什么？我适合什么样的协作方式？这些问题不应该让我重新开一个很空的入口去问。产品应该顺势把它接住。

结果很巧，flomo在6月12日正好更新了 flomo Agent。看它的介绍，我第一反应是：这不就是我刚刚觉得缺的那一步吗。flomo Agent 想做的事情，其实很清楚：让你和自己积累多年的笔记对话。

它比单次 AI 洞察更接近一个真正的产品闭环。因为它没有停在“我总结了你”，而是往前走了一步：你可以继续问，可以继续聊，可以把洞察变成一个长期对话入口。

但问题也在这里。这个能力目前还在内测阶段，而且只对 MAX 用户开放。也就是要花 299 才能用。

我看到这个价格的时候，第一反应不是“终于可以继续聊了”，而是“怎么又要我多花这么多钱”。尤其是在我刚刚因为次数限制觉得不爽之后，这个感受会更强。不是说它不该收费，也不是说 AI 没有成本。但对我来说，它像是把真正有价值的下一步，放在了一个很高的门槛后面。

这就很微妙。flomo Agent 其实验证了我的判断：AI 洞察之后，确实需要一个继续深挖的对话入口。它也确实把这个入口做出来了。但它把这个入口放在 MAX 后面，让我在“这个方向好像很对”和“我不想为了验证它再付 299”之间卡住。

所以 flomo 这个例子反而更典型了。它不是没有找到产品方向。恰恰相反，它知道下一步在哪里：从一次性洞察，走向持续对话；从“AI 总结我的笔记”，走向“我和自己的笔记聊天”。但 AI 应用难就难在，产品方向对了以后，还要解决成本、定价、试用门槛和用户心理账。

我后来又去翻了一下 flomo 过去公开讲过的商业逻辑。它其实一直是一个很克制的产品，不融资，严控成本，靠订阅会员活着。早年它在少数派写过，flomo 的融资额是 0，早期自己投入资金，后来能自负盈亏；它也说过不靠广告赚钱，而是选择订阅制会员，因为这样用户才是客户。

这套逻辑在传统笔记产品里是成立的。如果 Pro 一年 99 元，团队足够小，服务器成本控制得足够狠，功能又相对克制，这个账可能是能跑通的。它不一定是一个天花板很高的生意，但可以体面地活下去。

但 AI 把这个账改掉了。传统笔记的成本更多是存储、同步、维护。用户越常用，当然也会增加一点成本，但整体还在可控范围里。Agent 不一样。用户每多聊一次，就多一次模型调用；聊得越深，上下文越长，检索、压缩、生成的成本就越高。尤其 flomo 的价值点恰恰是“读你多年笔记”，这不是一个很轻的问答。

所以 99 元/年的 Pro，可能养得起传统笔记功能，但不一定养得起高频 AI 对话。

我看到它把 Agent 放进 Max 299，某种程度上是能理解的。它不是简单地想多收钱，而是在给 AI 成本找一个新的收入层。之前 AI 洞察限制次数、不做追问，本质上也是在控制成本。现在 Agent 终于把追问和对话做出来了，但它也必须面对一个现实：谁来为这些 token 付钱？

我让AI粗略算了一笔账：299 元一年，摊到每天是 8 毛多。但这 299 不是全都能拿来付模型费。渠道、税费、服务器、向量库、开发、客服、运营都要从里面扣。为了方便理解，我们假设一年里能拿出 200 元覆盖模型和 AI 相关成本，这其实已经偏乐观。

如果按我了解到的信息，flomo 用的是 DeepSeek V4。因为 DeepSeek V4 本身已经是低成本路线了。DeepSeek 官方 API 价格里，V4 Flash 非缓存输入是 0.14 美元/百万 token，输出是 0.28 美元/百万 token；V4 Pro 非缓存输入是 0.435 美元/百万 token，输出是 0.87 美元/百万 token。粗略按 7.2 的汇率算，一次 2 万 token 输入、1500 token 输出的对话，如果走 Flash，大概 2 分钱；走 Pro，大概 7 分钱。即使是 10 万 token 输入、2000 token 输出，Flash 也大概 1 毛钱，Pro 大概 3 毛多。

所以如果只看模型推理成本，299 元未必覆盖不了。尤其是大部分用户不会天天高频长聊，产品再做一点缓存、召回控制、模型路由，这个账可能比我一开始想象得更好看。

但 flomo Agent 真正卖的又不是这种“轻轻问一下”的能力。它卖的是“读你多年笔记之后，像一个熟悉你的微信好友一样和你聊”。这意味着它要做召回、压缩、判断、生成，有时候还要联网搜索、语音输入、定时提醒、写回笔记。只要用户真的开始信任它，就很容易从“问一次”变成“聊一串”，从“看一次洞察”变成“让它每天复盘、每周总结、持续提醒”。

这样看，299 到底够不够，就不是一个简单的“贵”或“不贵”的问题。对轻度用户，它大概率够；对重度用户，风险会集中出现。偏偏 AI 产品最想留住的，又往往是那些真的深度使用的人。

所以 flomo 到底赚不赚钱，我没法凭公开信息下结论。公开信息只能说明，它过去至少不是靠融资烧钱，商业模式也一直很清楚。但 AI 之后，它面临的是另一张账：怎么把“个人上下文”这件事做得足够有价值，又不让成本把自己拖死，也不让用户觉得被层层加价。

如果门槛太高，用户很容易从“我还想继续探索”变成“算了，不值得”。

三、所以 AI 应用难做

把这几个场景放在一起，我现在不太想简单说 AI 应用层不行。

因为真实好用的场景当然是有的。知识库好用，是因为材料已经沉淀好了，AI 负责召回和复用。Codex + Figma 好用，是因为方向和对象边界已经说清楚了，AI 生成出来的东西还能继续被点对点修改。

但难做的地方也很明显。工作中的 AI 应用不是没接模型，但它没有完成界面交互分工，只是把复杂性丢给对话框。flomo AI 在明确问题下是有价值的，flomo Agent 也确实补上了继续对话的入口；但这个入口被放在 MAX/299 后面，又让我开始计算“值不值得”。

所以AI应用面临的问题很复杂。

首先，很多产品甚至没有材料沉淀，就想做知识助手。没有明确方向，就想自动生成方案。没有界面分工，就想让聊天框兜底一切。没有复访理由，就想做长期陪伴。找到了复访理由，又卡在成本和定价上。没有组织共识，就想重构工作流。

豆包、claude 这种基模入口吃掉了一大批还没有被产品化得足够好的需求。这对应用层产品其实挺残酷的。因为用户已经有这些足够强、足够灵活、足够顺手的入口了。一个垂直 AI 应用要证明的，不是“我也接了 AI”，而是“在这个具体场景里，我比直接打开豆包、Claude、ChatGPT 更值得回来”。

这个要求很高。

而且，它还要面对一件过去互联网产品没那么尖锐的事：AI 应用的成本结构变了。

过去很多互联网产品，前期是研发、服务器、获客这些固定成本，等用户规模起来以后，边际成本会被摊薄。用户越多，单位成本越低；用户越活跃，广告、订阅、交易都有机会把收入做大。所以很多公司可以先把用户做起来，再慢慢找商业化。

但 AI 应用呢，一次总结、一次对话、一次搜索、一次 Agent 行动，背后都对应模型调用和算力成本。工程优化、缓存、模型路由当然能降本，但不能把高质量推理的成本降到零。尤其是越有价值的 AI 场景，往往越需要长上下文、个性化记忆、多轮交互和外部工具调用，这些都会让成本随着使用量一起增长。

也就是说，AI 应用不是“用的人越多，边际成本越低”这么简单。

很多时候是“用得越深，成本越高”。最后这笔钱总要有人付：要么平台补贴，要么投资人烧钱，要么广告和企业客户买单，要么就是用户自己为更高档会员付费。