WPS 笔记:没有 AI,它将毫无意义-夜雨聆风

WPS 笔记:没有 AI,它将毫无意义

Hi，我是洛小山，你学习 AI 的搭子。

昨天，我们团队开发的 AI 原生应用：WPS 笔记开启了小规模测试。

今天想和你聊聊，我们在 WPS 笔记这个 AI Native 产品过程中的一些思考，希望能与你一起交流。

ainote.wps.cn

全文大概 7000 字，阅读时间约 15 分钟。全文分七个部分：

1.笔记软件的周期律

2.AIGC 时代的新问题

3.「责任转移」

4.往里扔」，然后呢？

5.语音、图片、MCP…在解决同一个问题

6.AI 原生，意味着什么

01｜笔记软件的周期律

作为一个典型的 INFJ，我用过很多很多笔记软件…

印象笔记、为知笔记、语雀、Notion、Obsidian、Typora…

每一个我都认真用过，花时间去搭PARA体系、建分类、养习惯。

每次开始都满怀期待，认真分类，好好整理。

然后笔记一多，我就开始「先丢进去再说」。

再后来，打开都懒得打开了…

我之前总觉得是我的问题，我自己自律不够，我没养成习惯，我太懒了（虽然好像也是）。

我到各大应用商店和用户社区调研，有了更深的感觉，那就是笔记越来越多，越来越乱，越来越不想打开。

然后换一个新的笔记软件，重新开始，循环往复。

看起来像是存在一个周期律，如果我们也做笔记软件，也必然面临这样的周期律。

02｜ AIGC 时代的新问题

回过头思考：我为什么要记笔记，以及现在的传统笔记为什么看起来不太能帮到我了？

以前我用纸笔记笔记，边记边分类。

老师讲到什么，我在对应章节下面记，信息是有序写入的，记录和整理同时发生的。

现在呢？

随着技术持续演进，拍照、录音、截图、剪藏、转发、AIGC…

信息是被动塞进来的，完全无序而且速度越来越快。

现如今，信息熵增速度大于用户整理的速度，导致用户整理成本过高。

这不能归咎于用户懒了，是结构性的不匹配。

在这个前提下，给用户更好的分类方式、更漂亮的文件夹，本质上是在优化，并没有解决根本问题。

伴随着 AIGC 时代的到来，笔记市场出现了许多新的「AI 笔记」产品。

许多都在做单文档级别的 AIGC 辅助。比如帮我对某段录音做 AIGC 总结，让我聊几句话生成一份笔记，帮我润色某段文字…

这件 AI 功能很有价值，但我觉得在笔记的场域中，这些不那么合适。

因为 AIGC 会污染我的笔记。

当 AI 开始往里填生成的内容，我就很难分清哪些是我的思考，哪些是 AI 写的。笔记本来该是我自己 insight 的仓库，现在变成了 AI 内容的垃圾堆。

所以我们在产品立项之时就明确 WPS 笔记的 AI 只做内容的重构，不做 AIGC。

所以，WPS 笔记只帮用户整理信息，不会将一句话扩成一段话，也不凭空生成读书笔记。

整理是 AI 的事，思考是用户的事。

在整理的实践中，在文件管理上目前行业内，也有很多前辈应用做了非常多的探索。

Notion 是我用过很长时间的工具，它把协作做到了极致，以至于很多团队把它当成公司的大脑在用。

Obsidian 解决的是另一个深层需求，我的数据只属于我自己，双向链接让笔记内容更好产生关联，一大批认真思考的人（比如苍何老师）在上面建出了让人叹为观止的知识体系。

这两个产品，我都真心觉得好用。

它们各自找到了一批真正需要它们的人，而且做得很彻底。

但它们解决的，不是「笔记越来越乱、最后放弃」这个问题。

这个问题，换各种更好的工具，解决不了这个终点。

因为本质上，它们都还是把整理的责任，交回给了用户自己。

我想试试另一条路：把整理这件事，彻底交给 AI 来做。

我想借助 AI 的力量，让我的笔记保持永远有序。

03｜「责任转移」

回过头思考，整理这件事的本质，是对抗熵增，信息乱进来，人手动把它变有序。

但这件事从来都是逆熵的，从来都是消耗精力的。

AI 让一件事变得可能：把这个责任，从用户身上，转移到 AI 身上。

这是一种「责任转移」。

传统笔记：整理的责任在用户，AI 只是辅助。

AI 原生笔记：整理的责任在 AI，用户只需要做一件事：往里扔。

你不需要整理，往里扔就行，剩下的事交给 AI。

不过，如果你体验了现在 WPS 笔记，你或许已经发现了…

AI 现在做得还不够好。

我们采用的多级标签的管理，以及 AI 推荐的标签有效性或许不尽人意。

现在 WPS 能做到的只是「大致有序」，离「永远有序」还有一定距离。

不过我们开放了 Skill，你可以借助你的专属 AI ，帮你把笔记优化得更好。

04｜「往里扔」，然后呢？

「AI 帮你整理」有一个绕不开的前提：笔记本里得先有足够多的内容。

如果用户只有三五篇笔记，AI 整理的价值几乎为零。

哪怕我们做的 AI 学习你的整理偏好功能再丰富，也需要信息的积累。

互动太少，AI 根本建立不起你的偏好模型。

所以，让用户愿意、容易、持续地往里存东西，是我们整个产品成立的前提。

这是我们最担心的地方…

用户有没有往里导数据的动力。

于是，我们选择了三大「抓手」。

05｜语音、图片、MCP…在解决同一个问题

语音、图片处理、MCP 接入…

这三件事，在外部看起来像三个独立功能。

但它们都在解决同一个问题：降低存入的摩擦，让信息更高质量，更畅通无阻地进来。

存入的摩擦分两种：

一种是你自己的录入摩擦：录了音要转写整理、拍的照片在笔记里成为附件，搜不到，用不好，管不快。

音频和图片的 AI 功能，希望能给用户带来一些惊喜，让用户能喜欢笔记。

另一种是AI 产出的归档摩擦：Agent 干完活，产出物先不说，你和 AI 沟通过程中的各种洞察存在聊天记录里，你要手动复制出来才能聚拢到一起。

MCP 和 CLI 在解决这件事，让 AI 能喜欢笔记。

语音：带记忆，更准确

市面上的语音转写工具有一个共同的问题：每次转写都是独立的。

我叫奕成，它识别成「弈成」，我改了，下次录音还是「弈成」。

它不记得我的修正。

每次从零开始，每次可能犯同样的错，每次都要你再改一遍。

我们做的是：同一段录音里，AI 或者用户手动改了一处，后面所有同样的地方，AI 都会参考起来，跟着改。

下一次类似的场景再录音，AI 记得你的修正历史，自动修正。

WPS 笔记会随着你的使用，越来越懂你。

同时，AI 在整段音频的上下文里持续推理，主动发现可能的错误，告诉用户「这里我改了，你接受吗」。

举个例子，比如我正在学习雷军的一次分享，其中转写识别到的「小米 Yes」，其实应该是「小米 1S」。

实时转写的过程中，WPS 笔记能识别到这不对劲的位置，主动帮你修正这里，以及后面类似的「Yes」、「ES」，都会统一修正为「1S」。

WPS 笔记还会在顶部的修正历史中，明确告诉你哪些被他修正了。

让用户的音频转写内容实时保持有序。

用户可以接受，也可以回滚，真正做到 Human in the Loop。

AI 出结果用户不需要全盘接受，也不会存在用户手动改完之后， AI 什么都不知道。

你可以看到，你可以参与，你可以修正，你可以引导，然后那份东西越来越符合你的习惯。

也就是说：你的偏好被记住，慢慢转变成 AI 的习惯。

最终，在你和 AI 共建下，生成了这样的学习笔记。

我们在转写优化上消耗海量 token，只为给用户提供更高的上下文准确率。

更进一步的， WPS 笔记还加入了跨笔记整合能力。

比如三点开产品会，四点开技术会，五点开运营会，六点向老板汇报… 然后，WPS 笔记把今天三场会议的内容整合成一份美观的汇报材料。

我们希望跨笔记，跨会话的知识整合，为用户提供第二外脑的可能。

对标竞品，我们的范式是创新的，但转写错误依然会发生，我们仍在持续调整，也欢迎你多多体验，给我们更多的反馈。

图片：搜得到，好处理

在传统笔记里，图片是附件。

附件的意思是：你可能知道它在哪篇笔记里，但你不知道里面有什么，也没法直接通过搜索面板定位这张图。

500 张图片，相当于 500 个黑盒。

我们想做的：存进来的那一刻，就已经是可以被查询的结构化数据。

搜「鹦鹉」，找到所有鹦鹉的内容。

搜「公式」，找到所有含公式的扫描件，一键提取，带完整格式。

搜「计划书」，找到所有内容包括「商业计划书」的图片。

这个是更常见的场景，当你拍下一份 PPT ，里面包含图片、表格…

WPS 笔记可以直接将里面表格提取出来，用到各个地方。

甚至，你可以只搜索「蓝色」，它会把带蓝色的图全部搜索出来。

WPS 笔记图片处理的技术底座是 WPS 自研的 Monkey OCR（目前 SOTA），支持梯形校正、弯曲矫正、公式识别，拍白板不用担心角度。

哪怕是横着拍，反向拍，也没有任何问题，WPS 笔记还会推测你可能想要把里面的二维码搞出来，给你提取了。

这里面包含了我们更大的想法：万物皆可处理。

音频、视频、图片，文本是模态。

你的笔记库本质上是一个多模态的内容库，而不是一堆文字加上一堆无法检索的附件。

在这个知识库里，所有内容都是可以被查询的、可以被关联的。

MCP + CLI ：Agent 产出的内容不需要人类搬运

讲完了「人类的内容怎么存进来」，说「AI Agent 的产出怎么进来」。

这件事的技术支撑，叫 MCP。

MCP（Model Context Protocol，模型上下文协议）是 Anthropic 在 2024 年底提出的开放协议，本质上是统一了 AI 调用外部工具的方式。

在这之前，AI 工具之间是完全隔离的。

你在 Claude 里聊的，Cursor 不知道。

每个 AI 工具都是孤岛。

OpenAI 试着用 Function Call 曾经试图解决这个问题，但他们的方案改造成本极高，每个应用要单独对接，工具提供方和使用方是紧耦合的。

MCP 做的事更彻底：AI 通过约定好的格式来自主决策：需要什么，调用什么工具，拿到结果后继续推理，直到任务完成。工具的提供方和使用方，彻底解耦。

任何应用都可以把自己的能力封装成 MCP 服务；

任何支持 MCP 的 AI 客户端都可以操作对应的应用。

这也是许多 Agentic 应用能力进化的原因之一。

为了能让 AI Agent 更好调度 WPS 笔记，WPS 笔记做了完整的 MCP 服务，23+ 个工具，覆盖笔记完整生命周期。

举个例子，我让智谱的澳龙（AutoClaw）读取 PDF 之后，基于《将相和》这篇课文帮我生成教案。

当我给 AI 提出里面内容有点寡淡的时候，AI 帮我调用笔记的工具生成了插图。

还美化了版式。

但 AI 时代的发展日新月异，MCP 并不是版本答案。

很多 AI 开发者发现，使用 MCP 遇到的真实的困境是：工具越挂越多，AI 每次干活前都要先把所有工具的说明书读一遍，光这一步，就已经消耗了大量的Token。

所以最近，在 MCP 之外，另一种更古老、也更高效的方式参与进来：CLI（命令行接口）。

曾几何时，CLI 是人类操作计算机最底层的方式之一，存在了大半个世纪

它的核心逻辑是：用一行指令，直接让计算机做事，拿到结果。

没有图形界面，没有多余的封装，指令进去，结果出来。

而这种轻量级的链接方式，和 AI 的配合出奇地好，于是，CLI 焕发了新生。

这也是为什么，WPS 笔记在构建 MCP 服务的同时，同时提供 CLI 接口。

Claude Code 、Cursor 和龙虾可以通过命令行直接调用，零配置，写代码的同时笔记同步更新。

两个分工也很明确：

MCP 负责「连接」：让 AI 知道有哪些工具可以用，规范地调用、规范地写回。

CLI 负责「执行」：真正干活的时候，又快又省，不浪费推理空间。

两者配合，AI Agent 既能调度复杂的工具体系，又能高效地完成具体任务。

这次测试，我们还开源了官方的 Skill 集，现在已有许多网友提交了自己的 SKill。

https://github.com/wpsnote/wpsnote-skills

而你需要做的，只要告诉你的龙虾，到这里下载所有的 Skill，接下来，就只需要告诉 AI ，你想要什么。

这样一来，

你用 Claude Code 产出的技术决策，直接进笔记。

你用 OpenClaw 跑完工作流的产出，直接进笔记。

你和任何 AI 聊完的重要结论，直接进笔记。

不需要你手动搬运，不需要你复制粘贴。

下次换任何一个支持 MCP 的 AI 客户端，它先来笔记里搜一圈，带着你的记忆开始对话。记忆不断，上下文不丢。

我把我所有的推文都存到了 WPS 笔记里。

后续我写文章的时候，只需随手一问，AI 就能给我找回来。

现在很多用户让 Agent 帮他搜竞品、做研究、整理选题库。

但跑完之后呢？

产出消失在聊天记录里，三个月后翻遍所有工具，找不到了。

知识没有复利，每次都从零开始。

我们希望 Agent 负责干活，笔记负责记住。

所有内容，都值得等到被用到的那天。

不过，现在能这样用的，主要是开发者和重度 AI 工具用户。

对大多数人来说，听懂 MCP、CLI、Agentic 等等名词本身就是门槛。

怎么把这个门槛降下来，让更多人体验到，我们还在积极探索。

06｜AI 原生，意味着什么

MCP 做出来之后，我们先开源了一个 Skill 仓库。

Skill 是什么？是告诉 AI「怎么更好地用这些工具」的说明书。

光有工具不够，AI 还要知道什么场景用什么工具、先做什么后做什么、出错了怎么兜底。Skill 就是这套元知识。

以边听边总结为例，我们会引导 AI 尽可能使用 CLI 命令（如果它支持的话）

引导 AI 如何替用户省钱。

以及教 AI ，怎样替用户做好总结的排版。

有人做了美化场景的 Skill：教 AI 如何在笔记编辑器里对内容进行排版。

有人做了灵感引擎的 Skill：从历史笔记里检索相关记忆，发现不同笔记之间的隐含关联，把分析结果转化成可阅读的洞见。这也不是我们规划出来的功能。

有人做了编码助手：写代码的同时，自动把技术决策、架构设计、核心逻辑整理成技术文档，存进笔记。新人 onboarding 直接看笔记就够了。

现在仓库里有内容创作、新闻解读、文献阅读、文档导入、实时转写总结…

不过，这些也仅仅只是打个样，因为我们开发团队没有办法穷尽所有的专业场景，于是我们把 WPS 笔记的基础能力层开放出来，社区伙伴可以在上面贡献自己的 Skill。

这里感谢 @loki 为我们添加了数条教育类 Skill。

我们也会坚定不移地，和所有 AI 社群的伙伴们，一起建设好 WPS 笔记生态。

全面开放笔记对接 AI 能力，是我们团队对 AI 原生应用的战略。

一方面，我们以往在做产品的时候，会陷入一个思维定势：我们要尽可能地把功能做到笔记应用里，以提供更多的服务。

换言之，我们规划了什么功能，用户就用什么功能。

但笔记是一个极其个人化的东西。

每个人存东西的方式不一样，用信息的方式不一样，整理逻辑也不一样。

另一方面，笔记软件不仅仅只有用户自己使用。

以前软件的用户只有一种：人。

所有的产品设计、所有的交互逻辑，都是为人设计的。

传统产品的设计思路是：我们设计好流程，你来用流程。

这个假设在过去几十年里从来没有被质疑过。

现在这个假设正在被打破。

AI 原生时代下，我们用户有两种：人，和 AI Agent。

如果我们设计的软件只能被人操作，不能被 AI Agent 调用，就相当于把一大类用户拒之门外。

而且这类数字用户（Agent）的数量，会随着 Agent 的普及越来越多。

举个例子：如果一家餐厅只接受堂食，不接受外卖，它能服务的用户天花板就是来得了店里的那些人。

外卖平台来了，不接入的餐厅，少的不只是一个渠道，是整个不能出门或不愿出门的用户群体。

AI 原生的应用也是如此。

如果不向 AI Agent 开放接口，产品保持封闭，我们服务的永远只是坐在电脑前手动操作的那部分用户，应用的路，会越走越窄。

但以后有大量任务，是 Agent 代替人来发起的。

比如 Agent 帮你搜集信息、整理报告、归档产出，这些操作如果你的软件接不住，产出就会存到别的地方去。

而且，随着 AI 自主编程能力越来越强，需要我们开发者定制的功能也会越来越少。

换言之，我们做好数据载体，给人类提供更好的阅读服务，给 AI 提供更高效的编辑能力，更稳定的存储能力，让 AI Agent 能顺畅地操作我们的软件，就像人操作它一样自然。

Human in the Loop，但人只需要收菜，人不需要播种和施肥。

终｜我们现在在哪里

最后说我们现在真实的状态。

产品昨天刚发布，在做封闭测试。

现在的用户主要是 AI 极客群体…

他们理解 MCP，知道怎么配置，能从中得到价值…

但我们最终想服务的，不只是这些用户。

我们想让更多普通人也能用上。

他们不需要懂 MCP，不需要配置，打开就能用，往里扔东西就行，AI 帮他们整理好。

科技不是高高在上，

科技要服务于每一个人。

但这件事，我们还没完全做到。

降低门槛这件事，比做出功能难得多…

因为你要让用户相信「扔进去 AI 能帮我整理好」，就得先真的能整理好；整理好之后用户才有动力继续存；存得多了 AI 才越来越懂你。

这是一个需要时间的飞轮，我们现在还在飞轮启动的阶段。

不确定多久能真正转起来。

还有一个我一直在想、但没有想清楚的问题：

如果 AI 整理得越好，用户对 AI 的依赖就越深。

这件事的边界在哪里？

什么时候是「AI 帮你管理知识」，什么时候变成了「AI 代替你思考」？

我没有想清楚。

但我认为，这是做 AI 原生产品，无法绕开的命题。

你在用什么笔记软件？

有没有遇到过类似的问题，或者有什么不同的看法？

欢迎评论区聊聊，我们 WPS 笔记开始 Spring 内测，内测会持续到产品上线，你在内测期间记录的内容不会删档。

内测满 10,000 则停止注册，如果你有兴趣，欢迎点击「查看原文」

或者前往 ainote.wps.cn 体验。

我是洛小山，我们下次见。

关于我

我是洛小山，一个在 AI 浪潮中不断思考和实践的大厂产品总监。

我不追热点，只分享那些能真正改变我们工作模式的观察和工具。

如果你也在做 AI 产品，欢迎关注我，我们一起进化。

本文知识产权归洛小山所有。

未经授权，禁止抓取本文内容，用于模型训练以及二次创作等用途。