乐于分享
好东西不私藏

Notion AI Agent全面测评:你的第二代笔记助手

Notion AI Agent全面测评:你的第二代笔记助手

2025年底,Notion联合创始人Ivan Zhang做客Latent Space播客,分享了Notion在AI Agent落地过程中的真实反思。这场对话在科技圈引发广泛讨论,不是因为Notion发布了什么新产品,而是因为他们说了一句很多人不敢承认的话:“真正难的,不是做Agent,而是重做整个工作系统。”

这句话戳破了行业里一层窗户纸。过去几年,几乎每家SaaS公司都在喊”AI赋能”,都在往产品里塞一个Copilot按钮。但Notion用亲身经历告诉大家:当你真的想让一个AI Agent在你的产品里稳定运行,你面对的技术挑战,远比”接一个模型API”要复杂得多。

Notion最初以为,做一个AI写作助手,是一个相对简单的工程问题。接上大模型,加一个提示词模板,搞一个聊天界面,上线。这个路径,他们在Notion AI上已经验证过了。

但做Agent完全不是一回事。AI写作助手本质上是一个单轮问答系统:用户发一个指令,AI返回一个结果,任务结束。这个交互模式是原子化的、可控的、出错了也容易回滚。

Agent则不同。它是持续运行的工作流:AI要理解意图、拆解任务、执行多个步骤、在执行中处理异常、最终产出结果并自行判断完成。整个过程可能持续几分钟甚至更长时间,涉及对数据库的多次读写,调用多个工具,处理权限验证,还要在出错时优雅降级。

Notion团队的判断是:这种运行模式的可靠性要求,比传统SaaS功能高出至少一个数量级。 每天一百万次操作中,任何一次因AI介入导致数据损坏,都是不可接受的代价。

根本矛盾在于:模型是概率系统,而工作系统要求确定性输出。当概率遇到确定性,工程师们就陷入了无休止的边界情况处理。

二、可靠性:Agent的7×24小时生存挑战

Notion团队在播客里提到了一个核心挑战:Agent需要长时间稳定运行,而长时间运行意味着指数级增长的出错可能性。

传统AI聊天机器人,用户期望是”你问我答”。Copilot类产品,用户期望是”你帮我补全一段文字”,错了也无妨。但Agent不一样——当Notion的Agent帮用户管理会议、整理文档、更新数据库时,用户的期望变成了:你必须100%正确,因为你做的是本来应该由我来做的工作。

这个期望差异是致命的。一位用户如果发现Copilot把他写的”项目计划”改错了一个词,他最多耸耸肩。但如果Agent在凌晨三点把他的团队文档库搞乱了,他第二天上班看到的就是一场灾难。

Notion团队在可靠性上花的功夫,远超过他们最初的预计。他们需要设计容错机制——Agent的每一步操作都要可审计、可回滚;需要引入人工确认节点——对于高风险操作,必须让用户二次确认;需要构建”保守策略”——当Agent不确定该怎么做时,宁可停下来问用户,也不要擅自行动。

可靠性的本质,是信任。 用户把工作交给Agent,本质上是把对自己工作成果的责任托付给了系统。如果系统不值得信任,用户就不会用。这听起来是一个产品问题,但它的根子却在工程端:没有扎实的可靠性架构,信任无从建立。

三、权限系统:被严重低估的复杂性

Notion是一个工作空间产品。这意味着它天然承载了多用户、多角色、多层级的权限体系——个人页面、团队空间、共享文档、只读成员、编辑权限管理员,每个用户在每个层级上都有不同的访问边界。

在”AI写作助手”阶段,这个问题很简单:用户自己用,权限就是用户本人的权限。但当Notion想做一个Agent来帮团队管理工作流时,权限就变成了一个极其复杂的问题。

Notion团队在播客里透露,他们在Agent权限设计上走了大量弯路。核心问题是:Agent是否应该拥有它所代理的用户的全部权限?

直觉上似乎应该如此——我授权Agent帮我管理文档,那Agent当然可以读取和修改我的文档。但这个逻辑在多用户场景下迅速崩溃。如果Agent A读取了用户甲的文档,然后基于这些信息修改了用户乙的文档,这个行为在权限层面应该如何定义?Agent A拥有的是甲的权限,但它实际操作的乙的空间,系统如何感知到这个”代理行为”并加以控制?

这还没完。当Agent需要调用外部工具——比如给团队成员发邮件、预约会议室、调用第三方API——每个外部工具都有自己的权限体系,Agent如何在获取充分授权的同时,避免权限过度授予带来的安全风险?

Notion团队最终的理解是:AI时代的权限系统,不是给现有权限体系加一个”AI角色”那么简单,而是需要重新思考权限的本质。 传统权限模型是静态的——系统工程师预先定义好每个角色能做什么、不能做什么。但Agent的行为是动态的,它会根据上下文决定下一步操作,这个决定无法预先穷举。

他们最终走向了一个更精细的动态权限框架:Agent的每次操作,都需要根据当前上下文重新评估权限边界,权限不是一次性授予,而是逐次验证。这个设计让系统复杂度大幅上升,但也让Agent在多用户环境中的行为变得可控。

四、检索:比”搜一下”要难一万倍的问题

Notion有海量的用户数据——页面、数据库、评论、附件、关联关系。用户在自己的工作空间里积累了几年的文档,这些文档之间有复杂的引用关系,有结构化的数据库字段,有半结构化的笔记内容。

当用户问Agent”上周那次产品讨论的决定是什么”,这个问题在技术层面不是一个简单的语义搜索。Agent需要:

首先理解”上周”指的是哪个时间段,”产品讨论”指向哪个页面,”决定”意味着什么类型的内容。然后在数据库的深层结构里找到相关内容——可能涉及跨数据库的关联查询,需要从多个页面的碎片信息中拼凑出完整答案。

Notion团队发现:“让Agent准确检索到用户需要的信息”,比”让用户自己搜索到需要的信息”要难得多。 用户可以根据搜索结果调整关键词,但Agent需要一次命中正确答案。

为了解决这个问题,Notion投入了大量工程资源去构建一个融合检索系统:把语义检索(理解意图)和结构化检索(理解数据库关系)结合起来,让Agent既能理解”用户想要什么”,也能理解”数据在哪里”。这个系统的实现复杂度,远超他们最初的预期。

五、产品判断:Agent什么时候该出手

这个问题听起来最像产品设计,但在Agent语境下,它的工程复杂度被严重低估了。

Notion团队提出的核心问题是:Agent应该有多主动?

如果Agent太被动,用户每次都要手动触发,那Agent的价值大打折扣——用户自己来做就好了。如果Agent太主动,它可能在用户正在思考的时候弹出一个建议,打断用户的思路;或者在用户还没准备好的时候,自动帮用户做了某个决定,让用户措手不及。

更复杂的是,这个”主动性的边界”因人而异、因场景而异。一个喜欢快速行动的用户,可能希望Agent更主动;一个谨慎的用户,可能希望Agent只在被问到时才出手。

产品判断的挑战在于:它既不是纯算法问题,也不是纯产品问题,而是两者的深度交织。 你不能把”什么时候推送”写死成规则,因为用户行为是高度个体化的。模型可能在不该主动的时候主动,在该主动的时候沉默。

Notion的解法是构建一个”产品判断层”——一个介于模型能力层和最终输出之间的决策框架,根据用户历史行为、当前工作状态、任务类型等多个维度,决定Agent应该以什么方式、在什么时机、做什么动作。

六、Agent正在重新定义”产品”这件事

Notion团队在播客里说了一句很重的话:“我们不是在Notion里加一个Agent功能,我们是在重新思考Notion这个产品的工作方式。”

这句话的分量在于:它不是在功能层面谈Agent,而是在范式层面谈Agent。当你的产品里有了一个可以自主运行的Agent,原有的产品设计逻辑需要全部推倒重建——不是某一个功能按钮变了,而是整个系统对”谁来做什么”的基本假设变了。

传统的SaaS产品,核心假设是:人操作软件,软件执行动作,结果由人承担。这个假设在Agent加入后不再成立。当Agent代替人执行操作,”人”和”软件”之间的边界变得模糊,原有的很多产品设计范式——权限、安全审计、错误恢复、数据一致性——都需要重新思考。

行业里有一个趋势值得关注:Agent正在让”产品”和”平台”之间的界限模糊。 一个足够强大的Agent,用户不再把它当作一个工具,而是当作一个协作者。当用户开始把自己的工作习惯围绕Agent来组织,Agent本身就成了产品的核心,而不是产品的一个功能。

七、给产品团队的三个建议

基于Notion团队的实践经验,有几个值得参考的方向:

第一,可靠性先行。 在Agent的准确性达到足够高之前,不要急于推向用户。Notion团队在内部测试阶段花费了大量时间打磨容错机制。宁可慢一点,也要确保Agent的行为是可控的。一次严重失误导致的信任流失,往往很难重建。

第二,从权限模型重新设计。 不要在现有权限体系上打补丁,而是把Agent当作一个全新主体来对待,提前想清楚Agent的行动边界、行为审计机制,以及权限过大的止损方案。

第三,产品判断需要专项投入。 Agent的交互设计不是产品经理拍脑袋能决定的,它需要基于真实用户行为数据不断迭代。团队应该把”Agent交互设计”作为独立课题来对待,而不是附属在模型开发项目里。

Notion的故事给行业最重要的一个提醒或许是:Agent不是一个功能,它是一个需要你重新发明产品的东西。 那些把Agent当作”再加一个按钮”的产品团队,会发现自己其实在重新发明轮子——而轮子的形状,已经因为Agent的出现彻底改变了。