AI 原生产品团队怎么工作:来自 Claude Code 产品经理的经验-夜雨聆风

AI 原生产品团队怎么工作:来自 Claude Code 产品经理的经验

Cat Wu 是 Anthropic Claude Code 和 Cowork 的产品负责人。她在 Lenny 的 podcast 上讲了 Claude Code 团队内部的工作方式——发布节奏、PM 和工程师的角色融合、跨职能协作怎么跑。这些细节大部分是第一次对外讲清楚。

这篇文章整理了我认为最值得 AI 产品公司关注的几块：发布周期从月变成天之后，PRD、roadmap、跨职能协作和 PM 技能结构都发生了什么变化。播客见原文链接。

发布周期从月到周到天

Cat 说得很直接：AI 之前，技术变化慢，规划可以按 6 到 12 个月来做，因为写代码贵，所以强调和各个 partner team 对齐长期 roadmap。现在，很多产品功能的时间线从六个月压缩到一个月，有时候压缩到一周，甚至一天。

她给了一个具体的流程例子——Research Preview。Claude Code 几乎所有的新功能都作为 Research Preview 发布。在 UI 上明确打标签告诉用户：这是早期产品，只是一个想法，我们在收集反馈，这个功能未来可能不会一直存在。

这个做法的意义不是”让产品看起来没那么正式”，而是降低团队的承诺成本。用 Cat 的原话说：”这降低了我们发布东西的承诺。我们可以在一两周内就把一个东西发出去。”

一个产品一旦被当作正式功能发布，团队就需要承诺长期支持、处理 edge case、做完整的文档和回归测试。Research Preview 这个标签把这些承诺拆掉了，于是任何工程师有一个想法，周内就可以推给用户。

Lenny 问她，你们发布这么快，是不是因为内部用上了 Mythos（Anthropic 内部那个能力极强但还没发布的模型）。她的回答：

“Mythos 是一个极其强大的模型。我们内部确实在用这些模型。这稍微提升了一点我们的发布速率，但不能解释大部分增量。我觉得大部分来自流程和团队的期望。”

团队低流程是最重要的。他们希望每个人都觉得自己可以把一个想法在一周内、有时一天内推向世界。这个文化本身比工具更重要。

PRD 少了，原则多了

传统的 PM 工作模式里，PRD 和多季度 roadmap 是核心载体。Cat 说，他们几乎不写 PRD 了——除了两类场景：

一类是”模糊度特别高的功能”。这种情况下写一个 one-pager 有用：目标是什么、什么是 delightful 的使用场景、现在的 failure mode 是什么、需要修复什么。

另一类是”需要重基础设施投入的项目”。这种项目天然需要几个月时间，所以仍然写完整 PRD。

那么替代长 PRD 和 roadmap 的是什么？Cat 讲了两件事：

第一件是每周 metrics readout。 团队每周做一次完整的指标回顾，目的是让每个人都深度理解业务的各个方面——核心目标是什么、趋势如何、背后的驱动因素是什么。

第二件是团队原则（team principles）。 这份列表包括：谁是我们的核心用户、为什么是他们、我们愿意做什么取舍。Cat 说：

“我们明确写出所有这些，是为了让团队每个人都觉得自己理解业务如何运转、什么对我们重要、我们愿意牺牲什么。这样每个人都能自己做决定，不需要等 PM 或其他 stakeholder。”

这是一个很重要的转向。传统 PM 把大量时间花在”对齐”上——对齐 roadmap、对齐优先级、对齐每个跨职能团队。当发布周期是一天到一周时，每个决策都走对齐流程是不可能的。取代它的是：让每个人理解得足够深，使他们能独立做出与团队方向一致的决策。

对齐一次，而不是对齐每次。

跨职能协作的新形态

Cat 描述了 Claude Code 团队的一个具体机制，叫 evergreen launch room。

流程是这样的：工程师觉得一个功能 ready 了，团队内部 dogfood 过了，就在 evergreen launch room 这个频道里发一个帖子。然后 docs 负责人 Sarah、PMM 负责人 Alex、DevRel 的 Tarek 和 Lydia，会在第二天跳进来，把营销公告搞定。

这里有几个值得看的点：

第一，是”评审”而不是”同步”。 这个协作是异步的，工程师不需要拉会、不需要提前几周预约所有 stakeholder 的时间，只需要把功能 post 出来。

第二，是”次日完成”而不是”纳入季度计划”。 传统的跨职能协作里，marketing 和 docs 有自己的排期，一个 feature 要发布通常需要提前几周通知。这里的模式是：工程师决定何时发，其他职能响应。

第三，这个机制本身是 PM 设计的。 Cat 的原话：

“PM 应该是设置这个流程的角色。”

她把 PM 的核心职责重新定义了。不再是”写需求、推进项目、协调资源”，而是”建立一个让工程师可以独立出货的框架”。框架建好了，PM 不需要在每个功能里充当协调人。

这对 PM 来说是个角色转变——从每个功能的 owner，变成团队机制的 owner。

PM、工程师、设计师的边界在融合

Cat 在访谈里反复提到一件事：角色在融合。PM 在做一些工程工作，工程师在做 PM 工作，设计师既在做 PM 也在写代码。她说：

“我们团队上有很多工程师完全可以端到端地操作——在 Twitter 上看到用户反馈，到周末就把产品发了出去，几乎不需要 PM 介入。我觉得这实际上是最高效的发布方式。”

Claude Code 团队招人的倾向是”有出色 product taste 的工程师”，而不是”更多 PM 来引导工程师”。Cat 说这样做的理由是”减少发布任何产品的 overhead”。

值得注意的是，Cat 自己是工程师出身，Claude Code 团队的 PM 几乎都要么当过工程师、要么在 Claude Code 里直接写代码，设计师也大多有前端工程背景。这不是偶然：

“这是帮助团队建立信任的事情之一，也让我们可以跑得更快。”

PM 在团队里是否有执行能力，直接决定了他们是成为加速器还是瓶颈。

这个融合是有代价的。Cat 坦率地讲了牺牲了什么：产品一致性。

传统上，代码写起来贵的时候，你会仔细规划整个产品矩阵、产品之间的关系、每个产品对应的用例——通常每个用例对应一个产品。现在，因为 AI 跑得太快、要测试的想法太多，有时候会出现功能之间重叠。很多时候是因为内部喜欢两种 form factor，想让外部用户告诉他们哪个更好。

代价是：新用户不知道”完成 X 的最佳路径是什么”。Claude Code 里加了一个叫 /power-up 的引导功能，就是为这个问题：

“过去我们不想做 power-up 这样的东西，因为我们觉得产品应该足够直观，不需要任何 tutorial。后来意识到功能太多、需求太大，于是我们偏离了’不做 onboarding’的原初原则，加了这个功能——因为太多用户想知道：这里有 100 个功能，我必须用的那 10 个是哪些。”

这是一个真实的 trade-off。用快速迭代换产品一致性，然后在一致性被损害到一定程度时，再用 onboarding 来补。不是完美，但是一个清醒的选择。

Product taste 是什么，怎么培养

如果角色在融合，那么区分 senior 和 junior 的核心能力是什么？Cat 的答案是 product taste。

“代码变得便宜之后，变贵的是决定写什么。什么是这个功能的正确 UX？什么是用户体验这个功能最 delightful 的方式？我们有数以万计的 GitHub issues 要每一件事，需要很多判断力来决定哪个值得做、应该怎么做。”

Product taste 不是一个抽象的品味问题，Cat 给了很具体的几个培养路径。

第一，和模型大量交互，让模型反思自己的行为。

这个建议我没在别处听过。Cat 的做法是：当模型做了一件意料之外的事，她会让模型自己分析为什么做了那个决定。举例：模型做前端修改时只跑了测试，没有实际用 UI 验证。如果你问模型为什么，它可能会说：system prompt 里有让我困惑的地方、或者我没意识到前端验证是这个任务的一部分、或者我把验证委托给子 agent 但没检查它的工作。

“很多时候，只要对模型为什么做了那个决定保持好奇，你就会看到是什么误导了它，然后可以去修复 harness 来关闭这个 gap。”

PM 在做 AI 产品，模型不是黑盒。让模型自己解释自己的行为，是读取”当前这代模型有哪些局限、harness 里哪里需要加料”的最直接方式。

第二，找到少数几个反馈质量高的人，建立快速反馈回路。

“有一小撮人比其他人更擅长讲清楚什么让一个特定的模型或 harness 组合是好的。找到你最信任的五个人，对快速反馈非常重要。”

反馈不是越多越好，而是越精越好。

第三，建 eval。

Cat 说 eval 是 PM 里被低估的一个技能。你不需要建几百个 eval，有 10 个好的 eval 就非常有用——它帮团队量化目标、量化进展、量化差距。

Claude Code 团队里有一个小组专门和研究团队密切协作，更精确地理解 Claude Code 的行为，测量最大的改进空间在哪里。Cat 自己会在”需要更多产品定义的功能”上跳进去写 eval，输出通常是：这是五个 eval、这是运行方式、这些通过了这些没通过、这是我用来提高成功率的 prompt。

当代码便宜、判断变贵的时候，PM 的核心工作从”写出清楚的需求让工程师执行”变成”定义什么是好的，并用可量化的方式验证”。Eval 是这个新工作的载体。

一条隐藏的逻辑

Cat 讲的这些变化，背后有一条共同的逻辑：当单次交付成本大幅下降时，组织的瓶颈从”执行”变成了”决策”。

代码贵的时候，执行是瓶颈，所以需要 PM 仔细规划、roadmap 长远对齐、跨团队几个月协调——避免执行成本浪费在错方向上。代码便宜了之后，执行不再是瓶颈，决策才是——决定做什么、决定什么是好的、决定何时应该发。

几乎所有变化都可以用这个逻辑推出来：

PRD 减少，因为写 PRD 是为了让执行者照着做，执行不贵了就不需要这份合约了
团队 principles 增加，因为每个人要能独立做决策，就需要理解判断标准
Research Preview 流行，因为它降低了”发布”这个决策的心理成本
PM 做 eval，因为 eval 是新的”判断载体”
招有 taste 的工程师，因为他们能同时做决策和执行

这条逻辑也解释了为什么 Anthropic 能跑得比别人快——不是因为有 Mythos，是因为他们较早地做了这个组织上的适配。

对任何一个做 AI 产品的团队，值得问的问题是：你的团队结构、流程、合约形式，是按”执行贵”的假设建的，还是按”决策贵”的假设建的？如果还是前者，它不会错，但它会慢。