乐于分享
好东西不私藏

用Claude Code写完38份文档之后,我花了一周和现实对齐

用Claude Code写完38份文档之后,我花了一周和现实对齐

上一篇我写了3天38份文档那篇不会写代码的产品经理,3天用Claude Code写了38份文档 

今天这篇,是那个故事的续集。

结论先行:38份文档写出来只用了3天,但让这些文档和真实系统对齐,花了整整一周——而且最终还是靠手动。

在那一周里,我经历了:

· 让AI自动截了189张系统截图

· 发现系统和PRD有100项差异

· 操作手册从第1版改到了第6版

· 写了25个Playwright自动化脚本

· 最后领悟了一个让人沮丧的道理


一、信心满满:以为一键搞定

前情提要:我用Claude Code 3天产出了完整的PRD和18份操作手册(10份角色手册+8份模块手册),一个B端教育系统项目。

下一步很自然——给操作手册加上真实的系统截图,变成可以交付的培训材料。

我的计划是:

1. 用AI自动化工具截取测试系统的每个页面

2. 自动把截图插入到操作手册对应位置

3. 导出成Word/PPT交付

听起来很简单对吧?一个自动化流程,几个小时应该能搞定。

我甚至在提示词里提前预警了:

“有个问题——测试系统不一定完全按照需求文档或操作手册研发的,这个要注意到。”

然而,”注意到”和”做好准备”之间,隔着一条巨大的鸿沟。


二、第一次打脸:内置工具全军覆没

我先尝试用Claude Code内置的browse工具——理论上可以直接在对话里操作浏览器截图。

结果:在Windows上,每次新的Bash调用会重启浏览器服务,localStorage丢失,登录token直接失效。等于每截一张图就要重新登录一次。

这条路走不通。

于是被迫转向Plan B:Playwright Python脚本。手动写脚本控制无头浏览器,批量截图。

Playwright脚本技术上不难(AI帮我写的,我不会写代码),但每个模块都需要处理一堆细节:

· 页面缩放75%才能让所有列字段显示完整

· 需要自动关闭右下角的通知弹窗

· 多角色模块需要切换账号(清除localStorage→重新登录)

· 防止误操作(删除/停用等按钮用dialog.dismiss()拦截确认弹窗)

· Ant Design的下拉框需要force=True才能点击

最终写了25个Python截图脚本,其中巡检任务管理最复杂——有7个脚本变体,因为需要5个角色切换、从创建计划到反馈整改的完整链路都要截图。

189张截图,终于全部拿到了。


三、第二次打脸:100项差异

截图拿到了,开始和操作手册对比。

这一对比——崩了。

100项差异。8个模块无一幸免。

严重程度
数量
含义
P0(功能缺失)
17项
手册里描述了,系统压根没做
P1(字段差异)
54项
字段名不同、选项不同、布局不同
P2(文案偏差)
29项
按钮文案、提示文案、展示格式不同

P0里最刺眼的几个:

· 某个管理页签在系统中未显示——手册详细描述了一个功能入口,系统压根没做

· 巡检任务缺少”任务类型”字段——PRD里有,手册里有,系统里没有

· 数据趋势图功能缺失——手册写了趋势折线图的交互逻辑,系统DOM中找不到任何”趋势”相关元素

· 某个审批流程步骤不同——手册描述6步流程,系统实际只有4步,步骤名称和内容完全不同

差异最集中的两个重灾区:异常预警模块(22项)和在线质量评测模块(22项),并列第一。教研管理模块(18项)第三。

看到这些数据的那一刻,我的心情就一个词:绝望。

这意味着,我之前3天写的那些精心打磨的操作手册,有将近一半的内容需要根据系统实况重新调整。

四、痛苦循环:操作手册的六层演进

接下来是一场漫长的拉锯战。操作手册从第1版一路改到第6版:

第1层:源手册(理想状态)

纯基于PRD编写的操作手册,18份,干净漂亮。假设:研发会按PRD做。

第2层:用户升级后的完整手册

用户试用测试系统后提出了升级意见,把意见同步到手册。还处于理想状态——”这是如果研发不偷工减料升级后的操作手册应该有的样子”。

第3层:标差异+加截图+精简

让Claude Code将测试系统和手册对比后,发现大量差异,每处差异标注了⚠️,同时插入189张自动截图。这一层是最痛苦的——每读一页手册都在发现”又不对了”。

第4层:按差异决策更新

我逐条对100项差异做了决策,四种处理方式:

决策
数量
以系统为准,更新手册和PRD
48
不用管/忽略差异
19
系统BUG,后续修复
15
保持现状
14
截图问题,手动重截
4

然后AI按决策更新手册,删除差异标注。

第5层:V3.0风格优化成品

按”B端教育系统操作手册标准”优化结构和描述风格。补充目录、操作路径导航、角色权限表。8份独立版+1份合并完整版(246KB,189张截图)。

第6层:飞书检查修正后的最终版

在飞书文档中人工逐页检查后,又发现了一些系统和需求不完全一致的问题。更改后又手动重新截了一批图。

最终产出:培训PPT(82MB)+ 完整版Word手册(44MB)。

从第1层到第6层,核心逻辑就一句话:每多看一次真实系统,就会发现手册又需要改一次。


五、两个AI互相卷

中间还有一段插曲。

巡检任务管理是最复杂的模块(7个角色、12种任务状态、反馈整改流程)。我先让Claude Code生成这个模块的带截图手册,结果缺少很多截图。

于是我把同一个任务交给了OpenAI Codex,原话是:

“Claude Code生成这个模块任务就是缺少很多截图,你能做到它做不到的吗?”

Codex确实”卷”了一波——自己看着流程从源头发起计划,填写数据流转到各个环节,在每个环节操作前截图。

后来的项目中,我同时开着CC和Codex的多个会话窗口,并行执行不同模块的任务。甚至需要一个共享进度文件来协调——

“如果非常巧合遇到多个工具同时更改执行进度和执行计划文件时,要想办法处理或等一等”

一个不会写代码的PM,同时指挥两个AI工具的多个会话并行干活——听起来很赛博朋克,实际上很痛苦。


六、最终还是手动

整个过程最讽刺的部分是什么?

第6层手册的名称已经说明了一切:”在飞书检查修正且重新截图后的最终版”。

即使有了189张自动截图、25个Playwright脚本、100项差异清单的AI辅助,最终交付物还是需要:

· 人在飞书文档里一张张检查截图是否正确

· 人手动重新截了一批图替换不准确的

· 人逐页确认格式和内容

AI把一个月的手动工作压缩到了一周,但那一周里密度最大的工作,仍然是人做的判断和决策。


七、AI自动化是放大器

经历了这一周后,我想明白了一件事。

AI自动化不是万能药,它是放大器——放大效率,也放大混乱。

当上下游每个环节都按标准来的时候,AI就是效率核弹:3天38份文档14,000+行,一点问题没有。

但只要有一个环节的交付质量不达标(比如研发没完全按PRD实现),AI的自动化链条就会在那个环节断裂,下游再强的自动化都是白搭。

我甚至推导出了一个公式:

AI自动化效率 = AI能力 × min(1, 上游交付质量)

当上游交付质量为1(完全按PRD实现),AI满血输出。当上游交付质量打了折扣,AI效率被同比腰斩——而且新增了”差异发现→决策→多文档同步→一致性校验”的巨大人工成本。

100项差异就是证据:48项需要改手册和PRD,15项是系统BUG,剩下的37项需要逐条判断”改不改”。

如果研发完全按PRD实现,这100项差异为零,操作手册可能只需要2层演进而非6层。


八、给想用AI自动化的人3条建议

1. 先验证上游再自动化下游

在启动任何AI自动化流程之前,先确认上游输入的质量。我的教训是:先写了完美的操作手册,才发现系统和PRD不一致。如果我先做差异核查,再写手册,能省掉至少3层版本演进。

2. 预留”手动兜底”的时间

不要在排期里假设AI自动化100%成功。我的189张截图拿到了,但100项差异的决策和修正全靠人工。给”检查-判断-修正”环节预留至少和”AI执行”一样多的时间。

3. 记录每一步决策,而不只是记录结果

100项差异清单 + 每条的决策记录(以系统为准/忽略/BUG/截图问题),这些记录让后续的手册更新有据可查。如果只保留最终手册而丢掉决策过程,下次遇到类似问题就得重新判断一遍。


写完这篇文章的时候我在想,上一篇3天38份文档那篇可能让人觉得”AI无所不能”。

今天这篇想告诉你的是:AI的强大是真的,AI的局限也是真的——而这个局限往往不在AI本身,在你上游的交付质量。

3天写38份文档是爽文,但把文档和真实系统对齐的一周,才是真实的工作日常。

AI时代最珍贵的不是能用AI写文档的能力——是在AI的输出和现实之间架起桥梁的判断力。


这是「精分边缘的猫」的第3篇文章。

B端产品经理 / 15年 / 不会写代码 / 用AI做了不少事也踩了不少坑。

如果你也在用AI工具做实际工作,关注我,后面还有更多真实记录。