AI 快要替代我们了,那人还剩什么?

这件事我从去年就一直在想。我的答案是AI 是超级乙方，我们是超级甲方。

现在即使模型不再进步，也几乎可以肯定AI 将会替代我们，而且会替代得越来越多。它未必表现为某个岗位突然消失，更像一块一块能力被拿走。写文案、写代码、做图、做表、写方案、查资料、生成页面，以前能养活一个人的手艺，现在都在变便宜。

所以很多人的焦虑不是矫情。应届生会怀疑，等我毕业的时候，这个行业还在不在？工作三五年的人也会怀疑，我现在攒下来的经验，明年还值不值钱？

我后来觉得，问题可能要换一种问法。与其问“哪个岗位不会被替代”，不如问：“当 AI 像一个超级乙方，什么东西还必须由人来承担？什么东西还是 AI 做不了的？”

手艺当然还有用，但只靠手艺会越来越不稳。能不能把问题接住，开始变得更值钱。

比如这句。

“做一个 AI 总结功能。”

这句话乍一听真没什么问题。竞品有了，老板想要，用户大概率也不反感。丢给 Claude C0de，PRD、Story、页面、接口、测试，一路往下跑。几个小时后，一个功能真能跑起来。

上线后才露馅。

客服主管其实不缺“总结”。他缺的是每天早上 9 点，从 200 条工单里立刻看见哪几条会炸、哪几个客户快超 SLA、哪类问题今天必须先处理。

AI 没做错。它只是把一个没想清楚的 brief，执行得太快了。

同样的坑也会出现在运营、销售、内容和设计里。让 AI 整理企微群，不说清楚“给谁看、明天要做什么决策”，它就会给你一份漂亮但没用的纪要。让 AI 整理腾讯文档表格，不说清楚“要筛哪类线索”，它就会把每列都解释一遍。

毫无疑问在错误方向上跑的越快，离目标越远。

AI 加速之后，返工也会加速

AI 让交付变快了，也让没想清楚的东西更快撞墙。别急着开工，先把问题钉住。

Positioning

AI 更像一个超级乙方

我后来觉得，很多别扭感不来自 AI 不够强，更多是我们偷偷把它放在了产品负责人位置上。

如果把 AI当成“超级乙方”呢？它很能干，但它不会替我们承担当初为什么要做。

超级乙方擅长	超级乙方短板
快速出稿，不知疲倦	很少主动质疑题目
服从 brief，快速迭代	不会天然判断谁真正焦虑
一次给出很多候选	不能承担上线后果

乙方再强，也还是要等甲方把目标、限制、验收、责任讲明白。

比起让 AI 跑久一点（之前 Harness 是这么搞哈哈），我现在更追求别让 AI 高速跑偏，少让我纠正。

Before starting

开工前，我会先问五件事

“甲方”这个词，平时不太讨喜。大家容易想到改稿、拍脑袋、今天要高级感明天要松弛感。

我这里说的甲方，不是挑毛病那种。更像是在开工前把桌面擦干净：目标、限制、证据、责任，谁都别靠猜。

任务有风险时，别从“开写”开始，先问“什么算对”。

还是把刚才那句话改一下

还是刚才那个客服例子。我不会让 AI 直接开写，会先把它压成一张能验收的任务卡。

字段	客服工单分诊版
问题定义	客服主管每天 9 点看到昨日高风险工单，5 分钟内完成分诊
反目标	不展示 AI 多聪明，不追求摘要文采
验收证据	20 条历史高风险样本里，至少 18 条被排进前 10；客服主管能在 5 分钟内说出处理顺序
回滚方案	保留人工排序入口；误判率超阈值时关闭 AI 排序，只保留标签提示

这张卡一出来，AI 的工作范围反而变窄了。它不用猜“总结得好不好”，只要围绕分诊结果交付。当然实际工作中未必要这么死板，最重要的是我们要知道这个需求为什么做，哪些暂时可以不做？

先把 brief 压成问题定义

“做个官网”“优化首页”“加个注册功能”“做个 AI 总结”，都能开工，也都容易返工。

少了用户、场景、痛点、约束、指标，AI 就会自己补脑。

请先不要执行，把下面需求改写成问题定义：

原始 brief：{粘贴需求}

输出：

- 用户：

- 场景：

- 要解决的问题：

- 硬约束：

- 成功指标：

- 这次不处理：

最后一行最容易被漏掉。很多团队会做加法，只是一直不好意思做减法。

问动机，不急着接单

AI 默认接单，我们别默认接单。需求来了，我会先问这几句。

- 为什么现在做？

- 为什么是这个人或这个团队提出？

- 为什么选这个方案，不先试更轻的办法？

- 如果不做，会发生什么？

拿刚刚的客服举例，“竞品有 AI 总结”问到最后，常常会变成“客服 SLA 连续超标”。这时候任务就变了。你要的可能是风险分诊、告警、置顶、知识库检索，不一定是总结。

取舍要写出来，尤其是反目标

AI 很擅长给“都要”的方案。又好看，又高级，又便宜，又安全，还能增长。听上去舒服，落地时痛苦。

很多时候这就变成了过度设计，我们要保证的是交付的东西足够可靠、有用，而不只是单纯的多或者看起来可以。

项目	这一格写什么
主目标	这次只押一个成功结果
反目标	这次明确不追求什么
必须项	缺了就不能上线的东西
可放弃项	时间不够时先砍掉的东西

没有反目标，过度设计就会如影随形。我前两天刚花了一天时间改AI 的过度设计。

验收标准最好写成证据

“专业一点”“更高级”“体验好一些”，这些话在会里能讲，不能拿来验收。

如果我是产品主理人，我会尽量改成这种写法：

页面上线前要满足：

· 3 秒内能看懂产品面向谁

· 首屏出现一句主价值表达

· 主 CTA 只有一个

· 375px 移动端无横向滚动

· 5 名目标用户里，至少 4 人能复述产品用途

这其实和 TDD （测试驱动开发）类似：先把“对”写出来，再让 AI 去靠近它。

写代码时，证据是失败测试变绿、E2E 路径跑通、必要日志能查到。做页面时，证据可能是用户复述、可用性测试、端到端路径、数据看板。感觉可以参与讨论，别让它独自负责验收。

每个需求都要有人负责

AI 可以生成方案，但不会替我们处理上线事故，也不可能替我背锅。 AI 不可能把人都干掉就是因为人终究要负责这些事那些事，只要负责了，乱七八糟的事就少不了。

大的需求我们更需要责任闭环：

## 责任闭环

- 决策人：

- 验收人：

- Owner：

- 最大风险：

- 回滚方案：

- 复盘窗口：

上线变容易以后，我觉得负责这件事反而要更早写清楚。所谓丑话说前面。

Asset Box

有时候我们需要把 AI 从执行状态拽回定义状态：

请先不要执行。我们先完成任务定义。

1. 问题定义：用户、场景、痛点、约束、成功指标、这次不处理。

2. 动机追问：现在做的理由、提出者的压力、更轻方案、不做的后果。

3. 取舍表：主目标、反目标、必须项、可放弃项。

4. 验收标准：通过标准、优秀标准、证据。

5. 责任闭环：决策人、验收人、Owner、风险、回滚、复盘窗口。

完成后先等我确认，再开始执行。

A hidden risk

多方案不等于多样性

AI 很容易一次给你十个方案。看起来热闹，其实可能只是十次换皮。

让它做科技感 Logo，它大概率会给你一堆蓝紫渐变、发光线条、抽象几何。数量多，假设少。

Science Advances 2024 年有篇研究挺有意思：生成式 AI 能提高单个故事的创造力评分、可读性和愉悦度，尤其能帮到原本不太擅长创作的人；但 AI 辅助产出的故事之间相似度也更高。

所以AI 能把每个点子打磨得更像样，也可能让团队越想越像。

左边是在同一个方向上抛光，右边是在逼自己换假设。AI 很会做左边，我们要多要一点右边。

我现在不太问“给我十版”。我会改问：“这十版分别基于什么不同假设？”

这里我更愿意把 AI 当 sounding board：帮我暴露假设、制造反例、拉开对照。把它当 ghostwriter 时，它很容易只是在同一个方向上润色十遍。

请给 5 个方案，但每个方案必须来自不同假设：

- 用户假设：

- 业务假设：

- 牺牲什么：

- 怎么被证伪：

Evidence

好用，也会误导

Harvard Business School 和 BCG 做过一个实验，758 名咨询顾问使用 GPT-4 完成真实咨询任务。在 AI 擅长的任务里，顾问做得更快，质量也更高。可在一个更复杂的品牌策略任务上，用 AI 的人反而更容易答错。

研究者把这种现象叫“锯齿状技术边界”。AI 的能力边界不是平滑线。有些看起来难的事，它能做；有些看起来差不多的事，它会一本正经地带你跑偏。

我读完这个实验后的感受是：“它能不能做”不是唯一问题。还要提前写清：错了怎么发现、谁拍板、谁验收、谁回滚。

Anthropic Economic Index 也给了一个现实观察：AI 在工作里更多是按任务渗透，有些任务被自动化，有些任务被增强。岗位未必消失，但岗位里的任务结构会被拆开重排。

放到运营场景里，就是“整理群聊”这种活更容易交给 AI；但“哪些客户风险要进明早例会”“哪条线索该销售总监亲自跟”，还得有人拍板。

落到团队里，返工次数、线上事故、会后争议会更显眼。能提前做清楚定义、判断、校准、追责，就少吃很多亏。

Weekly review

我不太看 AI 调用次数

“本周生成了多少代码”“省了多少小时”“调用了多少次模型”，可以看，但我不会把它们当主指标。

它们只说明 AI 干了多少，不说明我们有没有把问题定义得更清楚。

指标	看什么
需求重构率	开工前，有多少需求被改写成问题定义
取舍显性化率	方案里有没有反目标和可放弃项
责任闭环率	上线项是否写清 Owner、指标、回滚、复盘

如果我是 TL，我会先抓“需求重构率”。重点在于大家驾驭 AI 的水平，不返工，而不在于用 AI 写了多少。

如果重一点，还可以复盘下：

本周 AI 协作复盘：

- 改写过问题定义：__ / __

- 写过反目标：__ / __

- 写过回滚和复盘时间：__ / __

- 下周先修的一件事：

Everyday work

这事不只属于研发岗

产品经理、运营、设计、销售、工程负责人也会遇到同一类问题。

运营同学让 AI 整理企业微信群聊，如果只说“总结一下”，大概率会得到一份没法进早会的纪要。补上“给谁看、明天早会要做什么决策、哪些客户风险必须提出来”，结果会完全不一样。

销售同学整理客户拜访纪要，漂亮摘要不值钱。成交阻力、下一步动作、谁负责跟进、几号前触达，才会进入 CRM 和日程。

设计同学让 AI 出品牌方向，“高级一点”太滑了。先判断现在缺融资信任、用户亲和，还是行业专业感。

工程负责人让 AI 写代码，测试绿了只是底线。埋点、边界条件、回滚方案、线上值班，也要一起进任务定义。

场景不一样，底层动作很像：把活定义清楚。

运营同学可以在活动复盘表里直接加这几列：

· 这次要做的决策

· AI 只负责整理什么

· 这次不处理什么

· 明天谁拿结果继续跟进

开工前，先慢一分钟

AI 会继续变强。执行会继续变便宜。文案、代码、页面、方案，都会更容易生成。

如果只看“能不能产出”，人确实越来越难赢。机器不累，不尴尬，不拖延，还能同时开几十条线。

但一个错误问题，可以消耗掉一万个漂亮答案。

所以不能被替代的，可能不是某种固定技能。技能会被拆、会被学、会被自动化。我想，面对不确定的现实，愿意定义目标、给判断、做取舍、承担后果，才是普通打工人不会被替代的。

相比“怎么让 AI 多干活”，不如开工前多慢一分钟，让 AI 做的确实能对结果负责。

AI 可以把东西抛得很快，但问题、取舍、证据和后果，总得有人接住。

最后落到日常里，其实就是几句普通话：

我们到底在解决谁的问题？

什么结果能证明做对了？

这次明确不做什么？

如果失败，怎么发现？

如果出事，谁负责？

欢迎大家交流下如何面对 AI 带来的就业冲击..

References

· Harvard Business School / BCG：Navigating the Jagged Technological Frontier

· Science Advances：Generative AI enhances individual creativity but reduces the collective diversity of novel content

· Anthropic Economic Index

· NIST AI Risk Management Framework

CC4PM · Claude Code for Product Maker

Lesson 22.7 · 超级甲方