为什么你的 AI-First 战略大概率是错的

Info

原文：Peter Pang《Why Your “AI-First” Strategy Is Probably Wrong》链接：https://x.com/intuitiveml/status/2043545596699750791

开头：一天完成过去六周的产品循环

上周二上午 10 点，CREAO 上线了一个新功能。

中午，他们完成了 A/B 测试。

下午 3 点，数据证明这个功能不行，于是他们把它杀掉。

下午 5 点，一个更好的版本重新上线。

三个月前，这样一轮“上线—测试—否决—重做—再上线”的循环，可能要六周。

现在，只要一天。

这家公司最夸张的地方不是“用了 AI”，而是：99% 的生产代码由 AI 编写。

但作者 Peter Pang 说，他们走到这一步，并不是因为在 IDE 里装了 Copilot，也不是因为工程师更会写 prompt。

他们做的是另一件事：

拆掉原来的工程流程，然后围绕 AI 重新搭建一套新流程。

这也是这篇文章最值得讨论的地方：

AI-first 不是使用 AI。AI-first 是围绕 AI 重建组织。

一、AI-assisted 和 AI-first 是两回事

很多公司说自己 AI-first，其实只是 AI-assisted。

典型场景是：

• 工程师打开 Cursor 写代码；
• 产品经理用 ChatGPT 起草需求；
• QA 用 AI 生成测试用例；
• 团队依然跑同样的 Sprint；
• Jira 看板、周会、评审、QA 签核，一个都没变。

这当然会提升效率，也许是 10% 到 20%。

但流程没有变，组织结构没有变，权责分配没有变，反馈循环没有变。

这不是 AI-first，只是给旧机器加了一个 AI 插件。

真正的 AI-first，要换一个问题。

旧问题是：

AI 如何帮助我们的工程师？

新问题是：

如果 AI 是主要建设者，我们要怎样重构流程、架构和组织，让 AI 负责构建，人类负责方向和判断？

这两个问题的差别不是线性的，而是乘数级的。

二、不要迷信 vibe coding，生产系统需要 harness

作者特别批评了一类常见做法：vibe coding。

所谓 vibe coding，就是打开 Cursor，不断 prompt，直到某个东西跑起来，然后提交，再重复。

这种方式适合做原型。

但生产系统不是原型。

生产系统需要稳定、可靠、安全、可回滚、可观测、可验证。

当 AI 写代码时，真正重要的不是某一次 prompt 写得多漂亮，而是系统能不能保证：

• AI 看到足够完整的上下文；
• AI 写出的代码必须经过测试；
• AI 不能绕过质量门禁；
• 出问题后系统能定位问题；
• 修复后系统能验证问题是否消失；
• 风险可以被人类审查和阻断。

这就是原文提到的 harness engineering。

我理解的 harness，不是一个单独工具，而是一整套“让智能体可用、可靠、可控”的工程夹具。

它包括：

• 结构化上下文；
• 标准操作流程；
• 可执行测试；
• CI/CD 门禁；
• 结构化日志；
• 自动化监控；
• 自动分诊；
• 自动回滚；
• 人类风险审查。

一句话：

Prompt 是一次性的，harness 才是组织资产。

三、为什么原来的流程会变成瓶颈

作者说，他们去年观察团队工作方式时，看到了三个会杀死团队速度的瓶颈。

1. 产品经理瓶颈

过去，产品经理花几周时间做研究、设计、写需求，这是正常的。

但如果 Agent 两小时就能实现一个功能，那么几周的规划周期反而变成约束。

当构建时间从“几个月”坍缩到“几小时”，产品管理就不能再靠长文档和委员会评审驱动。

产品经理要么进化为“有产品感的架构师”，能跟上快速迭代速度；要么就会被挤出构建循环。

未来的产品设计更像：

快速原型 → 发布 → 测试 → 迭代。

而不是：

调研 → 写文档 → 开会评审 → 排期 → 等开发。

2. QA 瓶颈

同样的问题也发生在 QA。

Agent 两小时写完功能，QA 花三天测边界情况。

这不是质量保障，而是把瓶颈从开发挪到了测试。

所以 CREAO 用 AI 构建测试平台，去测试 AI 写的代码。

这里的关键不是“不要 QA”，而是：

验证速度必须跟上实现速度。

否则，快速 AI 只会制造快速堆积的技术债。

3. 人数瓶颈

CREAO 只有 25 个人，其中 10 个工程师。

竞争对手可能有 100 倍的人。

他们不可能靠招聘追平对手，只能靠重新设计系统。

这也是 AI-first 的根本逻辑：

不是把现有团队变得稍微高效一点，而是让小团队获得大团队级别的产能。

四、第一步不是买工具，而是重构架构

作者做的第一个大胆决定，是统一代码架构。

他们过去的系统分散在多个独立仓库里。一个功能变更，可能要改三四个 repository。

人类工程师还能勉强管理这种复杂度，但 Agent 不行。

因为 Agent 看不到全局，无法理解跨服务影响，也无法在本地跑完整集成测试。

所以作者把代码统一进 monorepo。

原因很简单：

AI 必须看见整个系统，才能理解整个系统。

这是 harness engineering 的基本原则：

你把越多系统转化成 Agent 可检查、可验证、可修改的形态，就能获得越大杠杆。

碎片化代码库，对 Agent 是不可见的。

统一代码库，对 Agent 才是可读的。

这点很重要。

很多团队以为 AI 编程的瓶颈是模型不够强，其实瓶颈可能是自己的系统对 AI 不友好。

五、他们搭了一条 AI-native 工程流水线

CREAO 的技术栈并不神秘，关键是它们被组织成了一条完整流水线。

基础设施：AWS

他们运行在 AWS 上，有自动扩缩容容器服务，也有 circuit-breaker rollback。

如果部署后指标变差，系统会自动回滚。

CloudWatch 是中枢神经系统：结构化日志、告警、自定义指标，都能被自动工作流查询。

关键原则是：

如果 AI 读不懂日志，它就无法诊断问题。

所以可观测性不是给人看的 dashboard，而是给 Agent 读取和推理的信号系统。

CI/CD：GitHub Actions

每次代码变更都经过六阶段管线：

Verify CI → Build and Deploy Dev → Test Dev → Deploy Prod → Test Prod → Release

每个 PR 必须经过类型检查、lint、单元测试、集成测试、Docker 构建、Playwright 端到端测试、环境一致性检查。

没有可选阶段。

没有手动绕过。

管线越确定，Agent 越能预测结果、理解失败。

AI 代码审查：Claude

每个 PR 会触发三轮 Claude Opus 审查：

1. 代码质量：逻辑错误、性能问题、可维护性；
2. 安全性：漏洞、认证边界、注入风险；
3. 依赖扫描：供应链风险、版本冲突、许可证问题。

这些不是建议，而是门禁。

人类审查仍然存在，但重点变了：

人类不是逐行看代码，而是判断战略风险。

当一天部署八次时，没有任何人类 reviewer 能持续盯住每个 PR 的细节。

AI 负责规模化审查，人类负责风险判断。

六、自愈反馈循环：真正的核心

这篇文章里最值得借鉴的部分，是他们的自愈反馈循环。

每天 UTC 上午 9 点，自动健康检查工作流运行。

Claude Sonnet 查询 CloudWatch，分析所有服务的错误模式，并生成一份高层健康摘要，通过 Microsoft Teams 发给团队。

一小时后，分诊引擎开始运行。

它从 CloudWatch 和 Sentry 聚类生产错误，按九个严重性维度评分，并在 Linear 自动生成调查工单。

每个工单包含：

• 示例日志；
• 受影响用户；
• 受影响接口；
• 建议调查路径。

系统还会去重。

如果已有 issue 覆盖同类问题，就更新旧 issue。

如果已关闭的问题复发，就识别为 regression 并重新打开。

工程师推送修复后，同一条流水线继续处理：Claude 审查、CI 验证、六阶段部署、生产环境测试。

部署后，分诊引擎重新检查 CloudWatch。

如果原始错误消失，Linear 工单自动关闭。

这才是 AI-first 工程的闭环：

发现问题 → 分诊问题 → 生成上下文 → 修复问题 → 验证修复 → 自动关闭。

每个工具只处理一个阶段，没有任何工具试图包办一切。

系统靠连接形成智能，而不是靠某一个超级工具。

七、功能从想法到生产，路径也变了

在 CREAO，一个新功能大致这样流动：

1. 架构师把任务写成结构化 prompt，包含代码库上下文、目标和约束；
2. Agent 拆解任务、规划实现、写代码、生成测试；
3. PR 自动创建；
4. 三轮 Claude 审查；
5. 人类 reviewer 检查战略风险；
6. CI 验证类型、lint、单测、集成测试、端到端测试；
7. Graphite merge queue 重新跑 CI，全绿才合并；
8. 六阶段部署管线推进到开发和生产；
9. 功能开关先对内部团队开启，再逐步放量；
10. 指标变差就 kill switch，严重问题自动回滚。

Bug 修复也是同一条管线。

CloudWatch 和 Sentry 发现错误，Claude 分诊引擎创建 Linear issue，人类验证诊断并批准修复，AI 创建 PR，系统重新验证，问题解决后自动关闭。

新功能和 bug fix 使用同一个标准。

一个系统，一套规则。

八、结果：不是用质量换速度

14 天内，他们平均每天进行 3 到 8 次生产部署。

按照旧模式，整整两周可能一次生产发布都没有。

坏功能当天上线，当天被杀。

好功能当天想到，当天上线。

A/B 测试实时验证影响。

很多人会以为这是用质量换速度。

但作者说，用户参与度上升了，支付转化率也上升了。

原因是反馈循环变短了。

每月发布一次，你每月学习一次。

每天发布，你每天学习。

九、工程组织会分成两类人

作者认为，未来工程组织里会出现两类工程师。

第一类：Architect

一到两个人。

他们设计标准操作流程，教 AI 如何工作。

他们构建测试基础设施、集成系统、分诊系统。

他们决定架构和系统边界。

他们定义什么叫“好”。

这个角色最重要的能力不是写代码，而是批判 AI。

当 Agent 提出方案时，Architect 要问：

• 它遗漏了什么失败模式？
• 它跨越了什么安全边界？
• 它积累了什么技术债？
• 它给出的方案是否真的符合产品目标？

作者说，他的物理学博士训练最有用的部分，不是某个专业知识，而是质疑假设、压力测试论证、寻找缺失部分。

这也是未来工程师越来越重要的能力。

第二类：Operator

其他人大多会成为 operator。

这不是说工作不重要，而是结构变了。

AI 分配任务，人类调查、验证、批准。

AI 创建 PR，人类判断有没有风险。

Operator 做 bug 调查、UI 优化、CSS 改进、PR 审查、验证。

这些工作仍然需要技能和注意力，但不再要求传统模式下那么多架构推理。

作者还观察到一个有意思的现象：初级工程师比高级工程师适应更快。

因为初级工程师没有那么多传统习惯要忘掉。

而高级工程师最痛苦：他们多年积累的稀缺技能，可能被 AI 在一小时内完成。

这不是价值判断，而是转型期的真实摩擦。

十、人的问题不会自动消失

AI-first 不只是技术变化，也会改变人的关系。

作者说，两个月前，他 60% 的时间在管理人：对齐优先级、开会、反馈、辅导工程师。

现在不到 10%。

他从管理者重新变成构建者，每天大多从早上 9 点写到凌晨 3 点，设计 SOP、架构和 harness。

压力更大，但他更享受构建，而不是对齐。

团队关系也发生变化。

过去大量互动是讨论取舍、争论优先级、争论技术决策。

现在这些争论少了，大家反而能聊更多非工作话题，关系变好。

但不确定性也真实存在。

当 CTO 不再每天和人说话，有人会焦虑：

CTO 不找我了，意味着什么？在这个新世界里，我的价值是什么？

作者没有假装所有人都开心。

他说转型期会制造焦虑，他没有干净利落的答案。

但他有一个原则：

不会因为工程师引入生产 bug 就开除工程师，而是改进 review、加强测试、增加护栏。AI 也一样。

如果 AI 犯错，不是骂 AI，而是构建更好的验证、更清晰的约束、更强的可观测性。

十一、AI-first 不能只停在工程部门

很多公司只做 AI-first engineering，其他部门仍然手工。

这会制造新瓶颈。

如果工程团队几小时发布功能，而市场团队一周后才写公告，那么市场就是瓶颈。

如果产品团队仍然按月规划，那么规划就是瓶颈。

CREAO 把 AI-native 推进到所有职能：

• 产品发布说明：AI 根据 changelog 和功能描述生成；
• 功能介绍视频：AI 生成动态图形；
• 社交媒体每日发帖：AI 编排并自动发布；
• 健康报告和分析摘要：AI 根据 CloudWatch 和生产数据库生成。

工程、产品、市场、增长，运行在同一个 AI-native 工作流里。

一个部门进入 Agent 速度，另一个部门停在人类速度，后者就会约束整个公司。

十二、这对工程师、CTO 和行业意味着什么

对工程师来说，价值正在从代码产出转向决策质量。

快速写代码的能力每个月都在贬值。

评估、批判和指挥 AI 的能力越来越值钱。

产品感和品味也越来越重要。

你能不能在用户反馈前，看出一个 AI 生成的 UI 是错的？

你能不能在 Agent 的架构方案里，看出它漏掉的失败模式？

对 CTO 和创始人来说，如果 PM 流程比构建时间更长，就先改 PM 流程。

在扩大 Agent 使用前，先建设测试 harness。

没有快速验证的快速 AI，只是快速移动的技术债。

从一个 Architect 开始，让一个人先把系统建起来并证明有效，再把其他人纳入 operator 角色。

对行业来说，OpenAI、Anthropic 和很多独立团队都在收敛到类似原则：结构化上下文、专用 Agent、持久记忆、执行循环。

Harness engineering 正在成为标准。

作者甚至认为，一人公司会变得普遍。

如果一个 Architect 加一组 Agent 可以完成 100 个人的工作，很多公司就不需要第二名员工。

结尾：真正的优势不是工具，而是重构意愿

作者说，现在大多数创始人和工程师仍然按传统方式运转。

有些人在考虑转型，但真正完成的人很少。

工具已经存在，而且并不专有。

真正的竞争优势不是工具本身，而是：

你是否愿意围绕这些工具重构一切，并承受转型成本。

这个成本是真实的：员工不确定，CTO 每天工作 18 小时，高级工程师质疑自己的价值，旧系统消失而新系统尚未被证明。

CREAO 承受了这个成本。

两个月后，数字开始说话。

他们做的是 Agent 平台。

他们也用 Agent 构建了这个平台。

我的理解

这篇文章最值得传播的地方，不是“99% 的代码由 AI 写”。

真正重要的是：当 AI 真的成为生产者，人类最重要的工作会变成设计系统、定义标准、判断风险，以及决定什么是好。

如果 AI 只是帮人写代码，那么提升可能是 10% 到 20%。

但如果公司把规划、实现、测试、部署、监控、分诊、修复、发布、营销全部重构成 AI-native 的闭环，那么变化就是数量级的。

这不是低成本提效，而是一次组织再造。

所以，“AI-first”这个词被很多人说得太轻了。

它不是买 Cursor，不是装 Copilot，不是让员工学 prompt。

它是把公司改造成一台能让 Agent 持续生产、持续验证、持续学习的机器。

核心观点

• AI-first 不是把 AI 加进旧流程，而是围绕 AI 重建流程。
• Prompt 是可丢弃的，系统才是资产。
• 当构建时间从几个月变成几小时，产品规划就可能成为瓶颈。
• 没有快速验证的快速 AI，只是快速移动的技术债。
• 未来工程师的价值，不在于写出多少代码，而在于做出多好的判断。
• 最重要的能力不是服从 AI，而是批判 AI。
• 一个部门进入 Agent 速度，另一个部门仍是人类速度，后者就会约束整个公司。
• AI-first 的竞争优势不是工具，而是围绕工具重构一切的决心。