为什么你的AI- first策略可能是错误的

今天早上读了一篇X上分享AI- first的实践文章。最近公司正在尝试将AI应用在工作流里，这篇文章提供很多很实际的失败尝试及解决思路。

核心观点写在前面：真正的“AI-first”不是用 AI 提高效率，而是把整个软件工程流程重构为以 AI 为核心。代码主要由 AI 生成，人类工程师的角色转向定义问题、评估风险和做决策。为此，他们重建了从产品设计、开发到测试和部署的全流程，用统一架构、自动化测试、严格 CI/CD 和 AI 审查，构建出一个可以自动发现问题、修复并验证的“自愈系统”。

这种模式带来了极高的迭代速度（一天多次发布）和更快的反馈循环，使小团队也能产生很高产出。本质上，是把工程从“人写代码”变成“设计让 AI 高效工作的系统”。

这是一种很前沿且有潜力的实践，特别适合需要快速试错的产品型团队。但它高度依赖强大的系统设计能力和工程基础，否则容易失控，也不一定适用于高安全或超复杂场景。总体来看，它代表了一种可能的未来方向，但目前仍属于少数团队能成功落地的模式。

以下是译文，原文在文章底部。

我们 99% 的生产代码由 AI 编写。上周二，我们上午 10 点发布了一个新功能，中午做了 A/B 测试，下午 3 点因为数据不理想直接下线。下午 5 点我们又发布了一个更好的版本。三个月前，这样一个周期需要六周。

我们并不是通过在 IDE 里加一个 Copilot 就做到这一点的。我们是把整个工程流程拆掉，然后围绕 AI 重建。我们改变了规划、开发、测试、部署和团队组织的方式，也改变了公司里每个人的角色。

CREAO 是一个智能体平台。公司有 25 人，其中 10 名工程师。我们在 2025 年 11 月开始构建 agent，两个月前我从底层彻底重构了整个产品架构和工程流程。

2026 年 2 月，OpenAI 发布了一个概念，正好描述了我们一直在做的事情。他们称之为“harness engineering（编排工程）”：工程团队的主要工作不再是写代码，而是让智能体能够完成有用的工作。当出现问题时，解决方案不再是“再努力一点”，而是：缺了什么能力？如何让这个能力对 agent 可理解、可执行？

我们是自己得出这个结论的，当时甚至还没有名字。

AI-First 不等于使用 AI

大多数公司只是把 AI 加到原有流程里。工程师打开 Cursor，产品经理用 ChatGPT 写需求，QA 用 AI 生成测试。流程没变，效率提升 10%～20%，但结构没有变化。

这叫 AI 辅助。

AI-first 则意味着：你围绕“AI 是主要构建者”这个前提，重设计流程、架构和组织。你不再问“AI 如何帮助工程师”，而是问：“如何重构一切，让 AI 来构建，而工程师提供方向和判断？”

两者的差距是乘法级的。

很多团队自称 AI-first，但仍然用相同的 sprint、Jira、站会、QA 审批。他们只是把 AI 加进循环，而没有重构循环。

常见的一种形式叫“vibe coding”：打开 Cursor，不断 prompt，直到能跑，然后提交、重复。这适合做原型。但生产系统需要稳定、可靠、安全。你需要一个系统，在 AI 写代码时也能保证这些属性。系统才是关键，prompt 是消耗品。

为什么我们必须改变

去年我观察团队工作方式，发现三个致命瓶颈：

1. 产品管理瓶颈

PM 花几周时间做调研、设计、写需求。但 agent 两小时就能实现功能。当开发时间从几个月缩短到几小时，几周的规划反而成了瓶颈。

花几个月思考，再用两小时实现，是不合理的。

PM 必须进化为“具备产品思维的架构师”，以迭代速度工作，否则就退出构建流程。设计必须通过“快速原型-上线-测试-迭代”，而不是委员会评审文档。

2. QA 瓶颈

功能两小时完成，但 QA 要三天测边界情况。

我们用 AI 构建的测试平台取代人工 QA，让 AI 测 AI 写的代码。验证必须和实现同速，否则只是把瓶颈往后挪。

3. 人数瓶颈

竞争对手人数是我们的 100 倍。我们只有 25 人，无法靠招聘追赶，只能靠重构。

产品设计、实现、测试三个系统都必须 AI 化，任何一个环节是人工，都会限制整体。

关键决策：统一架构

我先从代码库开始。

旧架构分散在多个系统，一个改动可能要动 3～4 个仓库。对人类工程师来说可管理，但对 AI 来说是“不可见”的。

agent 看不到全局，无法推理跨服务影响，也无法本地跑集成测试。

所以我把所有代码统一到一个 monorepo——让 AI 能“看见一切”。

这是 harness engineering 的核心：系统越可观察、可验证、可修改，AI 杠杆越大。碎片化代码对 AI 是隐形的，统一结构才是“可读的”。

我用一周设计新系统（规划、实现、测试、集成测试），再用一周借助 agent 重构整个代码库。

我们用自己的 agent 重建平台本身——如果产品能自我构建，它就成立。

技术栈

基础设施：AWS

自动扩缩容 + 熔断回滚。指标变差自动回滚。CloudWatch 是“中枢神经系统”：结构化日志、25+ 告警、自定义指标。所有系统都输出可查询信号——如果 AI 读不懂日志，就无法诊断问题。

CI/CD：GitHub Actions

六阶段流水线：

验证 → Dev 构建部署 → Dev 测试 → Prod 部署 → Prod 测试 → 发布

CI 强制执行：类型检查、lint、单测、集成测试、Docker、Playwright E2E、环境一致性检查。无人工绕过。

AI 代码评审：Claude

每个 PR 三轮 AI 审查：

代码质量（逻辑、性能、可维护性）
安全（漏洞、认证、注入风险）
依赖（供应链、版本、许可证）

这是“门槛”，不是建议。

自愈反馈循环（核心）

每天 UTC 9:00 自动运行健康检查：

Claude 分析 CloudWatch
输出健康报告到 Teams

一小时后：

聚类错误（CloudWatch + Sentry）
按 9 个维度打分
自动生成 Linear 工单

自动去重、自动复开回归问题。

修复后：

AI 审查 → CI → 部署
再检测
问题解决自动关闭工单

形成“检测 → 分析 → 修复 → 验证”的闭环。

Feature 流程

架构师写结构化 prompt
agent 拆解任务、写代码、生成测试
PR + AI 审查 + 人类评估风险
CI 验证
合并队列
六阶段部署
feature flag 渐进发布
出问题立即 kill / 自动回滚

Bug 修复也是同一流程。

结果

14 天内：

每天 3～8 次生产发布
过去两周甚至发不出一个版本

坏功能当天上线当天下线

新功能当天上线

A/B 测试实时验证

用户参与度 ↑

付费转化 ↑

不是牺牲质量换速度，而是因为反馈更快。

新的工程组织

Architect（架构师）1～2 人负责：

SOP
测试系统
架构设计
定义“什么是好”

核心能力：批判 AI，而不是跟随 AI。

Operator（操作员）

其他人

AI 分配任务，人类负责：

验证
修复
UI 调整
PR 审核

谁适应最快

出乎意料：

初级工程师适应更快
资深工程师更难适应

因为前者没有旧习惯，后者需要“卸载”多年经验。关键不是经验，而是适应能力。

人的变化

管理减少

我从 60% 管理 → <10%

现在主要在：

写代码
设计系统

争论减少

以前大量时间在对齐、争论

现在系统解决这些问题

人与人关系反而更好

不确定性

不是所有人都适应，有人开始怀疑自己的价值。

但原则是：

不因为 bug 责怪人，而是优化系统

AI 出错 → 加强约束和验证

不只是工程

如果工程提速，但市场、产品不变——它们会成为瓶颈。

所以我们把 AI 引入所有职能：

发布说明：AI 生成
产品视频：AI 生成
社媒：自动发布
报告：AI 生成

这意味着什么

对工程师

价值从“写代码” → “判断能力”

更重要的是：

批判 AI
判断设计好坏
发现系统漏洞

对 CTO / 创业者

PM 流程 > 开发时间 → 优先改
先建测试系统
从一个架构师开始
全面 AI 化

对行业

OpenAI、Anthropic 等已经收敛到同一模式：

结构化上下文
专用 agent
持久记忆
执行循环

我们还在早期

大多数公司仍是传统模式

真正彻底重构的很少

工具不是壁垒

真正的壁垒是：

是否愿意重构
是否承受成本

成本包括：

员工不安
CTO 高强度工作
组织震荡

我们承受了这些。两个月后，结果说明一切。

我们构建的是一个 agent 平台。

而我们用 agent 构建了它。

原文链接https://x.com/intuitiveml/status/2043545596699750791?s=46