这是一篇关于“AI-first工程实践”的深度分享。作者是CreaoAI联合创始人Peter Pang(前Meta LLaMA团队成员),他详细介绍了公司如何彻底重构工程流程、架构和团队,让AI代理(agent)成为主要代码编写者,从而实现开发速度的指数级提升。
要点总结:
核心成果(震撼数据)
99%的生产代码由AI完成。
他们能早上10点上线新功能、中午A/B测试、下午3点根据数据直接下线,晚上5点上线改进版。
过去这种完整周期需要6周,现在只需一天。
14天内平均每天3-8次生产部署(以前两周都发不了一次)。
AI-assisted vs AI-first的本质区别
大多数公司只是“加AI工具”(Copilot、ChatGPT辅助),流程不变,效率只提升10-20%。
AI-first是彻底重构:假设AI是主要建造者,工程师只负责方向、判断和系统设计。
他们把这称为“Harness Engineering”(OpenAI后来提出的概念):工程师的核心工作不再是写代码,而是让AI“看得见、能验证、可执行”整个系统。
他们遇到的三大瓶颈(必须打破的原因)
产品管理瓶颈:PM花几周写需求文档,但AI两小时就能实现功能——规划周期成了新瓶颈。
QA瓶颈:AI两小时出功能,人工测试却要三天。
人力瓶颈:只有25人(10个工程师),无法靠招聘追上竞争对手。
关键变革:统一架构 + 自愈闭环
把分散的多仓库重构为单体仓库(monorepo),让AI能看到完整上下文。
构建自愈反馈循环:每天自动跑健康检查(Claude分析CloudWatch日志)→ 自动聚类错误 → 自动生成Linear工单 → 工程师只验证修复 → AI写PR → 自动部署 → 自动验证关闭工单。
整个流程高度自动化,几乎无人干预。
技术栈与流程(极度工程化)
CI/CD:6阶段流水线(验证→部署dev→测试→部署prod→测试→发布),全部强制通过。
AI代码审查:每次PR触发Claude 3次并行审查(代码质量、安全、依赖)。
特性上线:全部走feature flag + 灰度 + A/B + 监控,差就秒杀(kill switch)。
监控:CloudWatch + Sentry + Statsig + Graphite,形成完整可观测性。
新团队角色分工
Architect(1-2人):设计整个系统、SOP、测试框架、边界,给AI“可执行的规则”。核心能力是批判性思考(找AI漏掉的失败模式、技术债、安全风险)。
Operator(其他人):处理AI分配的任务(验证、风险审查、UI微调、CSS等),不需要以前那么强的架构能力。
观察:** junior工程师适应最快**,senior反而最难(要抛弃10年习惯)。
组织与人的变化
管理时间从60%降到<10%,CTO自己变成主要builder。
团队关系反而变好(少了争优先级、争技术方案)。
但有阵痛:部分人感到价值焦虑,过渡期有不确定感。
公司把AI-native扩展到全职能(营销、产品发布、社交发帖、报告等)。
作者的洞见与展望
未来工程师的价值从“写代码速度”转向“决策质量 + 批判性思考”。
产品感、品味、找漏洞的能力会越来越值钱。
1人+AI代理可能干100人的活,一人公司会越来越常见。
他们现在还在早期,大多数公司还没真正开始重构。
一句话总结:
这不是“用AI辅助写代码”,而是把整个公司工程系统重建成AI代理的‘可执行工厂’,让AI快速迭代、自我修复,人类只做最高阶的判断和系统设计,从而实现速度、质量和规模的同步跃升。作者强调:工具已经有了,真正稀缺的是“愿意把一切推倒重来”的决心。
以下是Peter Pang(@intuitiveml)这条 X 帖子的中文译文:
99% 的生产代码由 AI 编写。上周二,我们上午 10 点上线了一个新功能,中午进行 A/B 测试,下午 3 点因为数据表现不佳直接下线,晚上 5 点又上线了一个更好的版本。三个月前,这样的完整周期需要六周时间。
我们并不是靠在 IDE 里加个 Copilot 达到这个水平的。我们彻底拆解了原有的工程流程,并围绕 AI 重新构建。我们改变了规划、构建、测试、部署以及团队组织的方式。我们改变了公司里每个人的角色。
CREAO 是一个 Agent 平台。我们总共 25 名员工,其中 10 名工程师。我们从 2025 年 11 月开始构建 Agent,两个月前我从头重构了整个产品架构和工程工作流。
OpenAI 在 2026 年 2 月发布了一个概念,正好描述了我们一直在做的事情。他们称之为Harness Engineering(驭控工程):工程团队的主要工作不再是编写代码,而是让 Agent 能够完成有价值的工作。当出现问题时,解决方案从来不是“再努力一点”,而是:缺少什么能力?我们如何让它对 Agent 来说是可见、可验证、可执行的?
我们是自己得出这个结论的,当时还没有这个名字。
AI-First ≠ 使用 AI
大多数公司只是把 AI bolted(强行附加)到现有流程上。工程师打开 Cursor,PM 用 ChatGPT 写需求文档,QA 尝试用 AI 生成测试用例,工作流一成不变,效率只提升 10-20%。结构上没有任何改变。
这是AI-assisted(AI 辅助)。
AI-first(AI 优先)则意味着你围绕“AI 是主要构建者”这个假设,重新设计流程、架构和组织。你不再问“AI 如何帮助我们的工程师?”,而是问“我们要如何重构一切,让 AI 来构建,工程师只提供方向和判断?”
两者差距是数量级的。
我看到很多团队声称自己是 AI-first,却依然在跑同样的 sprint 周期、同样的 Jira 看板、同样的周会、同样的 QA 签字。他们只是把 AI 加进了循环,却没有重新设计循环本身。
一种常见的伪 AI-first 是大家说的“vibe coding”:打开 Cursor,不停 prompt 直到跑通,commit,再重复。这能快速出原型,但生产系统需要稳定、可靠、安全。当 AI 写代码时,你需要一个系统来保证这些属性。你先构建系统,prompt 只是消耗品。
我们为什么必须改变
去年我观察团队工作方式,发现了三个会把我们拖死的瓶颈。
产品管理瓶颈
我们的 PM 花几周时间调研、设计、写规格说明书——这是过去几十年的传统做法。但 Agent 两个小时就能实现一个功能。当构建时间从几个月压缩到几小时后,长达几周的规划周期反而成了瓶颈。
花几个月思考,然后两个小时就建好,这已经说不通了。
PM 需要进化成以产品思维为主的架构师,以迭代速度工作;或者退出构建循环。设计必须通过“快速原型-上线-测试-迭代”的循环完成,而不是靠委员会审核的规格文档。
QA 瓶颈
同样的逻辑。Agent 上线功能后,QA 团队要花几天测试边界情况。构建时间:2 小时;测试时间:3 天。
我们用 AI 构建的测试平台取代了手动 QA,让测试 AI 写的代码也能跟上实现速度。否则你只是在旧瓶颈下游十英尺处制造了一个新瓶颈。
人力瓶颈
竞争对手做同样的事有我们 100 倍以上的人。我们只有 25 人,不可能靠招聘追平,必须靠重构实现。
产品设计、产品实现、产品测试这三个系统,都必须有 AI 贯穿其中。只要其中任何一个环节仍然是手动操作,整个流水线就会被拖慢。
大胆决定:统一架构
我首先得把代码库修好。
我们之前的架构分散在多个独立系统里,一个改动可能要碰三四个仓库。对人类工程师来说还算可控,但对 AI Agent 来说完全不透明。Agent 看不到全貌,无法推理跨服务影响,也无法在本地跑集成测试。
我必须把所有代码统一成一个monorepo(单体仓库)。原因之一:让 AI 能看到一切。
这就是 Harness Engineering 原则的实际应用。你把系统越多地拉进 Agent 可以检查、验证、修改的形式,就能获得越大的杠杆。碎片化的代码库对 Agent 来说是隐形的,统一的代码库才是可读的。
我花了一周设计新系统:规划阶段、实现阶段、测试阶段、集成测试阶段。然后又花了一周用 Agent 把整个代码库重新架构了一遍。
CREAO 本身就是一个 Agent 平台。我们用自己的 Agent 重建了运行 Agent 的平台。如果产品能自己构建自己,那它就真的管用。
我们的技术栈
基础设施:AWS
我们使用 AWS 自动扩容容器服务和熔断回滚机制。如果部署后指标下降,系统会自动回滚。
CloudWatch 是整个系统的中枢神经。所有服务都有结构化日志,超过 25 个告警,每天由自动化工作流查询自定义指标。每块基础设施都暴露结构化、可查询的信号。如果 AI 读不懂日志,就无法诊断问题。
CI/CD:GitHub Actions
每次代码变更都要经过六阶段流水线:
Verify CI → Build and Deploy Dev → Test Dev → Deploy Prod → Test Prod → Release
每个 PR 的 CI 门禁强制执行类型检查、lint、单元测试、集成测试、Docker 构建、Playwright 端到端测试以及环境一致性检查。没有可选阶段,没有人工覆盖。流水线是确定性的,因此 Agent 可以预测结果并推理失败原因。
AI 代码审查:Claude
每个 PR 会触发三次并行的 Claude Opus 4.6 审查:
Pass 1:代码质量(逻辑错误、性能问题、可维护性)
Pass 2:安全(漏洞扫描、认证边界检查、注入风险)
Pass 3:依赖扫描(供应链风险、版本冲突、许可问题)
这些是审查门禁,不是建议。它们与人工审查并行,在高频部署时捕捉人类容易忽略的问题。当你一天部署八次时,没有人能持续保持注意力。
工程师还可以在任何 GitHub Issue 或 PR 中 @claude,让它做实现方案、调试或代码分析。Agent 能看到整个 monorepo,上下文在对话间持续保留。
自愈反馈循环(核心)
这是整个系统的重中之重。
每天上午 9:00 UTC,自动化健康工作流自动运行。Claude Sonnet 4.6 查询 CloudWatch,分析所有服务的错误模式,生成一份高管健康摘要,通过 Microsoft Teams 发送给团队——没人需要主动要求。
一小时后,分类引擎启动。它对 CloudWatch 和 Sentry 中的生产错误进行聚类,按九个严重性维度打分,并在 Linear 中自动生成调查工单。每张工单都包含样本日志、受影响用户、受影响端点和建议调查路径。
系统会自动去重。如果已有开放工单覆盖相同错误模式,就会更新它;如果已关闭的工单再次出现,就会检测到回归并重新打开。
当工程师推送修复后,同样流程处理:三次 Claude 审查、CI 验证、六阶段部署流水线。部署后,分类引擎重新检查 CloudWatch,如果原始错误已解决,Linear 工单自动关闭。
每个工具只负责一个阶段,没有工具试图包揽一切。每天的循环形成了一个自愈闭环:错误被检测、分类、修复、验证,几乎不需要人工干预。
我对 Business Insider 的记者说:“AI 会生成 PR,人类只需要审查是否存在风险。”
特性旗与支撑系统
Statsig 负责特性旗。每个功能都先走门禁上线:先对团队开放,再逐步按百分比放量,最终全量或直接 kill。Kill switch 可以瞬间关闭功能,无需重新部署。如果指标下降,我们几小时内就能下线。坏功能当天上线当天死。A/B 测试也通过同一套系统运行。
Graphite 管理 PR 分支:合并队列自动 rebase 到 main,重新跑 CI,只有绿色才合并。Stacked PR 让高吞吐量下的增量审查成为可能。
Sentry 报告所有服务的结构化异常,与 CloudWatch 一起被分类引擎合并,提供跨工具上下文。Linear 是面向人类的界面:自动创建带严重性评分、样本日志和建议路径的工单,去重避免噪音,验证通过后自动关闭已解决的问题。
一个功能从 idea 到生产的全流程
新功能路径
架构师以结构化 prompt(包含代码库上下文、目标和约束)定义任务。
Agent 分解任务、规划实现、写代码、生成自己的测试。
打开 PR → 三次 Claude 审查 → 人工审查战略风险(而非逐行正确性)→ CI 验证 → Graphite 合并队列 → 六阶段部署 → 特性旗对团队开放 → 逐步放量 → 监控指标 → 必要时 kill switch 或自动熔断回滚。
Bug 修复路径
CloudWatch + Sentry 检测错误 → Claude 分类引擎打分 → 自动创建 Linear 工单(带完整上下文)→ 工程师验证并推送修复 → 同样审查、CI、部署、监控流程 → 分类引擎验证解决 → 工单自动关闭。
两条路径使用同一套流水线,一个系统,一个标准。
成果
过去 14 天,我们平均每天生产部署 3-8 次。在旧模式下,整个两周周期连一次生产发布都做不到。
坏功能当天上线当天下线。新功能当天构思当天上线。A/B 测试实时验证效果。
大家以为我们是在拿质量换速度。但用户参与度上升了,付费转化率也上升了。我们反而得到了更好的结果,因为反馈循环更紧了。每天发货比每月发货学到的多得多。
新的工程组织结构
未来只会存在两种工程师角色。
Architect(架构师)
1-2 个人。他们设计 SOP(标准操作流程),教会 AI 如何工作;他们构建测试基础设施、集成系统、分类系统;他们决定架构和系统边界;他们定义对 Agent 来说什么是“好”。
这个角色需要极强的批判性思维。你要批判 AI,而不是跟随它。当 Agent 提出方案时,架构师要找出漏洞:它漏掉了哪些失败模式?它是否越过了安全边界?它是否在积累技术债?
我有物理学博士学位。博士最有用的训练就是质疑假设、压力测试论点、寻找缺失的东西。批判 AI 的能力,将比产出代码的能力更值钱。
这也是最难招人的角色。
Operator(操作者)
其他人。工作依然重要,但结构完全不同。
AI 把任务分配给人类。分类系统发现 bug、创建工单、给出诊断,并分配给合适的人。人类调查、验证、批准修复。AI 写 PR,人类只审查是否存在风险。
任务包括 bug 调查、UI 打磨、CSS 优化、PR 审查、验证等。这些都需要技能和注意力,但不再需要旧模式下的架构推理能力。
谁适应最快?
我观察到一个意想不到的现象:初级工程师适应得比高级工程师快。
初级工程师传统经验较少,反而感到被赋能。他们拥有能放大自己影响力的工具,不需要抛弃十年的旧习惯。
而拥有强大传统经验的高级工程师最难适应。AI 一个小时就能完成他们两个月的工作。这对积累多年稀缺技能的人来说,是很难接受的事实。
我不是在评判,只是描述我观察到的现象。在这次转型中,适应力比积累的技能更重要。
人的变化
管理时间崩盘
两个月前,我 60% 的时间花在管人上:对齐优先级、开会、给反馈、教练工程师。
现在:不到 10%。
传统 CTO 的模式是赋能团队做架构、培训他们、授权。但如果系统只需要 1-2 个架构师,我必须自己先把系统搭好。我从“管理”变成了“构建”。我现在大多数日子从早上 9 点码到凌晨 3 点,设计 SOP 和系统架构,维护这个 harness。
压力更大,但我更享受构建,而不是对齐。
争论变少,关系更好
我和联合创始人、工程师的关系比以前更好。
转型前,我和团队的大部分互动是 alignment meeting、讨论 trade-off、争优先级、争技术方案。这些对话在传统模式下是必要的,但也很消耗人。
现在我依然和团队聊天,但聊的是其他事:非工作话题、闲聊、团建旅行。我们相处得更好,因为我们不再为系统就能轻松完成的工作争论了。
不确定感是真实的
我不会假装每个人都开心。
当我不再每天和大家聊天时,有些团队成员感到不安:CTO 不找我谈话是什么意思?我在新世界里的价值是什么?这些担忧很合理。
有些人花在讨论“AI 能不能干我的活”上的时间,比真正做事的时间还多。转型期会带来焦虑,我目前也没有完美的答案。
但我有一个原则:我们不会因为工程师引入生产 bug 就开除他。我们会改进审查流程、加强测试、增加护栏。对 AI 也是一样。如果 AI 犯错,我们就构建更好的验证、更清晰的约束、更强的可观测性。
超出工程范畴
我看到很多公司只在工程上做 AI-first,其他职能依然是手动操作。
如果工程几小时就能出功能,但营销要花一周才能发公告,营销就成了瓶颈。如果产品团队还在跑月度规划周期,规划就是瓶颈。
在 CREAO,我们把 AI-native 推到了每个职能:
产品发布笔记:AI 根据 changelog 和功能描述自动生成
功能介绍视频:AI 生成动态图形
社交媒体每日发帖:AI 编排并自动发布
健康报告和分析摘要:AI 从 CloudWatch 和生产数据库生成
工程、产品、营销、增长全部跑在同一个 AI-native 工作流里。如果某个职能以 Agent 速度运行,另一个还以人工速度运行,那么慢的那个就会制约一切。
这意味着什么
对工程师
你的价值正在从“代码产出”转向“决策质量”。快速写代码的能力每个月都在贬值,评估、批判、引导 AI 的能力则越来越值钱。
产品感和品味很重要。你能在用户反馈前就看出生成的 UI 有问题吗?你能在 Agent 提出架构方案时就看出它漏掉的失败模式吗?
我对我们 19 岁的实习生说:训练批判性思维。学会评估论点、发现缺口、质疑假设。学会什么是好的设计。这些技能会复利增长。
对 CTO 和创始人
如果你的 PM 流程比构建时间还长,就从这里开始改。
在扩大 Agent 使用前,先建好测试 harness。没有快速验证的快速 AI,只是快速制造技术债。
先从一个架构师开始:一个人把系统搭起来、验证可行,再把其他人 onboarding 到 Operator 角色。
把 AI-native 推到每个职能。
对行业
OpenAI、Anthropic 和多个独立团队不约而同地走向了同样的原则:结构化上下文、专精 Agent、持久记忆、执行闭环。Harness Engineering 正在成为标准。
模型能力是推动这一切的时钟。我把 CREAO 的整个转变归因于最近两个月——Opus 4.5 做不到 Opus 4.6 能做的事,下一代模型会进一步加速。
我相信一人公司会越来越普遍。如果一个架构师 + Agent 能完成 100 人的工作,很多公司就不需要第二个员工了。
我们还处于早期
我接触的大多数创始人和工程师依然在用传统方式工作。有些人在思考转型,但真正做到的很少。
一位记者朋友告诉我,她只和五个人聊过这个话题。她说我们走得比谁都远:“我没见过谁像你们这样把整个工作流彻底重建。”
工具已经为任何团队准备好了。我们栈里没有任何东西是专有的。
竞争优势在于决定围绕这些工具重新设计一切的决心,以及愿意承担成本的勇气。成本是真实的:员工的不确定感、CTO 每天 18 小时工作、高级工程师质疑自身价值、两周旧系统已死而新系统尚未被验证的空窗期。
我们承担了这些成本。两个月后,数据已经说明了一切。
我们打造的是一个 Agent 平台,而我们是用 Agent 把它打造出来的。
夜雨聆风