为什么你的＂AI-First＂战略很可能是错的: 揭秘CreaoAI的CTO如何将管理时间从60%降低到10%以下

✅点击上方🔺公众号🔺关注我✅

99%的生产代码是AI写的。上周二，他们上午10点发布了一个新功能，中午做了A/B测试，下午3点因为数据不好直接下线，下午5点就上线了改进版。三个月前，这样的循环需要六周。

作者：Peter Pang（@intuitiveml）｜ CREAO 联合创始人 & CTO

我们不是靠给IDE装个Copilot做到的。我们把工程流程拆掉，围绕AI重建了它——从规划方式、构建方式、测试方式、部署方式到团队组织方式，全部重新来过。

CREAO是一个Agent平台。25名员工，10名工程师。2025年11月开始构建Agent，两个月前完成了一次从零开始的全面架构重组。

OpenAI在2026年2月提出了一个概念，准确概括了我们一直在做的事：harness engineering。工程团队的首要任务不再是写代码，而是构建让Agent能够完成有用工作的能力体系。当出了问题，解决方案永远不是"再努力一点"，而是："缺了什么能力？我们怎么让Agent能够理解并执行？"

我们是自己得出这个结论的。只是之前没有给它命名。

AI-First不等于使用AI

大多数公司把AI附加到现有流程上。工程师打开Cursor，PM用ChatGPT写文档，QA试试AI生成测试用例。流程没变，效率提升10%到20%，结构没有任何变化。

这就是AI-assisted（AI辅助）。

AI-first意味着围绕AI是主要构建者这个假设，重新设计流程、架构和组织。不再问"AI怎么帮到工程师"，而是问"怎么重组一切，让AI做构建，人类提供方向和判断？"

两者的区别是乘法级的，不是加法级的。

我见过很多团队声称AI-first，但运行的还是同样的冲刺周期、同样的Jira看板、同样的周会、同样的QA审批节点。他们只是把AI加入了循环，没有重新设计循环。

这种情况的一个常见版本就是vibe coding：打开Cursor，不停提示直到某个东西能跑，提交，重复。这能做出原型。但生产系统需要稳定、可靠、安全。你需要一套系统来保证这些属性。提示词是一次性的，系统才是核心。

为什么必须改变

去年，我观察团队的工作方式，发现三个会卡死我们的瓶颈。

产品管理瓶颈

PM花几周时间做调研、设计、写需求文档。这个工作方式已经延续了几十年。但现在，Agent两小时就能实现一个功能。构建时间从几个月压缩到了小时级，长达数周的规划周期就成了瓶颈。

花几个月想清楚，再用两小时构建，这个逻辑不再成立了。

PM需要进化成有产品思维的架构师，以迭代的速度工作，不然就退出构建循环。设计应该通过快速的原型→发布→测试→迭代循环来完成，而不是靠委员会评审的需求文档。

QA瓶颈

同样的逻辑。Agent两小时构建完功能，QA要花三天测边界用例。构建两小时，测试三天——你在旧瓶颈下游10英尺的地方又造了一个新瓶颈。

我们用AI构建的测试平台替代了人工QA，来测试AI写的代码。验证速度必须和实现速度匹配。

人数瓶颈

竞争对手用100倍甚至更多的人力做同样的事情。我们只有25人。无法靠招聘追赶，必须靠重新设计来弥合。

设计、构建、测试三个环节必须全链路AI化。任何一环保持人工，就会约束整个管道。

最大胆的决策：统一架构

我必须先修代码库。

旧架构分散在多个独立系统上。一次变更可能涉及三四个代码库。从人类工程师的角度，这还能管；从AI Agent的角度，这是不透明的。Agent看不到全貌，无法推理跨服务的影响，也无法在本地运行集成测试。

我决定把所有代码统一到一个monorepo。

一个理由：让AI能看见一切。

这是harness engineering原则的实践。把越多系统拉入Agent可以检查、验证和修改的形式，就越能发挥它的杠杆作用。碎片化的代码库对Agent是不可见的；统一的代码库是清晰可读的。

我花了一周设计新系统：规划阶段→实现阶段→测试阶段→集成测试阶段。又花了一周，用Agent重构了整个代码库。

CREAO是一个Agent平台。我们用自己的Agent重建了运行Agent的平台。如果产品能构建自己，它就是可行的。

技术栈

以下是我们的技术栈和各自的作用。

基础设施：AWS

运行在AWS上，使用自动扩展容器服务和熔断回滚。部署后指标下降，系统自动回滚。

CloudWatch是整个系统的中枢。跨所有服务的结构化日志、25个以上的告警、自定义指标由自动化工作流每日查询。所有基础设施都发送结构化、可查询的信号。AI读不懂日志，就无法诊断问题。

CI/CD：GitHub Actions

每次代码变更都经过六阶段流水线：

Verify CI → Build & Deploy Dev → Test Dev → Deploy Prod → Test Prod → Release

每个Pull Request的CI门禁强制执行：类型检查、lint、单元测试和集成测试、Docker构建、通过Playwright的端到端测试、环境一致性检查。没有阶段可选，没有手动覆盖。流水线是确定性的，Agent能预测结果，能推理失败原因。

AI代码审查：Claude

每个PR触发三个并行AI审查通道，使用Claude Opus 4.6：

通道1：代码质量。逻辑错误、性能问题、可维护性。
通道2：安全。漏洞扫描、认证边界检查、注入风险。
通道3：依赖扫描。供应链风险、版本冲突、许可证问题。

这些是审查门禁，不是建议。它们和人工审查并行运行，覆盖人工在大规模下容易遗漏的问题。每天8次部署，没有任何人工审查者能在每个PR上持续专注。

工程师也可以在任何GitHub Issue或PR中@claude，获取实现方案、调试会话或代码分析。Agent能看到整个monorepo，上下文跨对话保持。

自愈反馈环

下面这段是整个系统的核心。

每天UTC时间9:00，自动健康工作流启动。Claude Sonnet 4.6查询CloudWatch，分析跨所有服务的错误模式，生成高管健康摘要，通过Microsoft Teams推送给团队。没人要求，它自动发生。

一小时后，分类引擎启动。对CloudWatch和Sentry的生产错误进行聚类，在九个严重维度上打分，在Linear中自动生成调查工单。每个工单包含：示例日志、受影响用户、受影响端点、建议的调查路径。

系统自动去重。已有开放工单覆盖相同错误模式？更新那个工单。之前的工单再次出现？检测到回归，重新打开。

工程师推送修复时，同一管道处理：三个Claude审查通道评估PR，CI验证，六阶段部署流水线推进测试，分类引擎重新检查CloudWatch，原始错误解决则Linear工单自动关闭。

每个工具只处理一个阶段，不让任何工具试图包揽一切。每日循环创造了一个自愈回路：错误被检测、分类、修复、验证，人工介入最少。

我对Business Insider的记者说了一句话："AI会做PR，人类只需要审查是否存在风险。"

功能开关和支持栈

Statsig处理功能开关。每个功能都在开关后发布。推出模式：团队启用→百分比逐步放量→全量或Kill。Kill开关即时关闭功能，不需要重新部署。功能导致指标下降，几小时内就撤掉。坏功能在上线当天死亡。 A/B测试也通过同一系统跑。

Graphite管理PR分支：合并队列rebase到main，重新跑CI，绿色才合并。堆叠PR支持高吞吐增量审查。

Sentry跨所有服务报告结构化异常，由分类引擎与CloudWatch合并，提供跨工具上下文。Linear是面向人工的界面：自动创建的工单含严重性评分、示例日志和建议调查，去重防止噪音，后续验证自动关闭已解决的问题。

功能如何从想法到生产

新功能路径

架构师将任务定义为一个结构化Prompt，包含代码库上下文、目标和约束。

Agent分解任务，规划实现，写代码，并生成自己的测试。

PR打开，三个Claude审查通道评估。人工审查者检查战略风险，不是逐行正确性。

CI验证：类型检查、lint、单元测试、集成测试、端到端测试。

Graphite合并队列rebase，重新跑CI，绿色则合并。

六阶段部署流水线推进，每个阶段测试。

功能开关对团队启用，逐步放量，监控指标。Kill开关随时待命，重大问题熔断自动回滚。

Bug修复路径

CloudWatch和Sentry检测错误。

Claude分类引擎打分，在Linear中创建带完整调查上下文的工单。

工程师调查——AI已经完成了诊断，工程师验证并推送修复。

同样的审查、CI、部署和监控管道。

分类引擎重新验证。解决则工单自动关闭。

两条路径用同一套管道。一套系统，一个标准。

结果

14天内，日均3到8次生产部署。我们的旧模式下，整个两周无法完成一次生产发布。

坏功能在上线当天被撤掉。新功能在构思当天就上线。A/B测试实时验证效果。

人们以为我们在用质量换速度。实际上：用户参与度上升了，支付转化率上升了。反馈循环收紧后，质量反而更好了。你每天发布，比每月发布学到的东西更多。

新工程组织

未来只会存在两种工程师。

架构师

一到两人。职责是：设计教AI如何工作的标准操作程序（SOP）；构建测试基础设施、集成系统、分类系统；决定架构和系统边界；定义Agent眼中"好"的标准。

这个角色需要深度批判性思维。你批评AI，不是跟随它。Agent提出一个方案，架构师要找出漏洞：它遗漏了哪些失败模式？越过了哪些安全边界？正在积累哪些技术债？

我有物理学PhD。PhD教给我最有用的，是如何质疑假设、如何压力测试论证、如何寻找缺失的东西。批评AI的能力，将比写代码的能力更值钱。

这也是最难招的角色。

操作员

其余所有人。工作依然重要，只是结构不同。

AI给人类分配任务。分类系统找到Bug，创建工单，呈现诊断结果，分配给正确的人。工程师验证并批准修复。AI制作PR，人类审查是否有风险。

工作是Bug调查、UI精修、CSS改进、PR审查、验证。这些需要技能和注意力，但不需要传统架构推理能力。

谁适应得最快

我注意到一个没有预料到的规律：初级工程师比资深工程师适应更快。

经验较少的初级工程师感到被赋能了。他们有放大自己影响力的工具，没有十年习惯需要抛弃。

有扎实传统实践的资深工程师最难接受。他们两个月的工作可以被AI一小时完成。这对花了数年建立稀缺技能的人来说，是很难接受的事实。

我不是做判断，只是在描述我观察到的现象。在这场转型中，适应能力比积累的技能更值钱。

人的那一面

管理崩溃了

两个月前，我60%的时间用于人员管理：对齐优先级、开会、给反馈、带工程师。

今天：低于10%。

传统CTO模型说要赋能团队做架构工作，培养他们，授权给他们。但如果系统只需要一两个架构师，我需要先自己来。我从管理转向了构建。大多数日子从早上9点写到凌晨3点。我设计系统的SOP和架构，维护整个Harness。

压力更大。但我在享受构建，不是在对齐。

争论变少，关系变好

和联合创始人、工程师的关系比以前更好了。

以前大部分互动都是对齐会议：讨论权衡，争论优先级，对技术决策有分歧。这些在传统模式下是必要的，但也消耗人。

现在我依然和团队交流。我们聊别的东西，非工作话题，闲聊，团建。关系更好，因为我们不再争论那些系统轻松就能完成的工作。

不确定性是真实的

我不会假装每个人都开心。

当我不再每天和人交谈，有些团队成员感到不确定。CTO不跟我聊意味着什么？在新世界里我的价值是什么？这些是合理的担忧。

有些人花更多时间争论AI能不能做他们的工作，而不是去做工作。过渡期制造焦虑。我没有干净的答案。

但我有一个原则：我们不会因为工程师引入了生产Bug就开除他。我们改进审查流程，加强测试，加上护栏。 对AI亦然——如果AI犯错，我们构建更好的验证、更清晰的约束、更强的可观测性。

超越工程

我看到其他公司采用AI-first工程，其他一切保持人工。

如果工程几小时发版，市场部要一周才能宣传，市场部就是瓶颈。如果产品团队还在跑月度规划，规划就是瓶颈。

在CREAO，我们将AI原生化推到了每个职能：

产品发布说明：AI根据变更日志和功能描述自动生成
功能介绍视频：AI生成动态图形
社交媒体每日发帖：AI编排并自动发布
健康报告和数据分析摘要：AI根据CloudWatch和生产数据库自动生成

工程、产品、市场、增长在一个AI原生工作流中运行。如果一个职能以Agent速度运转，另一个以人工速度运转，人工速度的那个就是全局瓶颈。

这意味着什么

给工程师

你的价值正在从代码产出转向决策质量。快速写代码的能力每月都在贬值，评估、批评、指挥AI的能力每月都在升值。

产品品味很重要。你能在一张生成的UI上，在用户告诉你之前就知道它不对吗？你能在一个架构提案中，看出Agent遗漏的失败模式吗？

我告诉我19岁的实习生：训练批判性思维。学习评估论证，发现漏洞，质疑假设。学习什么才是好的设计。这些技能会复利增长。

给CTO和创始人

如果你的PM流程比构建时间还长，先重构PM流程。

扩展Agent之前先构建测试驾驭体系。快AI加慢验证等于快速积累技术债。

从一个架构师开始，证明系统可行后再扩展。

推动全职能AI原生化。

预期会遇到阻力。有些人会抵制。

给整个行业

OpenAI、Anthropic和多个独立团队 converge到了同一套原则：结构化上下文，专业化Agent，持久记忆，执行循环。Harness Engineering正在成为标准。

模型能力是驱动这个时钟的时针。我把CREAO的整个转型归功于过去两个月。Opus 4.5做不到Opus 4.6所做的事情，下代模型会让它更快。

我相信一人公司会变得普遍。如果一个架构师加Agent能做到100人的工作，很多公司根本不需要第二个员工。

我们还很早期

大多数创始人和工程师聊下来，还是传统方式运作。有些人在考虑转型，真正动手的少之又少。

一个记者朋友说她聊了大约五个人，她说我们是她见过最领先的："我不认为有人像你们这样彻底重建了整个工作流程。"

实现这一切的工具对任何团队都是现成的。堆栈里没有任何东西是专有的。

竞争优势在于围绕这些工具彻底重新设计一切的决策，以及吸收过渡成本的意愿。成本是真实的：员工的不确定性，CTO每天工作18小时，资深工程师质疑自己的价值，两周的窗口期（旧系统没了，新系统还没被验证）。

我们吸收了这个成本。两个月后，数字说话。

我们构建了一个Agent平台。我们用Agent构建了它。

如果觉得这篇文章有帮助，欢迎点赞、在看、转发！有问题也可以在评论区留言，我会尽量回复！