软件工厂到底是个什么玩意儿?

你的下单按钮坏了。客户在骂。怎么办？

2023 年所有人都在聊 ChatGPT。2024 年是 GenAI。2025 年是 Agent 元年。2026 年初大家还在追 OpenClaw，现在风向又变了——软件工厂（Software Factory）。

你不写代码？没关系。但你总得理解为什么隔壁公司的 CTO 突然张口闭口都是"工厂化"。

有些公司已经在说：90% 的生产代码是 AI 写的。个别顶级工程师一个人顶以前二十个人。这不是科幻小说，这是 2026 年 6 月的现实。

但你猜怎么着？绝大多数公司的工程团队离"工厂"还差着十万八千里。

我自己的公司（@tenex_labs）专门帮企业搭这个。铺基础设施、做评估、搞培训、推变革管理——把整个工程组织从旧模式拽到新轨道上。所以我见过太多组织。老板以为自己建好了流水线，走进去一看，还是手工作坊。

下面我把这事彻底拆开：软件工厂到底是什么、为什么突然爆火、以及——哪怕你一行代码都没写过——怎么用五分钟判断你的组织在哪个段位。

不扯术语，软件工厂到底是啥？

说白了：软件工厂就是一个工程组织，它做软件的方式更像生产线，而不是纯手工。

手工模式：一个人坐下来，手写代码。就像定制跑车，一辆一辆地手搓。灵活，但慢，质量看人。代码产出取决于你能招到多少牛逼的工程师、他们打字有多快。所有的上下文都存在人的脑子里。

工厂模式：工作工业化了。就像现代汽车装配线——更快、更可靠、可伸缩，但前期要在流程和工具上砸钱。有一条固定的流水线：写→审→测→部→监。软件沿着它走。每一步都有标准操作、自动化质量检查，尽量少用人。人干嘛？设计流水线、处理异常。重复劳动交给机器。

Simon Willison 写过一家叫 StrongDM 的公司，那是目前我见过最极端的版本。他们的原则只有两条：

"代码不能由人写。""代码不能由人审。"

听起来很离谱吧？但这就是精髓。

工厂不是"工程师用 AI 把代码写得快一点"。工厂是——人从流水线上退后一步，从"干活的人"变成"指挥流水线的人"。

这词为什么突然满天飞？

三件事撞在了一起。

第一，证据太硬了。

Ryan Carson 现在运营着一个被他称为"代码工厂"的东西：Agent 写代码、审代码、跑测试、分类错误、盯生产——他只管设护栏。靠这种方式他已经合入了上千个 PR。一个人就是一个软件公司。

Anthropic 自己说：90%+ 的代码是 AI 写的。Google 说 75% 的新代码是 AI 生成的（一年前这个数字是 25%）。OpenAI 内部 95% 的工程师用自家 Agent，积极拥抱的那批人比同级多开 70% 的 PR。

这些数字已经不是预告片了，是正片。

第二，大佬们都在用这个词。

微软开始推"Agent Factory"，把它包装成软件构建的新范式。巨头一用某个词，它就快速进入主流。Chamath 在聊 8090 团队的软件工厂。Garry Tan 写了篇叫《停止为你的 Agent 建富士康工厂》的文章。

语言本身就在改变现实。

第三，"X% 的代码是 AI 写的"变成了新的 CEO 攀比指标。

不是最正确的指标，但它确实让"Agent 工程"这个概念出圈了。

框架：软件工厂梯子

要建软件工厂，你得先知道团队在哪个位置。

五级梯子，0 到 4。你应该能在 60 秒内定位。

用同一个场景跑一遍所有级别：用户遇到了一个 bug——"下单"按钮挂了。看看随着你往上爬，人和 AI 的角色怎么换。

Level 0：手工艺人

客户发邮件骂人。终于有个工程师听说了问题，手动复现，手写修复，另一个人读代码审查，有人手动测试，最后有人部署。AI 的影子都没有。全是人在做。

Level 1：辅助型

一样的步骤，一样的人。只是工程师用 AI 辅助工具写修复快了一点点。产出涨了一点。但流程一模一样。每一步都还是人在做、人在批准。绝大多数公司都在这一层。

Level 2：委派型

工程师把 bug 丢给 Agent。Agent 自己写修复、开 PR。但合入之前还是需要人读代码、点批准。杠杆来了——产出翻了，但人还是每个环节的守门员。大多数"AI 先行"公司卡在这一层。

Level 3：受监督的工厂

一个 Agent 盯着生产环境。发现 bug，分类。一个编码 Agent 写修复。另一个 Agent 来审查。测试自动跑。如果风险低、都通过了——它自己上线，全程没有人在里面。人干嘛？设规则（"低风险修复自动合入，碰支付相关升级给人"），只在高风险的时候被拉进来。

这就是 Carson 的代码工厂。这就是 StrongDM。极少团队真的到了这一层。

Level 4：自主工厂

那个 bug 被发现、修复、审查、测试、上线——整个团队甚至不知道发生过。人不在盯着流水线了。人在想：产品下一步应该进化成什么？

几乎没人真的到 Level 4。但整个行业正在往这个方向冲。

你们组在梯子第几级？

诚实回答这 11 个问题，你能很快定位：

1. 我们有多少比例的 PR 不需要人审查就直接上线了？如果是 0%，你在 Level 1。
2. 修 bug 或做小功能的时候，第一版代码是谁写的？人写的 = Level 0或1。人指挥 Agent 写的 = Level 2 及以上。
3. Agent 能自己开 PR 吗？每行代码都还是人敲的 = Level 1。Agent 能独立开 PR = 跨过 Level 2 的门槛。
4. 有规则让低风险改动自动上线、高风险升级给人吗？谁定的规则？这是 Level 3 的核心。
5. 生产环境崩了，最先发现的是人还是系统？谁分类的？人发现 = 早期。系统发现并分类 = Level 3。
6. 每次改动测试自动跑吗？坏的改动系统能自动拦下来吗？这能看出质量门禁是真的还是形式。
7. Agent 上线了有问题的东西，你们多快能发现并回滚？安全网的速度决定了你能爬到多高。
8. AI 工具能看到你们的内部代码库、文档和系统，还是只能刷公开信息？只能刷公开的 = 被卡住了。
9. 有一个内部平台让 Agent 统一接入，还是每个工程师自己搭一套？根据 DORA 报告，这个因素比任何其他因素都更能区分赢家和输家。
10. 明天我把所有 AI 工具收走——你们的流程会变，还是只是更慢了？流程不变 = 你还在 Level 1。流程会崩 = 你真的工业化了。
11. 现在的瓶颈在写代码，还是在审查和上线？还在写 = 早期。瓶颈移到下游 = 成熟了。这个转移就是关键。

怎么爬梯子

Level 0 → Level 1：把 AI 交到每个人手里

这一步主要不是技术问题，是组织问题。给每个工程师配上编码助手，明确哪些工具是官方认可的，鼓励他们在真实项目上试，扫清安全合规和法务上的障碍。听起来简单，但买了许可没人打开用的公司多了去了。

前提：明确的 AI 立场 + 团队真正能在真实代码库上用的工具。

Level 1 → Level 2：让 Agent 独立接一个工单

现在你的工程师只是在用 AI 打字更快。真正的跃迁是：把一整个工单交给 Agent。拿你们最成熟的模块、测试覆盖率最高的部分，把整个 bug 工单丢给 Agent——它写修复、开 PR，人审查。接下来十个 bug 都这么干。

这里的瓶颈不是技术，是让你的团队停下来——不亲手写每一行代码，他们不习惯。

前提：写清楚的工单 + 足够的测试覆盖率，让人能快速信任但验证。

Level 2 → Level 3：砍掉审查瓶颈

现在卡你的是——你，一个人，在批准每一个 PR。动作：让低风险改动不经过人就上线。写下"低风险"的定义（比如不碰支付、认证、数据迁移的就算低风险），搭第二个 Agent 审查第一个 Agent 的产出，要求自动化测试全过，三者都过了就自动合入。其他升级给人。

这是最难的一步。需要真基础设施。DORA 说得很清楚：有没有一个优质的内部平台，是"用 AI 赢"和"被 AI 埋"的分水岭。

前提：你真正信得过的自动化测试 + Agent 能接入的内部平台。

Level 3 → Level 4：移除最后那道"人"的开关

Level 3 还是由人发起工作。Level 4：Agent 自己盯着生产、发现 bug、开工单、跑完整条线。人决定下一步做什么。

说实话，大多数公司别急着冲这一级。涉及信任、钱、安全的东西，很长一段时间内最好留个人在循环里。但你应该知道这是方向。

前提：Agent 能操作的生产监控 + 你信得过的无人值守护栏。

下一个工厂在哪？

Ryan Carson 说得对：工程只是第一个工厂。下一步是"公司工厂"。

但不是每个部门都准备好了。什么决定一个部门能不能变成工厂？

核心判断标准只有一个：可验证性。

Karpathy 说过一句精辟的话：传统软件自动化你能指定的事情；AI 自动化你能验证的事情。如果一个任务有自动的成功信号，机器就可以练习，你就敢信任它的输出。

这就是为什么工程最先被改造。一个测试要么通过要么不通过。有"地面真相"。你让 Agent 修一个 bug，能证明它修好了。你让它给架构建议——没有信号。它可能很精彩，也可能悄悄地埋了个雷，三个月后你们才炸。

一个部门能不能变成工厂，取决于四个条件：

1. 输出可验证——有没有办法自动判断做得对不对？（最大的因素）
2. 输入输出是数字化的——工作发生在软件里，不是在会议室握个手完成的
3. 高频可重复——有足够多的"同样的工作"，值得建一条流水线
4. 可回滚——机器搞砸了，能低成本发现并撤销吗？

按这四个维度排个序：

最适合先搞的： 软件工程、QA、数据管道和数据分析、DevOps。全都有"地面真相"。测试过不过、schema 校验通不通、仪表盘能不能对上账——清清楚楚。

正在成熟的： 财务和会计的部分环节（对账有正确答案）、客户支持（是否已解决、CSAT 可衡量）、销售和营销的运营事务（发了没？转化了没？）。

暂时别想的： 战略、设计品味、新颖架构、高管判断、关系和信任建立——任何"对错"是主观的、或者要很久才能验证的事情。

想深入研究？关注这些人

我真正会看的短名单：

• Ryan Carson（@ryancarson）：最清晰的真实代码工厂案例。他公开的是实际搭建方案，不是概念。
• Simon Willison（@simonw）：对 Agent 编码能做什么不能做什么，最冷静、最不忽悠的声音。
• Peter Steinberger（@steipete）：@openclaw 的作者。在疯狂地推 Agent 编码的边界。
• Lenny Rachitsky（@lennysan）：最擅长把 OpenAI、Anthropic 这些前沿公司干的事翻译成商业语言。
• Santiago（@svpino）：你团队里那个怀疑论者。有人吹"90% 代码是 AI 写的"的时候，他是喊"胡扯"的那个人——你需要他。
• Andrej Karpathy（@karpathy）：如果你想理解"为什么"——AI 能吸收什么工作、不能吸收什么。
• DORA 报告（dora.dev）：不是人，是数据。关于什么区分了赢家和输家，这是最硬的证据。

如果只能记住三件事

1. 软件工厂不是"工程师用 AI 写代码"，而是一条生产线——Agent 写、审、测、上线，人从流水线上退下来设计流水线。
2. 别再炫耀"AI 写了百分之多少的代码"了。该问的是：你们的流水线有多少环节没有人在里面？
3. 工程只是第一个工厂。下一个工厂是你公司里任何一个有可验证、数字化、高频重复、可回滚的工作的部门。你的竞争对手可能已经在建了。