

「软件工厂」这个词最近突然到处都是。
Anthropic 说自己 90% 的代码由 AI 写出。Google 说新代码里有 75% 来自 AI,一年前这个数字还是 25%。OpenAI 内部 95% 的工程师在用 AI agent,那些深度使用的人比同事多开 70% 的 PR。
然后每个 CEO 开始问同一个问题:我们公司在这件事上在哪里?
我注意到大多数关于「软件工厂」的文章,写的是赞美,是前景,是为什么你应该在乎。很少有人认真回答:这东西到底是什么,有哪几个阶段,怎么判断你在哪里,以及下一步该做什么。
Alex Lieberman 是 tenex_labs 的创始人——他们专门帮企业搭建软件工厂的基础设施,然后做评估、培训和组织层面的变革管理。他看过大量工程团队之后,写了这篇指南。
核心是一个五级梯子。读完,你应该能在一分钟内定位自己公司在哪一级。
01 工艺坊 vs 流水线
:::
Alex 给了一个很好的类比:软件工厂,就是把工程从「工艺坊」变成「流水线」。
工艺坊模式:一个人坐下来,手写代码。就像手工打造定制汽车,灵活但慢,产出取决于你雇了多少熟手。
流水线模式:工作是工业化的。有一条标准化的线——写、审、测、部署、监控——软件沿着这条线流动,每一步都有自动化的质检。人负责设计产线和处理异常。机器负责跑量。
最极端的例子来自一家叫 StrongDM 的公司,他们给自己定下了两条原则:
「代码不能由人来写。代码不能由人来审。」
听起来像是在说笑,但这才是工厂的本质。工厂不是「工程师用 AI 写代码更快了」,而是人升了一级——从做活儿的人,变成了设计生产线的人。
02 为什么这个词突然火了
:::Alex 说三件事同时发生,让软件工厂这个概念变得无法回避。
第一,证据变得不可否认。Ryan Carson 一个人管着一个他叫做「代码工厂」的东西:agent 写代码、审代码、跑测试、处理错误、监控生产。他用这种方式发出去了超过一千个 PR。基本上是一个人的软件公司。然后再加上 Anthropic 的 90%、Google 的 75%,这些数字已经没法被忽视。
第二,大公司把这个语言带进了主流。微软开始用「Agent Factory」来描述未来的软件开发方式。Chamath 经常谈他在 8090 正在建的软件工厂。Garry Tan 用 GStack、GBrain 在推进这个概念,甚至发了一篇文章叫「别再给你的 agent 建富士康工厂了」。当这些名字开始用这个词,它就进入主流了。
第三,「AI 写了我们 X% 的代码」变成了一种炫耀方式。Alex 说这不是一个好的指标,但它让大家开始关注这件事。有注意力,才会有行动。
03 五个级别
:::
这是文章里最实用的部分。Alex 设计了一个五级梯子,从 Level 0 到 Level 4,让你能在一分钟内定位自己。
为了让每个级别更具体,他用同一个场景贯穿:一个客户遇到了 bug,「下单」按钮失效了。
Level 0:工匠。客户联系客服,消息最终传到工程师耳里,工程师手写修复代码,另一个工程师阅读代码审查,有人手动测试,有人手动部署。AI 不在。每一步都是人。
Level 1:辅助。流程一模一样,只是工程师用了 AI 写代码的速度快了一点。产出略有提升,但所有的关卡仍然是人在守着。这是大多数公司实际所在的位置,尽管他们以为自己不止于此。
Level 2:委托。工程师把这个 bug 交给 agent。Agent 自己写修复,自己开 PR。但每个 PR 合并前,还是需要人来读和批准。真正的杠杆来了,但人仍然是每件事的关卡。大部分「AI 先进」的公司卡在这里,产出已经大幅提升所以感觉很先进了。
Level 3:有监督的工厂。一个 agent 在监控生产环境,发现了这个错误并分类。一个编码 agent 写修复。第二个 agent 审代码。测试自动运行。如果是低风险的问题而且所有检查都通过了,它就直接上线——没有人介入这个 bug 的整个处理过程。人来设置护栏("低风险的修复通过测试和审查后自动合并,涉及支付的任何东西要上报"),只在有风险的事情上被拉进来。Ryan Carson 的代码工厂就是这里。StrongDM 也是。真正到了这里的公司很少。
Level 4:自主工厂。那个 bug 在团队任何人知道之前,已经被发现、修复、审查、测试、上线。人不是在看产线——他们在决定产品下一步应该变成什么。几乎没有公司真正在这里。但这是整个行业的指向。
04 你在哪一级
:::Alex 提供了一组问题,帮你快速自测。我挑了最关键的几个:
「我们有多少 PR 是没有人审查就合并的?」 如果是零,你在 Level 1。
「写代码的第一版是谁:人,还是人指挥 agent?」 人写 = Level 0 或 1。人指挥 agent = Level 2 及以上。
「我们有没有规则让低风险改动自动上线,同时把高风险的升级上报?是谁制定了这些规则?」 这是 Level 3 的核心问题。
「生产环境出问题时,谁最先发现:人还是系统?谁来分类处理?」 人发现 = 早期。系统发现并分类 = Level 3。
「我们有内部平台让 agent 接入,还是每个工程师各自接自己的工具?」 Alex 引用 DORA 报告的数据:这是区分 AI 赢家和落后者的最大单一变量。
「如果明天把所有工程师的 AI 工具拿走,我们的流程会变,还是只是速度变慢?」 只是变慢 = Level 1,有更好的自动补全而已。流程会崩 = 你真的工业化了。
这最后一个问题我觉得最准。如果 AI 只是加速了某个步骤,那本质上还是 Level 1,只是跑得更快。流程有没有被重构,才是分水岭。AI 工具在就快,AI 工具不在就慢——这不是工厂,这是更贵的个人工具。
05 怎么往上爬
:::每个级别之间的障碍不一样,Alex 有针对性地分析了。
0→1:主要是组织问题,不是技术问题。给每个工程师一个 AI 编码工具,明确允许他们在真实代码库上用,清除法律和安全层面的阻力。最简单的一跃,也是大多数公司以为自己已经完成的那跃。
1→2:让 agent 完整拥有一张工单。停止让工程师用 AI 来打字更快的模式——切换到让 agent 处理一整个 bug 工单、自己开 PR、然后人来审。在最有测试覆盖、最低风险的代码区域试头十次。最大的阻碍不是技术,是让团队停止自己写每一行代码的习惯。
2→3:杀掉审查瓶颈。写清楚什么是「低风险」(比如:不涉及支付、身份验证、数据迁移),搭一个第二 agent 来审第一个 agent 的代码,要求自动化测试套件通过,三条全过就自动合并。这是最难的一跃,也是对基础设施要求最高的。Alex 引用了 DORA 报告的结论:一个好的内部平台是区分「用 AI 赢了」和「被 AI 压垮了」的最大变量。
3→4:去掉最后一个人工触发点。Level 3 里人还是在启动工作,Level 4 里 agent 在监控生产并自己发工单。这步主要是关于监控和信任,而不是更好的模型。
Alex 说,大多数公司不应该冲刺 Level 4。任何涉及信任、钱或安全的事,很可能很长一段时间内都需要人在回路里。
06 下一个工厂是哪里
:::工程是第一个被工厂化的职能。下一个是哪里?
Alex 花了相当大的篇幅讨论这个问题,他给出的判断标准很有意思。核心变量只有一个:可验证性。
他引用了 Karpathy 的原话:
「传统软件自动化你能规定的事;AI 自动化你能验证的事。如果一件任务有自动成功信号,机器就能练习它,你就能信任输出。」
工程最先被工厂化,是因为测试要么过要么不过,有地面真相。你让 agent 修一个 bug,能证明它修好了。但如果你让它给架构提建议,没有信号,可能几个月后才发现它错了。
按照这个逻辑,各职能按工厂就绪程度排列:
最就绪(先做这里):软件工程、QA、数据管道和分析、DevOps。全都有地面真相检查。测试通过,Schema 验证,Dashboard 对账。
越来越就绪:财务和会计里的对账(有正确答案),客服(解决了没有,CSAT 可测),销售和市场运营层面(发出去了没有,转化了没有)。
最不就绪:战略、设计品味、全新架构、管理判断、关系建立。任何「对不对」是主观的,或者要很久才能验证的。
我在看这个框架的时候想到一件事:验证性本身可以被工程。很多职能之所以不就绪,是因为我们还没有建立测量正确性的工具。当有人建了那个工具,这个职能就会突然加速到 Level 2 或 3。
比如客服。今天的难点不是 agent 能不能回答问题,而是你怎么知道它回答对了。如果你有一套可靠的「解决率」和「客户满意度」的自动评估,客服就会突然变得工厂就绪。所以某种程度上,下一个工厂的战争,是在争谁先建好那个评估系统。
Alex 没有往这个方向延伸,但我觉得这才是问题的核心:与其问「哪个职能下一个工厂化」,不如问「哪个职能的验证问题即将被解决」。那才是入场时机。
对我们意味着什么
:::我读完这篇之后,想到的第一件事是:大多数人在问「我们用了多少 AI」,而 Alex 在教大家问「人还在守哪几个关卡,以及为什么」。
这两个问题方向完全不一样。前者是工具的覆盖率,后者是流程的形态。一个公司可以给每个工程师都装了 GitHub Copilot,依然在 Level 1。一个公司可以只有三个工程师,但如果他们的测试和 agent 设计得好,可能已经在 Level 3。
我不确定 Alex 的五级分法是不是最终答案。每家公司的代码库、安全要求、合规环境都不一样,Level 3 对一家律所和一家 SaaS 公司意味着完全不同的风险。
但这个框架里有一件事我觉得是真的:工厂化的进程,就是不断把人从某一个步骤里移出去的过程,而且只能和你的安全网(测试、版本控制、内部平台)的速度同步前进。
跑得比安全网快,就会出生产事故。跑得比安全网慢,就是在浪费工厂化的收益。这两种错误我感觉都很常见——前者是激进派,后者是保守派,两边都没有真正掌握节奏。
所以如果你今天只想带走一件事:把那个问题默默放在心里——「如果我明天把所有工程师的 AI 工具拿走,我们的流程会变,还是只是变慢?」
如果答案是只是变慢,那你还在工艺坊里——只是工艺坊有了更好的工具。真正的工厂化,是流程层面的重构,不是工具层面的升级。
你知道下一步该做什么了。

◇ ◆ ◇
来源:Alex Lieberman (@businessbarista),X Article,2026年6月1日
• 原文:What the hell is a Software Factory?
夜雨聆风