你的下单按钮坏了。客户在骂。怎么办?
2023 年所有人都在聊 ChatGPT。2024 年是 GenAI。2025 年是 Agent 元年。2026 年初大家还在追 OpenClaw,现在风向又变了——软件工厂(Software Factory)。
你不写代码?没关系。但你总得理解为什么隔壁公司的 CTO 突然张口闭口都是"工厂化"。
有些公司已经在说:90% 的生产代码是 AI 写的。个别顶级工程师一个人顶以前二十个人。这不是科幻小说,这是 2026 年 6 月的现实。
但你猜怎么着?绝大多数公司的工程团队离"工厂"还差着十万八千里。
我自己的公司(@tenex_labs)专门帮企业搭这个。铺基础设施、做评估、搞培训、推变革管理——把整个工程组织从旧模式拽到新轨道上。所以我见过太多组织。老板以为自己建好了流水线,走进去一看,还是手工作坊。
下面我把这事彻底拆开:软件工厂到底是什么、为什么突然爆火、以及——哪怕你一行代码都没写过——怎么用五分钟判断你的组织在哪个段位。
不扯术语,软件工厂到底是啥?
说白了:软件工厂就是一个工程组织,它做软件的方式更像生产线,而不是纯手工。
手工模式:一个人坐下来,手写代码。就像定制跑车,一辆一辆地手搓。灵活,但慢,质量看人。代码产出取决于你能招到多少牛逼的工程师、他们打字有多快。所有的上下文都存在人的脑子里。
工厂模式:工作工业化了。就像现代汽车装配线——更快、更可靠、可伸缩,但前期要在流程和工具上砸钱。有一条固定的流水线:写→审→测→部→监。软件沿着它走。每一步都有标准操作、自动化质量检查,尽量少用人。人干嘛?设计流水线、处理异常。重复劳动交给机器。
Simon Willison 写过一家叫 StrongDM 的公司,那是目前我见过最极端的版本。他们的原则只有两条:
"代码不能由人写。""代码不能由人审。"
听起来很离谱吧?但这就是精髓。
工厂不是"工程师用 AI 把代码写得快一点"。工厂是——人从流水线上退后一步,从"干活的人"变成"指挥流水线的人"。

这词为什么突然满天飞?
三件事撞在了一起。
第一,证据太硬了。
Ryan Carson 现在运营着一个被他称为"代码工厂"的东西:Agent 写代码、审代码、跑测试、分类错误、盯生产——他只管设护栏。靠这种方式他已经合入了上千个 PR。一个人就是一个软件公司。
Anthropic 自己说:90%+ 的代码是 AI 写的。Google 说 75% 的新代码是 AI 生成的(一年前这个数字是 25%)。OpenAI 内部 95% 的工程师用自家 Agent,积极拥抱的那批人比同级多开 70% 的 PR。
这些数字已经不是预告片了,是正片。
第二,大佬们都在用这个词。
微软开始推"Agent Factory",把它包装成软件构建的新范式。巨头一用某个词,它就快速进入主流。Chamath 在聊 8090 团队的软件工厂。Garry Tan 写了篇叫《停止为你的 Agent 建富士康工厂》的文章。
语言本身就在改变现实。
第三,"X% 的代码是 AI 写的"变成了新的 CEO 攀比指标。
不是最正确的指标,但它确实让"Agent 工程"这个概念出圈了。

框架:软件工厂梯子
要建软件工厂,你得先知道团队在哪个位置。
五级梯子,0 到 4。你应该能在 60 秒内定位。
用同一个场景跑一遍所有级别:用户遇到了一个 bug——"下单"按钮挂了。看看随着你往上爬,人和 AI 的角色怎么换。

Level 0:手工艺人
客户发邮件骂人。终于有个工程师听说了问题,手动复现,手写修复,另一个人读代码审查,有人手动测试,最后有人部署。AI 的影子都没有。全是人在做。
Level 1:辅助型
一样的步骤,一样的人。只是工程师用 AI 辅助工具写修复快了一点点。产出涨了一点。但流程一模一样。每一步都还是人在做、人在批准。绝大多数公司都在这一层。
Level 2:委派型
工程师把 bug 丢给 Agent。Agent 自己写修复、开 PR。但合入之前还是需要人读代码、点批准。杠杆来了——产出翻了,但人还是每个环节的守门员。大多数"AI 先行"公司卡在这一层。
Level 3:受监督的工厂
一个 Agent 盯着生产环境。发现 bug,分类。一个编码 Agent 写修复。另一个 Agent 来审查。测试自动跑。如果风险低、都通过了——它自己上线,全程没有人在里面。人干嘛?设规则("低风险修复自动合入,碰支付相关升级给人"),只在高风险的时候被拉进来。
这就是 Carson 的代码工厂。这就是 StrongDM。极少团队真的到了这一层。
Level 4:自主工厂
那个 bug 被发现、修复、审查、测试、上线——整个团队甚至不知道发生过。人不在盯着流水线了。人在想:产品下一步应该进化成什么?
几乎没人真的到 Level 4。但整个行业正在往这个方向冲。
你们组在梯子第几级?
诚实回答这 11 个问题,你能很快定位:
- 1. 我们有多少比例的 PR 不需要人审查就直接上线了?如果是 0%,你在 Level 1。
- 2. 修 bug 或做小功能的时候,第一版代码是谁写的?人写的 = Level 0或1。人指挥 Agent 写的 = Level 2 及以上。
- 3. Agent 能自己开 PR 吗?每行代码都还是人敲的 = Level 1。Agent 能独立开 PR = 跨过 Level 2 的门槛。
- 4. 有规则让低风险改动自动上线、高风险升级给人吗?谁定的规则?这是 Level 3 的核心。
- 5. 生产环境崩了,最先发现的是人还是系统?谁分类的?人发现 = 早期。系统发现并分类 = Level 3。
- 6. 每次改动测试自动跑吗?坏的改动系统能自动拦下来吗?这能看出质量门禁是真的还是形式。
- 7. Agent 上线了有问题的东西,你们多快能发现并回滚?安全网的速度决定了你能爬到多高。
- 8. AI 工具能看到你们的内部代码库、文档和系统,还是只能刷公开信息?只能刷公开的 = 被卡住了。
- 9. 有一个内部平台让 Agent 统一接入,还是每个工程师自己搭一套?根据 DORA 报告,这个因素比任何其他因素都更能区分赢家和输家。
- 10. 明天我把所有 AI 工具收走——你们的流程会变,还是只是更慢了?流程不变 = 你还在 Level 1。流程会崩 = 你真的工业化了。
- 11. 现在的瓶颈在写代码,还是在审查和上线?还在写 = 早期。瓶颈移到下游 = 成熟了。这个转移就是关键。
怎么爬梯子
Level 0 → Level 1:把 AI 交到每个人手里
这一步主要不是技术问题,是组织问题。给每个工程师配上编码助手,明确哪些工具是官方认可的,鼓励他们在真实项目上试,扫清安全合规和法务上的障碍。听起来简单,但买了许可没人打开用的公司多了去了。
前提:明确的 AI 立场 + 团队真正能在真实代码库上用的工具。
Level 1 → Level 2:让 Agent 独立接一个工单
现在你的工程师只是在用 AI 打字更快。真正的跃迁是:把一整个工单交给 Agent。拿你们最成熟的模块、测试覆盖率最高的部分,把整个 bug 工单丢给 Agent——它写修复、开 PR,人审查。接下来十个 bug 都这么干。
这里的瓶颈不是技术,是让你的团队停下来——不亲手写每一行代码,他们不习惯。
前提:写清楚的工单 + 足够的测试覆盖率,让人能快速信任但验证。
Level 2 → Level 3:砍掉审查瓶颈
现在卡你的是——你,一个人,在批准每一个 PR。动作:让低风险改动不经过人就上线。写下"低风险"的定义(比如不碰支付、认证、数据迁移的就算低风险),搭第二个 Agent 审查第一个 Agent 的产出,要求自动化测试全过,三者都过了就自动合入。其他升级给人。
这是最难的一步。需要真基础设施。DORA 说得很清楚:有没有一个优质的内部平台,是"用 AI 赢"和"被 AI 埋"的分水岭。
前提:你真正信得过的自动化测试 + Agent 能接入的内部平台。
Level 3 → Level 4:移除最后那道"人"的开关
Level 3 还是由人发起工作。Level 4:Agent 自己盯着生产、发现 bug、开工单、跑完整条线。人决定下一步做什么。
说实话,大多数公司别急着冲这一级。涉及信任、钱、安全的东西,很长一段时间内最好留个人在循环里。但你应该知道这是方向。
前提:Agent 能操作的生产监控 + 你信得过的无人值守护栏。
下一个工厂在哪?
Ryan Carson 说得对:工程只是第一个工厂。下一步是"公司工厂"。
但不是每个部门都准备好了。什么决定一个部门能不能变成工厂?
核心判断标准只有一个:可验证性。
Karpathy 说过一句精辟的话:传统软件自动化你能指定的事情;AI 自动化你能验证的事情。如果一个任务有自动的成功信号,机器就可以练习,你就敢信任它的输出。
这就是为什么工程最先被改造。一个测试要么通过要么不通过。有"地面真相"。你让 Agent 修一个 bug,能证明它修好了。你让它给架构建议——没有信号。它可能很精彩,也可能悄悄地埋了个雷,三个月后你们才炸。
一个部门能不能变成工厂,取决于四个条件:
- 1. 输出可验证——有没有办法自动判断做得对不对?(最大的因素)
- 2. 输入输出是数字化的——工作发生在软件里,不是在会议室握个手完成的
- 3. 高频可重复——有足够多的"同样的工作",值得建一条流水线
- 4. 可回滚——机器搞砸了,能低成本发现并撤销吗?
按这四个维度排个序:
最适合先搞的: 软件工程、QA、数据管道和数据分析、DevOps。全都有"地面真相"。测试过不过、schema 校验通不通、仪表盘能不能对上账——清清楚楚。
正在成熟的: 财务和会计的部分环节(对账有正确答案)、客户支持(是否已解决、CSAT 可衡量)、销售和营销的运营事务(发了没?转化了没?)。
暂时别想的: 战略、设计品味、新颖架构、高管判断、关系和信任建立——任何"对错"是主观的、或者要很久才能验证的事情。

想深入研究?关注这些人
我真正会看的短名单:
- • Ryan Carson(@ryancarson):最清晰的真实代码工厂案例。他公开的是实际搭建方案,不是概念。
- • Simon Willison(@simonw):对 Agent 编码能做什么不能做什么,最冷静、最不忽悠的声音。
- • Peter Steinberger(@steipete):@openclaw 的作者。在疯狂地推 Agent 编码的边界。
- • Lenny Rachitsky(@lennysan):最擅长把 OpenAI、Anthropic 这些前沿公司干的事翻译成商业语言。
- • Santiago(@svpino):你团队里那个怀疑论者。有人吹"90% 代码是 AI 写的"的时候,他是喊"胡扯"的那个人——你需要他。
- • Andrej Karpathy(@karpathy):如果你想理解"为什么"——AI 能吸收什么工作、不能吸收什么。
- • DORA 报告(dora.dev):不是人,是数据。关于什么区分了赢家和输家,这是最硬的证据。

如果只能记住三件事
- 1. 软件工厂不是"工程师用 AI 写代码",而是一条生产线——Agent 写、审、测、上线,人从流水线上退下来设计流水线。
- 2. 别再炫耀"AI 写了百分之多少的代码"了。该问的是:你们的流水线有多少环节没有人在里面?
- 3. 工程只是第一个工厂。下一个工厂是你公司里任何一个有可验证、数字化、高频重复、可回滚的工作的部门。你的竞争对手可能已经在建了。

夜雨聆风