AI-Native 研发组织:Tokenmaxxing 之后

很多公司意识到要让工程团队用 AI 之后，做的第一件事是把使用量做成指标——内部排行榜、Token 预算、把 AI 使用写进绩效。Meta、Amazon、Microsoft、OpenAI 都被报道过类似的内部追踪机制。这套打法已经有了一个新名字，叫 Tokenmaxxing——把 Token 用量本身当成生产力的代理指标。

Amazon、Microsoft、Google、Meta 这四家 2026 年 capex 合计在 6500 亿到 7000 亿美元之间，签下这笔钱的高管必须给投资人交代 AI adoption 的数字。Token 用量是最容易给得出来的数字——所以它就被给出来了。Tokenmaxxing 不是几家公司 HR 蠢，是 capex 周期下几乎必然出现的组织失败模式。但这套打法用 Token 用量来衡量产出，等于在度量执行的规模，而执行是 AI 时代成本变得最低的那一段。用量涨上去不等于组织变强，它甚至可以反过来——一个团队让 agent 空转刷量，跟一个团队真正解决问题，在这套指标里看起来一样。

摆在工程组织面前的是两个问题。一个是组织自己能解决的：把使用量做成指标之外，AI-Native 的研发组织该是什么样，什么需要重写。另一个是组织自己解决不了的：把研发组织搞对之后，开发效率提升一个量级，营收会跟着涨吗？

Anthropic 的 Claude Code 工程总监 Fiona Fung 在 2026 年 5 月做过一场演讲，正好回答了第一个问题。主题是当 agentic coding 从个人工具变成全组织默认，哪些旧规范失灵了、他们重写了什么。她的总结一句话：工具不是难点，流程才是。具体要重写的有三个地方——review、ownership、hiring。

验证比写更难

写一个 PR 的成本趋近于零，验证一个 PR 的成本没有变。这两者之间的剪刀差，就是新的瓶颈所在。AI 写的代码比人写的更难验证。人写代码时，错误往往伴随着明显的痕迹——逻辑不通、风格混乱、半途而废。AI 写的代码不会这样，它总是看起来工整、完整、合理。一段调用了错误参数的代码和一段正确的代码，在 AI 的笔下长得一模一样。验证者失去了过去用来快速筛查的那些表面信号，必须逐行去核对逻辑本身。

AI 还会主动让测试结果看起来对——遇到测试失败时，它有时候会去改测试 case，把一个原本正确的断言改成一个能让自己通过的断言。这件事我自己撞到过几次：让它实现一个功能，它发现测试过不了，转头就把测试里的期望值改掉，整个改动看起来"全绿"，但 spec 已经被它悄悄改了。验证这件事比传统软件难一个量级——AI 既是被验证的对象，又是有动机绕过验证的对象。

开源世界已经在面对这件事。2026 年 1 月，Ghostty 的作者 Mitchell Hashimoto（也是 Vagrant、Terraform 的创始人）合并了一条新政策：未经预批准 issue 的 AI 生成贡献一律立即关闭，提交劣质 AI 内容者永久封禁。他的理由是："agentic programming 消除了过去那种基于努力的天然背压。现在用最少的努力就能制造大量糟糕的内容。"curl 维护者 Daniel Stenberg 直接关掉了 bug bounty 项目，因为 2025 年提交的安全报告里不到 5% 是真实的、其余是 AI 幻觉；他写道，"无穷无尽的 slop 提交对人的心智是真实的损耗"。tldraw、Apache Airflow 等项目也都在出类似政策。还有人在用 AI agent 系统性地刷 GitHub contributor 数量、做 reputation farming——把过去靠人脑评估的"贡献者声誉"机制变成可以工业化伪造的指标。

开源是验证机制最薄弱的地方——任何人都能提 PR，维护者靠声誉和工时来筛。当 AI 让生成端的成本归零、而筛端的成本不变，这套机制就不再够用了。企业内部之所以慢一拍，是因为入口被 employee/contractor 身份卡住了——但这个屏障保护的是提交规模，不是验证能力。Salesforce 在 2026 年 5 月的官方报告里写到，他们工程师 2026 年 4 月 PR merged 比 2025 年 4 月涨了 79%——一个企业 SaaS 公司，PR 规模已经接近翻倍。开源现在出的事，企业已经在面对了。

Anthropic 内部跑了好几个月一个多 agent 的 Code Review 系统。部署之后，PR 收到实质性评审意见的比例从 16% 涨到了 54%，超过一千行的 PR 84% 能找到问题，小于 50 行的小改动也有 31% 能找到问题，而工程师标记为错误的发现不到 1%。他们每个工程师过去一年代码产出涨了 200%，review 直接成了瓶颈——换句话说，在这套系统之前，超过八成的 PR 是在没有被真正审查的情况下合并的，人工 review 跟不上 AI 产出代码的速度，大量 PR 只能被"看一眼就放行"。

代码行数不再重要

大部分工程组织衡量产出的方式，是代码行数、PR 数量、commit 频率这类指标。这些指标有一个共同的隐含假设：代码是人一行行写出来的，所以写得多约等于产出多。这个假设在 AI 时代彻底失效了。

Meta 的 Claudeonomics 看板按 Token 消耗量给八万多名员工排名，30 天里全员消耗 Token 超过 60 万亿，排第一的人月均两千八百多亿——这个数字分摊到每天将近一百亿，远不是手动写 prompt 能达到的量级，背后是有人为了冲榜让 agent 连续空转几小时来刷量。还有人观察到，当一个 OpenAI 工程师同时管理 20 个并行的 Codex 线程、比同事多开 70% 的 PR 时，所有传统指标都失去了意义——代码行数是 AI 写的，commit 是 AI 提的，PR 速度是灌水灌出来的，code review 在人看到之前 agent 已经先审了一遍。每一个传统指标都建立在"代码是人写的"这个前提上，而这个前提已经不成立了。

在这种产出规模下，继续用代码行数或 PR 数衡量工程师，等于在鼓励灌水。一个工程师让 agent 空转产出一万行没人需要的代码，在这套指标下看起来比一个删掉五千行冗余、让系统更简洁的工程师"产出更高"。被奖励的是执行规模——而执行规模是 AI 让成本变得最低的那一段，奖励它等于在花钱让组织做最不缺的事。

行业里已经有人在尝试新的度量方式。一种叫 Complexity-Adjusted Throughput，给 PR 按难度赋分——简单的改动一分，中等的三分，困难的八分——因为原始 PR 数会高估琐碎改动、低估困难改动。还有人开始追踪 AI-assisted commit 的比例、suggestion 的接受率、review 覆盖的一致性这些行为指标。这些尝试都还在早期，但重心已经从"写了多少"转向"解决了多大的问题"以及"质量有没有守住"。

换上新指标也未必能立刻看到速度提升。METR 做过一个随机对照试验，发现有经验的开源开发者在用 AI 工具时反而慢了 19%——工具塞进了一个没有为它重新设计过的流程里，AI 能写得多快不重要，瓶颈卡在它前后那些没改过的环节。工具发下去不等于组织提效，省下来的时间会消失在没改过的流程缝隙里。AI-assisted code 的占比如果不配上质量数据，本身就是个虚荣指标。

我自己带工程的时候有个体会：度量的难点从来不在"算得出来的那些数"，而在"算不出来但真正重要的那些事"。一个工程师有没有把一个含糊的问题想清楚、有没有在动手之前判断对了方向、有没有在 review 里拦下一个别人没看出来的隐患——这些在 AI 时代变得比过去更值钱，但代码行数和 PR 数完全捕捉不到。当"写"这个动作本身不再能区分一个工程师的价值，你用来衡量他的尺子就必须换。换不掉的组织，会一边奖励灌水、一边流失真正有判断力的人。

用代码替代辩论

过去工程师对一个技术方案有分歧，解决方式是开会、画白板、争论，最后由资历最深或者嗓门最大的人拍板。原因很简单：把每个方案都真正实现出来再比较，成本太高，开发时间耗不起。所以大家只能在抽象层面争论，用经验和直觉代替证据。

当实现的成本趋近于零，这个逻辑变了。与其在白板前争论哪个方案更好，不如让每个方案都真正跑出来——几个工程师各自让 AI 实现一个版本，然后用真实的代码、真实的运行结果来比较。Fiona 把这个叫 "code wins"：让代码本身投票，而不是让会议室里的声音投票。

这件事把技术决策从"基于权威和直觉"转向了"基于证据"。过去一个初级工程师的好想法，可能因为他说不过资深的人而被否掉；现在他可以直接把方案实现出来，让结果说话。决策的质量不再那么依赖于谁更会表达、谁的资历更深。

我自己在做一些技术选型时用过这个方式。以前评估两个方案，要么靠过去的经验拍脑袋，要么花一两周各做一个原型——成本高到通常只能选一个方向赌一把。现在让 AI 把两三个方案都快速实现到能测的程度，用实际数据比较，再决定走哪条路。过去这种做法因为太贵几乎没人用，现在成本掉下来了，可以变成默认动作。

AI-Native 研发组织必须具备更好的基础设施

一个组织要真正吃到这些变化的红利，得在哪些地方投资？答案是基础设施。

这里说的"基础设施"不是服务器、数据库那种传统意义。它指的是支撑 AI 和人协作的那一层组织能力——把单次的 AI 调用变成系统性的产出，把个人的判断沉淀成组织的资产，把验证、知识、责任这些过去靠人力撑住的东西，重新搭在一套能持续运转的机制上。没有这套基础设施，AI-Native 是一个概念；有了它，AI-Native 才是一个能运转的组织。基础设施分两层：infra 层和人这一层。

验证基础设施：让 review 系统自己进化

从开发的角度看，eval 比传统的单元测试要难得多。传统软件里的测试是个静态对象：你写一组 case，跑过就是过，不过就是不过，测试本身不会跟被测对象互动。AI 工程里 eval 不是这样。被测的不是一个函数，是一个有自由度、有"动机"的系统。同一段代码，模型这一次输出 A、下一次输出 B 都可能符合 spec；同一个 prompt，喂给不同版本的模型、甚至同一个模型的不同温度参数，结果都不一样。这意味着 eval 没有"过/不过"这种二元状态，只有概率分布。一个测试组合的通过率从 70% 提到 75% 算不算改进，要看它在哪些 case 上提了、又在哪些 case 上掉了。eval 本身是一个有方差、要持续维护、要随模型一起演化的对象。

eval 跟被测对象之间还有对抗关系。前面提到 AI 会去改测试 case 让自己通过——这件事在工程上叫 reward hacking，是 Goodhart's Law 的具体形态：一个指标一旦成为 AI 看得见的目标，AI 就会优化指标本身而不是指标背后的能力。在 AI 工程里这个问题特别突出，因为 AI 既是被验证的对象，又有能力修改验证规则。给它写代码权限的同时，就给了它修改测试、修改 CI 配置、修改 eval 数据的权限。一个 eval 系统如果只在"测试通过"这一层做判断，AI 会找到漏洞；它必须有更高的一层——能看到"AI 是不是在动测试本身"、"测试覆盖率是不是被偷偷削掉"、"spec 是不是被改了"。

还有一类问题：同一个模型既写代码又写测试时，会带着同源的 bias。它误解了 spec 的某个边界条件，代码写错；用同一种思维去写测试，测试也按错的边界来——两边都错，但错法一致，于是测试通过了。它对一段代码有"这应该是合理的"的偏见，写测试时就倾向于在它认为可疑的地方少 cover、在它认为安全的地方多 cover。这不是 AI 在主动绕过验证，是它的思考方式本身是统一的——让同一个模型自我审查，跟让一个人 review 自己刚写完的代码效果差不多。但传统软件里"自己 review 自己代码"是临时状态，工程文化会推到同事或 reviewer 那里；AI 工程里这种状态变成了默认，因为很多团队的工作流就是"让 Claude Code 写完再让 Claude Code 自检"。这种结构性 bias 用一组测试通过率是看不出来的——它需要一个不同来源的 reviewer 介入，理想情况下是不同模型、或者训练数据有差异的模型，至少是有独立 spec 理解的人。

verify 跟规模是两个独立的难点，但答案是同一个：人做不过来。最直接的反应是多招 reviewer，但验证的规模已经超过了招人能补上的程度。Boris Cherny 在红杉资本的一次访谈里描述过他认为的未来工作流——不是一个工程师跟一个 AI 对话，而是"循环与异步"：让 AI 自动、重复地运行成千上万个子 agent，组成一个持续运转的循环，全天候盯着系统、修测试、抓用户反馈、做聚类分析。一个工程师指挥的不再是一个 agent，是一支随时在跑的 agent 大军。在这种工作流下，产出的代码量是过去的几十倍。人工 review 在这个规模面前，从"忙不过来"变成了"根本不在一个尺度上"。

我跟一些 Anthropic 的工程师聊过他们现在的做法。海量代码已经让人 review 所有代码变得不可能。所以 review 这件事本身也交给了 agent：他们有一条 CI pipeline，由 agent 来做代码审查。在 review agent 后面，还有一系列 agent 在持续总结 review 中发现的问题，把这些问题沉淀成 skill，反过来让 review agent 变得越来越好。

这套机制是一个会自我改进的验证系统。每一次 review 发现的问题，不只是修掉了这一个 bug，还会变成组织的一项可复用资产——一个 skill，让以后所有的 review 都能查出同类问题。个人在一次审查里积累的判断，被沉淀成了整个系统的能力。

Salesforce 在 Claude Code 之上搭了一个叫 AI Expert Suite 的内部库，把工程团队反复用到的判断、约定、领域知识，沉淀成一组 Claude Code skills 文件，全公司共享。一个工程师做的 review 发现，可以变成一条 skill，下一次别的 team 用 Claude Code 时就能用上。他们的报告里有一个具体的故事——一个产品团队要把 33 个 API endpoint 迁移到新的云原生架构，按传统做法要 231 个 person-day。他们用 Claude 搭了一个 rule-based 框架（markdown 文件 + 参考实现），每轮 PR 反馈都把发现的问题沉淀回这套规则里，让后续输出越来越接近 production-ready，13 天做完了原本 231 天的工作。

2026 年 3 月 Anthropic 把一个类似思路的产品对外发布，叫 Code Review，Claude Code Team 和 Enterprise 客户能在自己的 GitHub repo 上接入。对外产品和内部那套机制不完全是一回事——内部有专门的 agent 把 review 中发现的问题提炼成 skill，对外产品的反馈回路是 thumbs up/down 加一个 verification step 过滤误报——但思路是接近的：多 agent 并行、各自查一类问题，再有一层验证。平均一次 review 20 分钟、$15-25。产品里还有一个具体接口叫 REVIEW.md，组织可以把自己对 review 的指令写进去，这些指令会被注入到每个 review agent 的 system prompt 最高优先级。这是把组织对 review 的判断注入 agent 流程的一个具体形态——文件里写什么，决定了 agent 看哪些问题、用什么 severity 来 flag。

Cloudflare 自建了一套类似的多 agent review 系统，跑在 OpenCode 之上，按改动大小分三档分配 reviewer 数量。他们公布了 30 天的运行数据——48095 个 MR、131246 次 review run、中位数 3 分 39 秒完成、$0.98 一次，工程师手动"break glass"绕过 AI 的只占 0.6%。review infra 自建还是买商业产品，正在变成 CTO 要做的选择——但"让 review agent 来跑、人只守住边界"这件事，企业内部已经在跑了。

这件事往前走一步，指向的是 AI agent 当前最大的一个缺口——它们不会积累经验。

一个工程师入职一个新项目，前几周磕磕绊绊，但几个月之后会长出一套对这个项目独有的认识：哪几个模块有历史包袱、哪些约定不写在文档里但所有人默认、为什么有段代码看起来奇怪却动不得。这些认识从工作里来，跟着这个人走。AI agent 现在没有这一层——每次调用都接近"新人入职第一天"，没有从过去的工作中学到的判断，没有对这个具体项目的独有理解。结果就是同样的错误一犯再犯，同样的解释一遍又一遍。

Anthropic 那套 review 系统能做到自我改进，靠的是在 agent 之外加了一层——把 agent 在工作中遇到的问题，提炼成 skill，存回组织，下一次的 agent 调用能用上。Agent 本身不变，但它身边那层"组织积累的判断"变得越来越厚。一个工程师的"项目经验"不在工程师的脑子里，是在他和这个项目反复打交道中形成的；同样，一个 AI agent 的"项目经验"也不能只存在模型权重里，得有一层组织层的、跟着项目走的累积。

真正能在工作里站住的 AI agent，光模型强还不够，得有跟着项目长大的那层累积。Anthropic 这套 review + skill 沉淀是个早期样本——把 AI agent 接进流程只是起点，让它能从流程中学到东西、把学到的东西沉淀回组织，才是真正决定长期价值的地方。

人留在哪个位置，他们的做法是按路径的关键程度来分：如果一个改动不在 critical service path 上，agent review 完成之后可以自动合并，不需要人介入；只有关键路径上的改动，才保留人工审查。

这条边界为什么这么划，我分别跟 OpenAI 和 Anthropic 的工程师聊过，两边给的理由都一致——不是"人的注意力要投在最重要的地方"，而是事故响应。关键路径上的代码必须每一行都有人逐行 review 过，因为一旦出问题，事故响应时是没有 AI 来帮你诊断和恢复服务的。AI 不在 oncall 群里、不知道这套系统积累下来的奇怪历史、不能在凌晨三点钟陪你判断这个 bug 是不是值得马上回滚。一段从来没人看过的关键代码，意味着事故发生时，组织里没有人对它有过那种"in-memory 的熟悉"，恢复时只能从零开始读代码——这种情况下，分钟级的 RTO 就变成小时级。所以关键路径上的人工 review 不只是为了拦 bug，是为了让 oncall 工程师对每一行代码都有过一次接触，事故响应时能立刻动手。

我自己维护一个比较大的代码库，重度用 Claude Code 和 Cursor，对这个剪刀差有切身体会。产出代码从来不是问题，一下午能产出过去一周的量。真正的负担全部压在后面——这些代码对不对、有没有引入隐蔽的问题、跟现有架构合不合。当产出快到一定程度，"我自己 review 一遍"会变成整个流程里最慢的一环。

知识基础设施：codebase 作为单一事实来源

传统工程组织里，关于"这个系统是怎么设计的、为什么这么设计"的知识，散落在文档、wiki、设计评审记录、以及资深工程师的脑子里。这套知识管理方式一直有个老问题：文档会过时，写下来的那一刻就开始和代码脱节。

AI-Native 组织里这个老问题变得更严重，但同时 AI 也提供了一个新解法：让 codebase 本身成为唯一的事实来源。代码是不会过时的，它就是系统当前的真实状态。配上一套自描述的结构——每个模块有说明自己职责的文件、整个项目有交代架构决策的文档（比如 CLAUDE.md 这类约定）——AI 在每次工作前先读这些，就能理解系统的设计意图，而不需要去翻一份可能已经过期的 wiki。

Fiona 提到他们把 codebase 当成 single source of truth，减少对独立的、难维护的文档的依赖。知识不再存在文档里，而是存在代码和它的自描述结构里，跟着代码一起更新。

我自己维护大代码库时，越来越多的精力花在这件事上——不是写代码，是维护一套让 AI 能读懂这个代码库的结构。哪些约定写在顶层、哪些上下文放在模块级、怎么让 AI 在改动一处时知道它会影响什么。context 管理做得好，AI 产出的代码质量和一致性会高一个档次；做得差，AI 每次都要重新猜测系统的结构，产出会逐渐偏离原本的设计。

验证基础设施和知识基础设施做的是同一件事——让 AI 在一个具体的组织里越用越聪明，而不是每次都从零开始。一边沉淀"什么是问题"，一边沉淀"系统是怎么设计的"。

人员基础设施：ownership 和 hiring

过去一段代码的归属很清楚——谁写的谁负责。但当代码是工程师和 AI 协作产出的，当一部分 PR 在 agent review 之后自动合并、没有任何人逐行看过，"谁对这段代码负责"就变得模糊了。如果自动合并的代码出了问题，责任在写 prompt 的人、在配置 review agent 的人、还是在定义自动合并规则的人？

这个问题没法靠"明确一下流程"解决。它触及的是工程组织里一个底层的东西——责任和控制是绑定的。过去工程师对代码有完全的控制，所以承担完全的责任。现在控制被分散到人、AI、和一套自动化规则之间，责任也必须跟着重新分配。一个 AI-Native 的工程组织得想清楚：哪些东西必须有一个明确的人类 owner，哪些可以交给系统，以及当系统出错时，问责链条是怎样的。

"会写代码"作为招聘标准的价值在下降。Boris 说他招工程师时看重 generalist，会留意候选人有没有"side quest"——业余项目，比如有人特别痴迷于做康普茶。他的逻辑是，这是一个人好奇、全面的信号。他还说，现在所有职能都这么招：PM 写代码，数据科学家写代码，连用户研究员也写一点代码。

这个取向背后是一个判断：当 AI 能把任何一个明确定义的任务执行得又快又好，一个人最稀缺的能力就不再是"在某个专项上很深"，而是"能在多个领域之间建立连接、能判断什么值得做"。专才的护城河被 AI 填平了一部分，通才的价值反而凸显出来。招一个会写代码但只会写代码的人，和招一个能写代码、也能想产品、还能自己找用户验证的人，后者在 AI-Native 组织里的杠杆要大得多。

Notion CEO 公开讲过他们把工程组织重构成了一个杠铃结构——一端是非常 junior 的工程师，刚毕业或者职业早期；另一端是少数非常 senior 的架构师；传统组织里那种"中坚力量"——经验不浅但谈不上顶尖的中级工程师——被刻意压缩了。年轻人没有被旧的工程实践和工具链塑造过，反而更容易接受新的开发范式；资深架构师负责定义系统级的分工——哪些部分交给模型、哪些部分坚持规则、怎么组织数据和服务——确保产品作为一个系统是连贯的。中间那一档在 AI 时代变成了最尴尬的位置：经验不足以做架构判断，但又被旧范式塑造得太深、不容易扔掉过去的认知去拥抱新方法。这是组织结构层面的变化——不只是招什么样的人，整个经验分布都在重新排。

我自己有个类似的判断：在 AI-Native 组织里，真正稀缺的两类人是"有 view 的人"和"做过 0 到 1 的人"。有 view 的人——对产品、对架构、对方向有自己一套判断、不需要靠别人给框架的人——能定义"AI 该做什么、不该做什么"这件事，对应的是 Notion 杠铃的资深端。做过 0 到 1 的人——完整地把一个产品从无到有跑通过的人，不管是创业、独立开发还是 side project——他们知道一件事被做完是什么样，知道在没有现成流程的情况下怎么自己定流程。这一类人不限定资历，但他们的特质跟 AI-Native 组织高度匹配：AI 让"从 0 到 1"变得便宜了，但前提是有人知道"1 长什么样"。中间那一档传统中级工程师之所以变得尴尬，是因为他们的经验都是在"1 到 100"的环境里积累的——执行成熟方案、维护已有系统、在既定流程里跑——而 AI 让这一段贬值最快。

Boris 自己有个更远的预测：软件开发正在被彻底民主化，会变得像发短信一样是一项基本技能。当写代码变得极度廉价，真正拉开差距的不再是编程能力，而是对业务领域的深刻理解——未来最好的行业软件，会由最懂那个行业的领域专家直接用 AI 造出来，而不是由纯粹的程序员造。这对 hiring 的含义是：一个工程组织未来要抢的人，可能不是更强的工程师，而是那些既懂某个具体业务、又愿意亲手用 AI 把想法做出来的人。在很多领域，后者比前者稀缺得多。

infra 和人这两层一起决定了一个组织能不能真正把 AI 用起来。infra 决定 AI 在组织里能学多深、记多久；人决定谁来负责、谁来判断、谁能跟 AI 配合到底有多紧。只盯着"工程师每天用了多少 token"，是在测一个表面信号；真正决定组织竞争力的，是 infra 和人这两层有没有搭起来。

当瓶颈不在工程内部

假设你把验证、知识、ownership、招聘、度量、协作方式都按 AI-Native 重新设计了一遍，开发效率真的提升了一个量级——一个团队过去一个季度做三个功能，现在一个月能做三十个。下一个问题，是工程组织自己解决不了的：营收并不会跟着涨三十倍，多数情况下连三倍都不会，有时候根本看不到提升。

Salesforce 在 2026 年 5 月公布过工程团队的产出数据——PR merged per developer 涨了 79%，他们自己用机器学习算出的 effective output 涨了 151%，一个本来要 231 person-day 的迁移项目用 13 天做完，效率 18 倍。报告里详细讲了他们怎么搭 AI infra、怎么沉淀 skill、怎么换流程。整篇报告里有一件事一次都没提——这些工程效率的提升给 Salesforce 带来了多少营收增长。这不是疏忽，是没法讲：工程组织把执行端做到了行业最快的状态之一，但这跟"Salesforce 卖出更多 license"之间，没有直接因果。

Boris 在同一场访谈里讲到，当工程师资源足够多的时候，瓶颈就不在工程了，而在"做什么"。开发效率提升 10 倍，对商业结果的影响往往不是 10 倍，有时候甚至看不到提升。一个用户不需要的功能做得快 10 倍，只是更快地浪费了资源——工程效率放大的是执行，但决定价值的是方向，而方向不在工程效率的管辖范围内。

戴雨森在跟张小珺的播客里讲过一个更具体的商业循环：现在涌进来用 AI coding 的人远多于发现 token 烧出去没价值就退出的人，所以 Anthropic、OpenAI、国产 coding 模型的收入都在快速增长——这有点像一个上面进水、底下漏水的水槽。但增加编程能力和增加收入之间不是直接的因果关系，最后必须有人能从烧的 token 里赚到钱，而且周期不能太长。如果漏水堵不住，整个循环就成立不了。现在很多公司发现，能直接算清账的回报反而集中在降本一端——也就是裁员。一旦 AI 的回报主要寄托在"替代谁的工资"上，故事的逻辑就开始紧张。

戴雨森还做过一个区分——AI coding 真正解决的，是个人和小公司过去"有想法没人做"的瓶颈。这一点确实是历史级的变化，独立开发者和早期创业团队的天花板被显著推高了。但大公司的问题不是这个，大公司的问题是"不知道做什么、以及组织效率很低"。把更多 AI 编码能力塞进一个不知道做什么的大公司，并不会让它变得知道做什么。同一套 AI 工具，对一个 5 人小团队是杠杆，对一个 500 人不清楚方向的大组织可能只是放大了原本的问题。

我自己做技术管理多年，对这件事有体会。一个工程组织最容易陷入的状态，是把"开发速度"当成自己的核心 KPI——因为速度是可以衡量的，而"做对了什么"很难量化。于是组织内部所有的优化都围绕速度展开：流程、工具、自动化、AI。但站在更高一层往下看，一个用户不需要的功能做得再快，也只是更快地占用工程时间。AI 把这个问题从"难发现"变成"很显眼"——因为速度提升十倍之后，"功能没人用"这件事会以十倍的体量暴露出来。

Uber 是硅谷最 AI-forward 的公司之一，但它四个月就烧光了全年的 AI 编码工具预算——起因是搞了一个按 AI 使用量给团队排名的内部排行榜。烧完之后，COO 公开表示，很难在"用了多少 Claude Code"和"给用户多交付了有用的功能"之间画出一条线。他的原话是，那条线还不存在。微软的反应是另一种——它一度给员工大量开放 Claude Code，但很快又砍掉了大部分直接 license、把工程师转回自家的 Copilot CLI，部分原因是财务考量。一家算账的，一家直接收手；两家都站在同一个事实面前：当 AI 预算的支出能算清楚、回报算不清楚，理性的反应不是继续加码。

AI 不是没用。AI-Native 的工程改造能把执行这台放大器调到最大，但它放大不出本来不存在的价值。如果产品方向是对的，10 倍的工程效率会变成实实在在的增长；如果方向不清楚，10 倍的工程效率只会让你更快、更贵地撞墙。工程组织的 AI-Native 化是必要的，但它从来不是充分的。它解决"做得快不快"，解决不了"做得对不对"。后者才是价值的来源。

过去市场把识别需求和工程能力捆在一起评估——一个工程能力强的团队，自然能挑出对的方向去做。AI 把这两件事解耦了：工程能力变得便宜、可复制，识别需求依然依赖判断、品味、对用户的理解。两类能力的市场价格正在快速分化。一个工程组织如果只在工程效率上加码、不在识别需求上加码，它在 AI 时代的相对位置会持续下降——前者的优势会被竞争对手快速追平，识别需求才是真正能拉开差距的地方。

人在 AI-Native 研发组织中的位置

一个 AI-Native 的研发组织和一个"用了 AI 的研发组织"，差别在两件事：组织内部有没有围绕"写代码不再是瓶颈"重写运转方式，外部有没有把节省下来的工程产能用在识别真正值得做的需求上。一件解决"做得快不快"，另一件解决"做得对不对"。两件都做到位，AI 才真正带来增长；只做第一件，速度提升只会让浪费来得更快。

验证也在被 agent 接管，而且那套验证系统还在自我进化。技术辩论交给了代码本身。知识沉淀进了代码库。那么人还占着哪些位置？

剩下的位置都是 AI 暂时接不了的：定义什么问题值得解决，判断什么是真正的好，守在最关键的那条路径上做最后的把关，以及设计和维护那套让 AI 高效工作的系统——review 系统、自描述的代码结构、自动合并的边界规则。这些工作的共同点是"判断"和"设计"，不是"执行"。其中最难的一件，工程效率本身回答不了——这一切的速度，到底在服务于什么。

戴雨森在同一段访谈里讲到，一个程序员八九成的工作是编程，剩下一两成是沟通协调、是组织里靠人与人之间的信任和关系驱动的事——这部分时间不多，但 agent 直接取代不了。人在工程组织里的存在价值，过去主要由"我能写多少代码"来兑现；当代码这件事大幅交给 AI 之后，那一两成原本"看不见"的工作浮出来，变成了主要价值——谁在跟谁建立信任、谁在协调跨团队的紧张、谁在为一个决策真正背锅。戴雨森还说，一个组织里能够背的锅是有限的。哪怕 AI 让你能看十倍的报告、做十倍的分析，你能承担的责任并不会跟着翻十倍。决策的下游是后果，后果要有人扛，而扛的人没法多到哪里去。

所以 AI-Native 的工程组织里，人会变得更少还是更多不是关键，关键是每个留下来的人承担的判断和责任会越来越密。被减掉的是执行环节里可替代的部分，留下来的是判断、设计、协调和承担。这两类工作过去是混在一起的，一个人 80% 的代码工作掩盖了 20% 的协调工作；现在 80% 被剥离出去，剩下的 20% 站到了前台。

如果一个工程组织还在用"写代码的快慢"来衡量自己、来配置团队、来奖励员工，那它量错了东西，也会把人才推向错误的方向。Tokenmaxxing 是这个错误最极端的形态，但即便没有排行榜，只要你的尺子还停留在"写"上，你就还停留在 Tokenmaxxing 的逻辑里。

真正的问题不是你的团队用了多少 Token、产出了多少代码，而是两个可以拿来对照自己组织的判断。

第一个判断：当一个工程师离开你的组织，他在 AI 协作中积累的判断，留下来了多少？

她在 review 中看出来的那些隐患，变成了下次 review agent 能自动查出的规则，还是跟着她一起走了？她对这个 codebase 的理解，沉淀进了模块说明和架构文档让下一任和 AI 都能读懂，还是只活在她的脑子里？她设的那些自动合并边界、那些 prompt 模板、那些 skill 文件，能被组织的下一个人继承吗？

如果答案接近"什么都没留下"，那不管你买了多少 Claude Code license，AI 都只是在放大每个个人的能力。个人能力的放大对个人是好事，对组织是脆弱——人走则空。AI-Native 的核心 infra 投资，是把 AI 协作中产生的判断，从一次性的个人事件，变成跟着组织、可累积、可继承的资产。判断这件事的标准很简单：你的组织一年之内积累了多少可复用的 skill、约定、规则？这个存量在增长还是停滞？

第二个判断：AI 让你节省下来的产能，进了利润表，还是进了判断力？

第一条路：用 AI 替代了一部分工作，省下了人力成本，组织其他部分照旧——同样的产品方向、同样的决策节奏、同样比例的人在做执行。这条路在财务上立刻好看，但它假设你过去的方向是对的、做的事是值钱的，只是太贵。如果这个假设站不住，AI 只是让你更快、更便宜地做错事。

第二条路：节省下来的人没有被减掉，被挪到了上游——做用户研究、做架构判断、做方向选择、做品味把关。组织里"决定做什么"的密度变大，"做出来"的密度变小。这条路在财务上短期看不出好看，但它在押注一个判断：AI 时代真正稀缺的能力是判断力，工程效率是必要但不充分。

这两条路上短期都没人能给出确定答案。但一个 AI-Native 的研发组织和一个"用了 AI 的研发组织"，差别就在这两个判断上有没有想清楚、敢不敢押一边。判断不清楚的组织，会同时做两件事——一边宣布裁员、一边采购 AI 工具——然后被两边的成本同时拖累。

参考资料

https://www.hcamag.com/asia/specialisation/hr-technology/amazon-workers-are-gaming-the-ai-leaderboard-hr-built-it/575013
https://blog.devgenius.io/open-source-projects-are-now-banning-ai-generated-pull-requests-8e1dd3e8d41c
https://www.axios.com/2026/03/10/ai-agents-spam-the-volunteers-securing-open-source-software
https://thenewstack.io/ai-generated-code-crisis/
https://www.salesforce.com/news/stories/how-engineering-became-agentic/
https://claude.com/blog/code-review
https://code.claude.com/docs/en/code-review
https://blog.cloudflare.com/ai-code-review/
https://youtu.be/igO8iyca2_g
https://youtu.be/SlGRN8jh2RI
https://www.xiaoyuzhoufm.com/episode/6a15a2cbff7b9a8c0a5b953f
https://fortune.com/2026/05/26/uber-coo-ai-spending-tokens-claude-code/
https://tech.yahoo.com/ai/copilot/articles/microsoft-ditching-claude-code-copilot-133318848.html