现状:AI能写代码,但管不好一个系统-夜雨聆风

现状:AI能写代码,但管不好一个系统

最近硅谷传出一种说法：某些科技公司一边裁员3万人，一边花高价从市场上找35岁以上的技术老兵。这不是复古潮，而是现实需求。AWS、Meta、Google近期的招聘动向，正在透露一个关于AI时代人才标准的重大信号。

理解这个信号，先要从一个问题出发：AI已经能写代码了，为什么还需要人来写？

先看一组数据。

Every团队对GPT-5.5进行了为期3周的深度测试，在高级工程师基准上，GPT-5.5得了62.5分。对比参考：人类高级工程师通常在80到90分区间，Opus 4.7得了30分。这个结果让很多人大吃一惊——GPT-5.5已经在高级工程师基准上大幅领先其他模型，但距离真正的人类高级工程师还有约30分的差距。

这30分差在哪里？

测试报告里有一个细节很值得注意：GPT-5.5展现出了一种”重构胆量”，它愿意删除一堆旧文件、从头开始重建。这是初级工程师很难有的特质，也是高级工程师的核心能力之一。但与此同时，在需要从模糊需求中找路、需要审美判断、需要维护复杂系统边界一致性的任务上，AI依然表现不稳。

换句话说：AI能完成局部任务，但管不好一个系统。

Every团队提出了一个关键工程协作模式：让Opus 4.7写计划，GPT-5.5执行。Opus 4.7的计划像一份工程合同，包含精确的文件数量、删除范围和改造边界；GPT-5.5拿到这份具体计划后，能持续数小时推进任务。单纯让GPT-5.5上场，它要么陷入局部修补的循环，要么一次性推翻太多东西。

这个现象揭示了一个根本矛盾：AI能执行，但缺乏系统级视角。

02 变化：硅谷正在重新定义”工程师”这个岗位

硅谷大厂近期的一个趋势值得注意：一边是大规模裁员，一边是重新招聘新岗位。这不是简单的换血，而是AI-first转型带来的岗位重构。

传统的软件工程岗位正在被分化：一部分被AI替代，执行层面的代码工作急剧减少；另一部分被放大，需要有人来定义任务、制定计划、评估结果、管理AI的工作质量。后者，是当前最难招聘到的能力。

Boris Cherny在一篇文章中提到了一个判断：Claude Code之后，写代码正在变成”管理Agent”。这话说得有些绝对，但方向是对的。当代码的生产成本趋近于零，判断力和系统设计能力的价值反而在上升。

黄仁勋在最近一次访谈中表达了类似观点：算力需求在暴涨，AI是生产智能的工业革命。这场革命淘汰的不是工程师，而是只会执行命令的工程师。能够提出问题、定义系统边界、让AI按照自己的设计跑起来的人，正在成为稀缺品。

还有一个数字值得关注：2026年，有42%的代码已经由AI生成。然而，96%的开发者表示自己不敢拍板让AI写的代码直接上线。审批权和责任还在人类手里，但执行层已经被AI渗透了大半。

这个矛盾带来一个新的岗位需求：既懂代码、又懂AI、还能做最终判断的人。这不是一个会用Copilot的开发者，这是一个需要对AI生成结果负责、对系统整体质量兜底的技术负责人。

03 矛盾：代码在爆发，质量却靠人把关

GPT-5.5得了62.5分，距离人类高级工程师的80到90分还有差距。这个差距的实质，不是知识储备，不是编码速度，而是系统级判断力。

什么叫系统级判断力？可以拆成几个维度来理解。

第一，知道什么不该让AI做。

AI擅长在给定边界内高效执行，但边界本身需要人来设定。一个复杂的分布式系统里，哪些部分需要强一致性、哪些可以接受最终一致性、哪些模块宁可牺牲性能也要保证可观测性——这些判断来自长期的一线经验积累，不是AI能从公开语料里学到的。10年以上的工程师，在这些关键节点上的直觉，往往比任何Prompt都可靠。

第二，能制定让AI执行的计划。

GPT-5.5在拿到Opus 4.7的精确计划后表现大幅提升，这个现象说明：能写”工程合同”的人，正在变得比能写代码的人更值钱。计划里包含的边界、约束和验收标准，是AI无法自发生成的。计划能力，本质上是对系统的抽象能力——把一个模糊的产品需求，翻译成精确的工程约束。

第三，能判断AI的输出是否正确。

42%的代码由AI生成，但96%的开发者不敢直接上线——说明验证能力比生成能力更稀缺。在传统软件工程里，这个角色通常叫技术负责人或者架构评审委员会。但在AI时代，这个能力下沉到了每个工程师身上，因为AI的产出速度远快于人工审核。一个能快速判断AI生成代码是否正确、是否满足系统要求的人，价值被显著放大了。

第四，知道多个模型如何协作。

Every团队提出的另一个观点：工程团队的AI工作流，正在从”选一个模型”变成”编排一组模型”。这不是Prompt Engineering，而是系统架构思维在AI时代的延伸。一个复杂的系统可能同时调用多个模型——有的负责规划，有的负责执行，有的负责审查，有的负责优化。能够设计这套协作流程的人，是系统架构师在AI时代的新形态。

04 本质：AI放大的是判断力，不是执行力

AI时代有一个反直觉的现象：越是在执行层面效率高的工具，在战略层面需要的判断力就越稀缺。

这和工业革命的历史规律一致。蒸汽机发明之后，体力劳动的效率大幅提升，但随之而来的是对能操作机器、懂机器运转逻辑的工程师需求爆发。AI革命正在重演这一幕——代码生成的效率大幅提升，但能定义系统边界、制定工程计划、评估产出质量的工程师，变得比以前更值钱。

这不是说执行不重要。执行能力是基本功，但执行能力现在正在被AI快速拉平。ChatGPT能写的代码，很多初级工程师也能写。Claude Code能完成的编码任务，很多中级工程师也能完成。但能够定义”应该做什么系统”的判断力，AI目前无法替代。

黄仁勋在访谈中提到了一个数据：算力需求在暴涨1000倍。这个数字背后，是AI基础设施在以前所未有的速度扩张。但扩张的不仅仅是算力，还有AI应用层的复杂度。当系统复杂度超过一定阈值，局部优化的收益会递减，系统级判断的收益会上升。这就是为什么，越是在AI普及的时候，真正稀缺的是那些能站在全局看问题的人。

05 映射：为什么35岁是黄金分割线

35岁，不是偶然的数字。

在中国互联网行业，这个年龄往往是一个分水岭：技术深度到了一定程度，开始带团队，开始从执行者转变为设计者。但也有一批人，在30岁之后就逐渐脱离了一线写代码，转向了纯管理。

AI时代恰好需要的是这两者之间的中间态：保持一线深度，同时具备系统视野。

AWS、Meta、Google当前抢着要的这批人，往往有几个共同特征：技术深度足够（能在系统设计层面做判断）、保持一线实践（不完全脱离代码）、见过足够多的失败经验（知道哪些地方会出问题）、以及能够把判断传递给AI执行（做AI的指挥官而非操作员）。

这类人在35岁左右开始进入黄金期：体力和学习能力还在线，但经验积累已经达到临界点。20岁出头的人有体力但缺乏系统经验，45岁以后的人经验足够但技术敏感度可能开始下降。35岁，刚好是一个人的技术判断力和技术精力达到最优平衡的阶段。

但年龄不是唯一的因素。核心还是能力结构。有些人25岁就具备系统级思维，有些人45岁还停留在执行层面。年龄只是一个外在标记，真正值钱的是那种在复杂系统中做判断的直觉。

06 机会：工程师的能力模型正在重构

说了这么多，并不是说只有35岁以上的工程师才有价值。这个趋势的本质是：工程师的能力模型正在重构，机会属于所有愿意适应这个变化的人。

对于正在路上的工程师，有几个具体的方向值得考虑：

系统设计能力的权重在上升。

以前系统设计是高级工程师才需要操心的事，现在每个写代码的人都应该具备这个意识。在让AI执行之前，先想清楚系统应该长什么样、边界在哪里、如何验收。这个转变的本质是：从”如何实现”转向”实现什么”，从执行者思维转向设计者思维。

学习如何管理AI的工作质量。

这不是简单的Prompt Engineering。Prompt Engineering是关于如何让AI更好地响应指令，而管理AI的工作质量是关于如何建立一套评估AI输出、发现错误、迭代修正的工作流。相当于把自己的技术判断力变成一个可以规模化复用的能力——一个人审核AI产出的速度有限，但如果能建立一套标准和流程，就能把判断力杠杆化。

积累跨模型协作经验。

知道在不同场景下应该用什么模型、多个模型如何组合、模型之间的接口如何设计——这正在成为架构师的新课题。GPT-5.5擅长执行但需要精确计划，Opus 4.7擅长规划但执行效率不如GPT-5.5——这种模型间的互补关系，是未来工程师需要理解的新现实。

保持动手能力。

AI时代最危险的不是AI抢饭碗，而是一个人完全依赖AI、丧失了对代码的直觉。保持动手写代码，保持对细节的敏感度，这是系统判断力的根基。一个不写代码的架构师，在AI时代会快速失去对技术的感知。判断力需要持续的一线实践来喂养。

AI正在重写代码生产的规则，但没有重写系统设计的规则。能写代码的人会越来越多，但能判断应该写什么代码、能让AI按照自己的设计执行、能在多个AI系统之间做集成判断的人，依然稀缺。

35岁技术老兵被抢着要，不是因为他们比年轻人更能加班，而是因为他们手里握着AI无法替代的那部分判断力。

这个窗口期不会太长。当整个行业都意识到这个信号的时候，系统级判断力会成为新一代工程师的标配能力。早点意识到这一点，早点布局，机会就在那里。