AI 编程时代的软件工程 05|别用错误指标管理 AI 开发

token 不是绩效，skill 不是员工替代品，AI 开发也不只属于年轻人

AI 辅助编程火起来以后，很多团队开始寻找新的管理方式。

这是自然反应。

当工具改变生产方式，管理者一定会想知道：

·谁用得好？

·产出有没有提高？

·成本有没有浪费？

·团队能力是不是发生了变化？

但越是这个时候，越容易抓错指标。

有些说法听起来很新，其实只是把旧问题换了个包装。

比如：

·谁消耗 token 多，谁就更会用 AI

·把资深员工经验写成 skill，就能替代他们

·AI 开发更适合年轻人，老工程师优势会消失

这些观点的问题在于，它们把 AI 开发理解成了“生成更多东西”。

但真正重要的是：

生成之后，系统是否更可靠？

一、token 是成本，不是绩效

token 消耗很容易统计。

也正因为容易统计，它很容易被误用。

一个人一天消耗了很多 token，可能说明他充分使用 AI，也可能说明：

·需求没有想清楚

·上下文塞得太乱

·任务拆得太大

·AI 反复盲改

·缺少测试导致来回猜

·同一个问题问了十几轮

这就像云服务器费用。

费用高，不能说明业务做得好。

只能说明资源被消耗了。

token 也一样。

它可以作为成本观察，但不适合作为绩效奖励。

如果把 token 消耗当绩效，团队迟早会学会“烧 token”。

真正值得看的，是 AI 成本换来了什么：

·返工有没有减少

·review 有没有变轻

·测试有没有更完整

·线上问题有没有下降

·新人理解系统有没有更快

·老系统维护有没有更稳

二、skill 是放大器，不是替代品

很多 AI 工具开始支持 skill、rule、agent prompt、workflow prompt。

这是一件好事。

团队确实应该把高频经验沉淀下来。

比如：

·怎样审查一个需求

·怎样检查一个接口

·怎样复盘一次故障

·怎样做发布前检查

·怎样判断一个页面是不是 AI 味太重

但这里有一个危险误解：

把资深员工经验写成 skill，就能替代资深员工。

这不对。

skill 能沉淀流程、清单、习惯和经验片段。

但资深工程师真正稀缺的东西，是判断。

他知道一个需求什么时候不值得做。

知道一个架构债什么时候可以忍，什么时候会炸。

知道一个指标是不是在优化错误目标。

知道一个 demo 是否值得继续工程化。

知道一个看似漂亮的方案为什么不适合当前团队。

这些东西很难被完整写进 skill。

更合理的理解是：

skill 不是替代专家，而是放大专家。

它让专家少重复低阶提醒，把精力留给更难的判断。

三、学习能力与年龄无关

还有一种说法是：年轻人更会用 AI，所以 AI 开发天然偏向年轻人。

这个说法看起来有道理，但其实过于粗糙。

AI 工具确实奖励学习速度。

但学习速度不等于年龄。

它更取决于一个人是否足够 open：

·愿不愿意承认工具真的变了

·愿不愿意放下旧习惯重新试

·愿不愿意观察 AI 的长处和短处

·愿不愿意把自己的经验改写成新的工作方式

·愿不愿意在试错中更新判断

有些年轻人很 open，有些并不。

有些资深工程师很 open，有些也确实会被旧经验困住。

真正的分界线不是年龄，而是心态。

但这里还要补一句：open 不等于照单全收。

看到 AI 给出答案，就直接相信；看到新工具流行，就立刻全盘迁移；看到一个 demo 能跑，就以为系统已经成立，这不叫学习快。

这只是把判断权交了出去。

高质量学习应该是：

·快速尝试

·保持怀疑

·识别边界

·验证结果

·总结模式

·更新自己的工作方法

所以更准确的说法是：

AI 偏向心态开放的人，也偏向有判断力的人。

没有判断的照单全收，不等于高效学习。

真正强的人，是既愿意被新工具改变，也知道哪些地方不能轻易交出去。

四、别把“表面产出”误当成“质量”

除了 token，还有一类指标也很容易误导团队：表面产出。

比如：

·生成了多少行代码

·自动提交了多少 PR

·完成了多少个小任务

·写了多少份文档

·跑了多少次自动化流程

这些数字并不是没有意义。

它们可以说明系统在运转。

但它们不能直接说明系统变好了。

代码行数增加，可能是复杂度增加。

PR 数量增加，可能是切得更细，也可能是返工更多。

文档数量增加，可能是知识沉淀，也可能是制造噪音。

自动化流程跑得更多，可能是效率提升，也可能是问题反复出现。

所以管理 AI 开发时，不能只看“产出了多少东西”。

真正重要的是：

·代码是否更可靠

·返工是否更少

·风险是否更早暴露

·上线是否更稳

·团队经验是否被沉淀

·系统是否更容易维护

AI 时代的研发管理，不应该从“人月”滑向“token 月”，也不应该滑向“代码行数月”或“PR 数月”。

如果只是把旧式绩效换成新式计量，本质上没有进步。

五、好的指标像仪表盘，不像鞭子

更值得观察的，不是“谁用 AI 最多”，而是系统整体是否更健康。

比如：

·AI 生成的代码被打回得多不多

·同一个问题是否反复失败

·AI 是否经常修改无关文件

·自动化变更是否能追溯来源

·沙盒和测试有没有提前拦住问题

·线上回滚有没有减少

这些指标不是为了惩罚某个人。

它们更像水文监测站。

河流大了，需要看水位、流速、堤坝压力。

AI 生成能力强了，也需要看返工、越界、熔断、回滚。

好的指标不是鞭子，而是仪表盘。

结语

不要用 token 消耗衡量 AI 开发。

不要把 skill 当成员工替代品。

不要把 AI 开发简单理解成年轻人的游戏。

更成熟的判断是：

token 是成本，不是绩效。skill 是放大器，不是替代品。年轻是优势，经验也是优势。生成量不是目标，可靠交付才是目标。

AI 时代的管理重点，不是让每个人多用 AI。

而是让团队更会定义问题、约束智能、验证结果、沉淀经验、稳定交付。