过去数十年,科技行业历经多轮重塑软件开发模式的变革浪潮:
互联网革新了软件的分发方式,云计算改变了代码的运行载体,DevOps重构了团队交付流程
每一轮变革都意义深远,却始终未曾改变开发者坐下来开展工作时的核心作业内容
生成式AI的出现,带来了维度全然不同的颠覆性变革
这是行业首次在认知层面发生变革,开发者编写、部署软件的每一步实操流程,都迎来了根本性改变
以下内容参考美国知名科技公司-Harness的分析
为摸清各类企业当下的应对现状,我们面向美国、英国、法国、德国、印度多国大型企业,开展专项调研,受访对象共计700名一线工程从业者及其管理人员
如今行业现状已然改变:
开发者不再是代码的主要撰写者,转而成为AI生成代码的校验审核者
除基础校验工作外,开发者的职责边界大幅拓宽,这是以往开发工具时代从未出现的变化:
需要对代码质量与安全开展更深度的审查、对下游业务结果承担更多责任,同时还要更复杂地权衡判断--何时采信AI输出、何时人工推翻重写
开发者的工作内涵持续扩张,但用来衡量其工作产出的效能评估体系,却未能同步跟上变化
工程团队长期沿用一套成熟完备的效能评估体系,涵盖业务成果、DORA指标、交付周期、开发者体验调研与迭代速率等维度
这套体系至今仍是行业基础标准,能够完整量化研发产出、流程流转效率与团队健康度,在现代工程管理中具备不可替代的价值
但这套体系在设计之初,并未适配AI催生的全新工作内容,无法衡量这类新增工作:
代码校验耗时、AI智能体输出准确率、开发者认知负荷,以及开发者全天持续开展的AI可信度判断工作
我们的优化方向并非舍弃现有成熟体系,而是在其基础上进行拓展,实现对AI新增工作价值的完整度量
企业逐渐意识到,衡量AI时代的工程工作,不能只看代码产出总量,更要厘清研发人员的工作投入结构发生了怎样的转变
但现实困境是:
绝大多数企业仍在沿用传统稳定研发阶段的效能评估框架,去适配已然彻底变革的研发环境

这就是核心矛盾所在
AI生成代码后,代码产出指标提升、交付周期缩短
开发者普遍反馈自身效率更高,从某些层面来看确实如此:
编码量显著增加、能够攻克更复杂的业务问题、处理常规工作的速度大幅加快
但效率提升并非凭空产生,额外的工作量必然转移到其他环节
调研数据清晰揭示了开发者时间流向的核心变化:
代码评审耗时同步大幅上涨
代码评审属于重复性繁杂工作,并非企业想要提速的核心业务环节,而是依附于开发工作的额外管理成本
81%的工程管理者反馈,落地AI工具后代码评审耗时增加,这并非效率提升故事里无足轻重的补充说明,而是直接抵消了AI带来的效率增益
如今企业仅在统计代码总产出,却没有追踪AI节省下来的时间究竟消耗在了哪些新增工作上
若代码校验审核工作未纳入效能衡量体系,这类工作只会被当作事后补救环节,而非流程设计的核心考量
由此产生系统性流程摩擦,且每一轮版本部署都会加剧该损耗

开发者正承担前所未有的验证工作负担
当我们询问他们AI在哪一环节造成的阻碍最大时,现有工具存在的缺陷便暴露无遗

颇具讽刺的是,产生隐性工时损耗最主要的环节--核验AI生成代码,仅有38%的企业会对该项工作量进行统计追踪
研发管理者无法看清AI工具带来的真实业务影响,因此即便清楚现有衡量指标存在缺陷,也只能选择采信手头仅有的数据
当我们调研询问团队目前缺失什么关键信息时,得到的反馈高度统一


尽管该现象值得警惕,但厘清背后成因至关重要
目前行业尚未形成衡量AI研发效能的统一标准,团队之所以采信现有指标,仅仅是因为对其更为熟悉
对一套不完备的衡量体系抱有高度信心,并不代表数据精准,反而意味着衡量标准与真实研发情况存在严重偏差
管理者与一线从业者在同一企业使用相同AI工具,却得出截然不同的判断
在所有调研衡量维度上,管理层对现状的评价都远优于实际落地执行的开发人员
当我们询问受访者是否担忧AI效能数据会被用于绩效考核时,双方认知分歧尤为突出


衡量体系往往由对其最无顾虑的管理层人员设计
若评估框架仅体现领导层视角,就会系统性低估一线实际运营状况,以及开发人员真实承受的工作压力
事实上,衡量体系既是技术系统,更是一套社会体系
在互不信任的环境下采集的数据,无法真实反映员工实际工作行为,只能体现员工为迎合制度、表现合规所做的刻意应付

开发者并不将量化考核视作一种威胁,他们其实希望与管理层协同共建更完善的衡量体系,但这一过程需要配套合理的约束保障机制
若要让开发者接纳量化评估,他们最看重以下几点:

建立信任离不开组织层面的投入:既要出台明确的数据使用规则,也要划定严格的数据使用禁区
随着AI工具在工程预算中的占比持续攀升,企业再也不能沿用AI融入工作流之前的旧有方式衡量研发效能
将全局化、净投入效能指标直接嵌入软件开发生命周期,是2026年及未来的核心要务
但绝大多数企业并非从零起步:现有衡量体系已深度绑定绩效考评、工具采购合约与固定汇报周期,无法一夜之间完成重构
我们的目标并非推翻现有行之有效的机制,而是在原有体系基础上,补充搭建缺失的度量观测维度
以下是落地起步方案
产出同步核算验证工作量:
在统计产出的同时同步测算验证环节工作量,需追踪AI生成内容的审核耗时、额外调试成本、任务切换损耗
若仅统计出20%的效率提升,却忽略未量化的31%额外成本,在以此数据支撑下一轮AI预算投入前,必须审慎核查该指标真实性
掌握真实交付速率:
明确团队真实交付速率,生成更多代码 ≠ 交付更多业务价值
企业必须清晰掌握代码真正完成、合并、上线落地的全流程数据
AI只会增加代码产出量,不会自动提升有效交付成果
将数据完整度置信度视作风险预警信号:
把指标测算的"完备置信度"作为风险信号--
若数据统计体系本身存在缺失,却得出高置信度结论,此时应当启动深度核查,而非安心采信
需要审计现有统计框架覆盖范围,对比AI落地后实际产生的全部成本与收益
适配复杂度增长做前置规划:
成熟落地AI的企业虽能收获更高业务增益,但也会长期承担额外管理成本
随着AI部署规模扩张,需提前规划配套治理流程、增加安全审计频次、搭建更精细化的指标度量体系
从源头构建度量体系公信力:
研发人员本身不排斥效能统计,他们抵触的是不合理的统计规则
应先搭建清晰合规的政策约束框架,再落地数据采集埋点与度量工具
夜雨聆风