AI Coding 不能靠热闹管理:CIO 需要的智能研发指标体系

银行智能研发十讲 09：从代码采纳率到 AI 合规入库率，真正要看的是可控价值

有批评建议期待评论区留言

AI Coding 不能靠热闹管理，调用量再高，也不等于研发能力真的变强

CIO 最关心的，是 AI 参与的代码有没有走完审查、测试、合并、安全放行和生产验证这些关键环节

指标的本质，要从衡量个人体感升级为衡量工程结果

只看活跃度和调用次数，AI Coding 很容易变成一场昂贵的内部运动

30 秒

读懂这一讲

这一讲谈智能研发的“管理仪表盘”。

很多银行已经把 AI Coding 推进到真实研发现场：账号开了，插件装了，培训做了，调用量起来了，生成代码行数也有了。热闹之后，CIO 会开始追问更实在的问题：研发周期缩短了吗，测试覆盖提升了吗，安全风险前移了吗，版本问题提前暴露了吗，生产故障下降了吗，组织经验沉淀了吗，单位任务成本降下来了吗。

头部银行的智能研发实践已经给出一个清楚方向：AI Coding 不能只放在插件、代码补全和个人效率里看，它正在被放进智能研发平台、模型底座、知识资产、场景工程和组织运营里一起管理。指标体系也要随之升级，从“有没有用 AI”，走向“AI 产出了多少可控价值”。

中国金融行业还有一个非常现实的变量：大量研发组织并非纯自有团队，而是由自有人员、不同级别开发外包、测试外包、驻场支持团队共同构成。AI Coding 进入以后，指标体系还要回答一个更具体的问题：AI 到底是在提升“自有 + 外包 + 测试 + Agent”的组合效率，还是把更多 review、返工、安全和责任压力推回给自有团队。

这套仪表盘至少要覆盖三层：第一层是 CIO 看价值，第二层是开发中心看流程，第三层是一线团队看行动。所有指标最终都要回答一个问题：AI Coding 到底在制造热闹，还是在改善研发体系。

01 先看全景：

智能研发指标金字塔

银行做 AI Coding，最容易陷入“指标很多、看不清重点”的问题。调用量、采纳率、生成行数、活跃人数、测试覆盖率、安全阻断数、版本风险数、知识命中率、Token 成本，每个数字都有道理，放在一起却容易变成一张厚报表。

CIO 真正需要的是一张金字塔式仪表盘。

最上层是战略价值指标，回答管理层最关心的问题：研发周期有没有缩短，生产问题有没有下降，故障恢复时间有没有改善，AI 合规入库率有没有提升，单位任务成本有没有下降。这个层面不需要过多细节，但必须能反映投入产出。

中间层是工程过程指标，回答开发中心最关心的问题：AI 参与的代码有没有进入主干和版本，单测覆盖率有没有提升，代码复核检出率有没有改善，安全门禁有没有提前拦截风险，版本问题有没有在投产窗口前暴露出来。这个层面决定 AI Coding 能否进入真实研发流程。

底层是一线行动指标，回答团队每天要改什么：哪些场景采纳率高，哪些任务人工修正多，哪些上下文经常缺失，哪些工具调用失败，哪些知识命中不准，哪些安全扫描反复不过，哪些外包交付经常返工，哪些测试用例看起来很多却发现不了关键缺陷。这个层面决定工具、知识、流程和人员能力如何持续改进。

这三层连起来，AI Coding 才能从“工具使用统计”进入“研发生产管理”。

02 警惕表面繁荣

从流量思维转向价值思维

很多机构在 AI Coding 推广初期，最关注调用量和生成代码行数。这些指标容易统计，汇报也好看。多少人开通了账号，多少人每天使用，生成了多少代码，覆盖了多少项目组，这些数字很容易让组织产生一种“已经跑起来了”的感觉。

但对银行 CIO 来说，这些只是第一层信号。调用量高，最多说明工具被频繁使用；生成代码多，只能说明 AI 参与了编码过程。代码进入主干和版本之后，还要继续接受测试、安全、交付和生产运行的验证。一个团队可能每天都在问 AI，但问的都是低价值问题；一个工具可能生成了大量代码，最后被开发人员大幅修改甚至废弃；一个智能体可能被频繁调用，却没有进入测试、交付、安全和运维这些关键流程。

银行科技体系最怕热闹的空转。AI Coding 看起来很活跃，内部培训很多，工具调用很多，生成代码很多，但真实研发问题没有减少。需求澄清仍然慢，设计质量仍然不稳，测试压力更大，交付风险仍然后置，安全扫描问题更多，生产故障没有下降，知识沉淀也没有改善。这样的 AI Coding，最多说明工具试用成功，还不能说明智能研发成功。

大型银行做智能研发，指标体系不能停在前端热闹指标上。更有价值的指标往往出现在后半段：设计阶段提前检出了多少问题，单测覆盖率有没有提升，代码复核检出率有没有改善，安全门禁阻断了多少高危风险，交付阶段提前发现了多少版本问题，运维侧是否缩短了故障定位时间。只有把这些指标连起来，管理层才能判断 AI Coding 是否真正改善了研发体系。

03 CIO 真正关心的六张账

智能研发指标可以很多，但 CIO 不会被被指标清单淹没。他们关心的第一张管理仪表盘，是先盯住六张账。

第一张账，是 AI 参与的代码有没有合规入库。AI 写了多少代码并不关键，关键是这些代码有没有经过人工审核、测试验证、安全门禁，并最终进入代码库、主干和版本。

第二张账，是 AI 生成代码的缺陷密度有没有下降。AI 参与的代码越多，越要看每千行代码中的缺陷、安全问题、返工和后续修复次数。AI 产出增加以后，质量没有同步改善，研发体系会承受更大的后续压力。

第三张账，是安全风险有没有提前拦截。安全问题出现在编码现场、提交前、流水线、投产前，管理意义完全不同。越早发现，处理成本越低，对生产的影响越小。

第四张账，是版本问题有没有提前发现。环境差异、依赖冲突、脚本遗漏、接口影响、配置不一致，到了投产窗口才暴露，风险已经很高。AI 参与交付之后，版本问题提前发现数应该成为开发中心非常重要的指标。

第五张账，是生产问题和故障恢复时间有没有改善。AI Coding 最终要接受生产环境检验。生产问题下降、故障定位加快、MTTR 下降，这些指标才接近管理层真正关心的结果。

第六张账，是单位任务成本有没有下降。AI Coding 小范围试点效果好，不代表大规模推广可持续。模型调用、算力、知识检索、人工修正、平台维护，都要进入成本视角。长期看，CIO 要盯住的是单位价值成本，而不是单纯的调用成本。

这六张账连起来，才能判断 AI Coding 是工具试用，还是正在走向研发生产力。

04 从产品视角

还要补五类指标

站在 AI Coding 产品负责人视角看，智能研发不会只看最终结果，还要看产品漏斗和工程可观测性。银行判断一个 AI Coding 工具是否成熟，也不能只看它会不会生成代码，还要看它能不能进入任务、上下文、工具、规则和审计体系。

第一类是任务完成率。AI 接到一个明确任务后，有多少任务能走到可 review 状态。一个任务从需求描述开始，经过计划生成、代码修改、测试执行、扫描检查、PR 提交、人工 review，最终进入合并或退回。每一层掉得太多，都说明产品体验、上下文质量、工具调用、模型能力或流程集成存在问题。

第二类是证据完整率。AI 交付结果时，有没有附带测试结果、终端日志、扫描结果、变更说明和引用依据。银行研发需要可验证、可审计、可追责的结果。AI 只给一段代码，review 成本会很高；AI 同时交付证据，开发人员、测试人员、安全人员和审计人员才有基础判断它是否可用。

第三类是工具调用成功率。Agentic Coding 的价值很大程度来自工具调用。AI 能不能读对文件，能不能改对文件，能不能跑通测试，能不能正确调用扫描工具，能不能稳定触发流水线，能不能把失败日志转成下一步动作，这些都需要指标。工具调用成功率、命令执行失败率、测试执行成功率、MCP 调用成功率、工具权限拦截率、工具调用平均耗时、工具调用后人工修正率，都应该进入产品仪表盘。

第四类是上下文与规则生效率。企业级 AI Coding 产品越来越强调项目上下文、企业知识库、Rules、Skills、MCP、代码图谱和项目知识图谱。银行不能只看有没有知识库，还要看知识和规则有没有真正进入生成过程。项目上下文覆盖率、上下文复用率、规则生效率、Skills 有效率、企业知识库调用有效率，这些指标比“知识库有多少文档”更接近 AI IDE 的真实能力。

第五类是企业后台可观测性。大型银行需要统一管理不同部门、项目、岗位、入口、模型和工具调用。管理员能不能看到受控工具链覆盖率，能不能配置权限、规则、知识库、模型路由和审计策略，能不能把指标导出到行内研发效能平台，决定了 AI Coding 能不能从个人工具进入组织管理。

这些产品指标能帮助银行判断：AI Coding 工具只是装在开发人员电脑上的插件，还是已经成为可管理、可审计、可运营的企业级研发平台。

05 覆盖率与活跃度

只是入场券

覆盖率和活跃度是智能研发的入门指标，必须看，但不能停在这里。

覆盖率回答“AI Coding 有没有进入研发体系”。比如覆盖了多少研发人员，覆盖了多少部门，覆盖了多少应用，覆盖了多少语言栈，覆盖了多少项目组，覆盖了多少研发阶段。对大型银行来说，覆盖率还有一个特殊含义：总部研发、分行科技、外包团队、驻场团队、测试团队、运维团队、架构团队，是否都在同一套受控工具体系内，避免各自使用不同外部工具带来的数据、代码和审计风险。

但对严肃金融机构还要增加一个更适合金融的指标：

受控工具链覆盖率 = 在统一 AI Coding 平台内发生的研发任务数 / 全部 AI 相关研发任务数。

这个指标比“多少人用了 AI”更关键。它回答的不是工具有没有普及，而是研发活动是否发生在统一模型入口、统一 IDE 插件、统一权限体系和统一审计留痕之内。

活跃度回答“大家有没有真的在用”。比如日活、周活、月活，人均调用次数，人均使用时长，连续使用天数，插件启用率，智能体调用次数，AI IDE 使用频率，代码问答次数，测试生成次数，交付分析次数，安全扫描解释次数，运维日志分析次数。

这些指标在推广初期很有用。一个工具没有人用，后面所有价值都谈不上。但 CIO 心里清楚，覆盖率和活跃度只能证明工具进入了现场。至于价值有没有进入流程，还要看后面的工程结果。

把覆盖率和活跃度当成最终目标，AI Coding 很容易变成一场内部运动。大家都在用，报表很好看，工程结果没有改变。管理层真正要看的，是活跃之后发生了什么：采纳有没有提升，入库有没有发生，测试有没有变强，安全有没有前移，交付有没有改善，生产有没有更稳。

06 代码采纳率

衡量 AI 建议的体感

代码采纳率是 AI Coding 最常见、也最容易理解的指标之一。它回答的问题是：AI 生成的代码，有多少被开发人员采纳了。

表面看，这个指标很直接。AI 给出一段代码建议，开发人员接受了，就是采纳；开发人员拒绝了，就是未采纳。代码补全、函数生成、单测生成、修复建议，都可以计算采纳率。但在银行智能研发场景里，粗口径的采纳率很容易误导判断。

采纳率至少要拆成几类。直接采纳，说明模型、上下文、规约与当前任务比较匹配；修改后采纳，说明 AI 生成结果有参考价值，但仍需要开发人员加工；废弃，说明 AI 生成结果没有进入后续工程流程，问题可能出在任务定义、上下文、知识调用、规约约束或模型能力上。

还要区分不同场景。代码补全采纳率、单测生成采纳率、注释生成采纳率、缺陷修复采纳率、重构建议采纳率、安全修复采纳率，含义完全不同。代码补全采纳率高，不代表安全修复建议可靠；单测生成采纳率高，也不代表核心交易逻辑可以放心交给 AI 改。

更关键的是采纳后的质量。AI 生成代码被采纳，并不代表它没有问题。有些代码被开发人员接受，是因为看起来合理；后续测试发现漏洞，安全扫描发现问题，评审发现逻辑缺陷。这时，单纯采纳率高反而可能说明团队对 AI 过度信任。

更合理的口径应该是：

有效采纳率 = 被采纳并通过测试、扫描、评审的 AI 代码 / AI 生成代码总量。

这个指标比简单采纳率更有价值，它把“开发人员觉得可用”推进到了“工程上真的可用”。

还可以补一个产品侧指标：委派深度。开发人员只是让 AI 解释代码，还是愿意让它生成计划、修改多文件、运行测试、提交 PR。委派深度越高，产品信任越强；委派深度长期停留在问答和补全，说明 AI Coding 还没有真正进入工程任务。

07 AI 合规入库率

从个人体感进入工程结果

代码采纳率衡量的是开发人员是否接受 AI，AI 合规入库率衡量的是 AI 参与的代码是否真正进入代码库，并完成必要的工程校验。

这个指标更接近工程结果。银行研发不会在编辑器里结束，而是在代码合并、分支管理、测试验证、安全扫描和版本交付中完成。AI 代码被采纳到本地，不代表它能合并；合并到分支，不代表它能进入主干；进入主干，不代表它能进入版本；进入版本，也不代表它能稳定运行。

AI 入库率至少要分层看。AI 参与生成并提交的代码，占总提交代码的比例；AI 参与生成并进入主干的代码，占总入库代码的比例；AI 参与生成并进入版本的代码，占总版本代码的比例；AI 参与生成并通过安全扫描、测试验证、人工 review 的代码，占 AI 入库代码的比例。

更适合金融机构的口径是：

AI 合规入库率 = AI 参与生成、经过人工审核、通过测试和安全门禁、成功合并入库的代码量 / 总入库代码量。

这个指标开始接近智能研发的真实价值。它说明 AI 写出的内容已经穿过研发流程，参与了可控工程结果的产生。

AI 合规入库率最好不要只看一个总数，还要拆成漏斗。建议数、采纳数、代码变更数、PR 数、测试通过数、安全通过数、review 通过数、合并数、版本发布数、上线后问题数，每一层都能暴露不同问题。生成很多、PR 很少，可能说明生成质量或开发者信任不足；PR 很多、测试失败很多，可能说明质量不稳；测试通过、安全失败多，可能说明规约和安全上下文不足；合并很多、生产问题多，可能说明后链路验证不充分。

AI 合规入库率也不能单独代表成功。代码入库只是进入研发流水线，还不能直接等同于生产价值。后面还要看测试质量、安全质量、交付质量和生产质量。CIO 要警惕一种情况：AI 入库率上升了，缺陷率也上升了，回滚率也上升了，生产事故也上升了。这说明 AI 只是更快地把风险送进了代码库。

从代码采纳率走到 AI 合规入库率，指标开始从个人体感进入工程结果。这个变化很关键。采纳率代表开发人员觉得好用，合规入库率代表研发体系接得住。

08 质量指标

写得对，比写得快更重要

AI Coding 必须追求“写得对、测得住”。银行研发关注的不是代码产生速度，而是代码进入系统后的质量稳定性。

质量指标可以分为几类。

第一类是测试覆盖指标，比如单测覆盖率、接口测试覆盖率、回归测试覆盖率、核心路径覆盖率、边界条件覆盖率、AI 生成测试案例采纳率、AI 生成测试案例有效率。AI Coding 只生成代码，没有同步提升测试覆盖，风险会向后传导。AI 能帮助补齐单测、识别边界、生成回归案例，质量出口才会变强。

第二类是缺陷发现指标，比如代码评审检出率、测试缺陷检出率、设计阶段问题检出率、AI 参与复核检出率、AI 辅助测试发现缺陷数、AI 生成代码缺陷密度。这里特别要注意 AI 生成代码缺陷密度，也就是每千行 AI 参与代码中出现多少缺陷。这个指标能判断 AI 是在降低缺陷，还是制造新的隐性问题。

第三类是返工指标，比如 AI 代码人工修改比例、AI 生成结果被废弃比例、AI 生成代码后续修复次数、需求返工率、设计返工率、测试返工率。很多时候，AI 看似提高了编码速度，但后续返工增加，整体效率未必提高。

第四类是可维护性指标，比如圈复杂度变化、重复代码变化、规范违规数、技术债新增量、代码可读性评分、重构建议采纳后缺陷变化。AI Coding 最容易被低估的风险，是生成大量“能跑但不好维护”的代码。银行系统生命周期长，短期快不等于长期好。

还有一类非常值得管理层重视：设计阶段指标。大型银行的研发质量问题，很多并不是代码阶段才出现，而是在需求理解、概要设计、接口设计、数据设计、权限设计阶段就埋下了隐患。设计阶段问题检出数、设计复核检出率、需求缺陷前移率、接口影响分析命中率，可以帮助 CIO 判断 AI 是否把风险提前暴露出来。

对复杂任务，还可以增加计划质量指标。AI 不宜直接进入代码修改，应先生成可 review 的实施计划。计划是否能准确识别影响文件、接口依赖、测试范围、安全风险和回退方案，本身就应该成为指标。计划通过率越高，说明 AI 对代码库和工程上下文理解越稳；计划反复被退回，则说明上下文、知识库或任务拆解能力还不够。

质量指标要回答的问题很朴素：AI 参与以后，研发质量有没有更稳定，代码量之外的缺陷、返工、技术债有没有下降。

09 安全指标

AI 必须进入门禁和审计体系

安全指标不是安全部门自己的事情，它决定 AI Coding 能不能进入生产级研发体系。

安全指标至少有五类。

第一类是安全问题前移指标。比如编码阶段安全问题发现率、提交前风险拦截率、AI 生成代码安全问题占比、开发阶段修复率。这类指标回答的是：安全问题有没有在更早阶段被发现。

第二类是安全门禁指标。比如高危漏洞阻断数、敏感信息泄露拦截数、开源风险阻断数、禁止依赖引入次数、投产前未关闭安全问题数量。这类指标回答的是：关键安全闸门有没有守住。

第三类是 AI 特有安全指标。比如 AI 生成代码安全问题密度、AI 修复建议复核通过率、Agent 越权动作拦截率、模型上下文脱敏合规率、AI 生成依赖开源合规通过率。这类指标回答的是：AI 本身有没有被安全体系管住。

第四类是安全修复回路指标。比如漏洞平均修复时长、修复建议采纳率、自动修复成功率、复核通过率、同类问题复发率。这类指标回答的是：安全问题有没有更快处理完，并且减少重复发生。

第五类是生产安全指标。比如生产安全事件数量、高风险变更拦截率、漏洞引发生产问题数量、安全事件复盘规则回流率。这类指标回答的是：安全治理有没有真正影响生产稳定性。

对 CIO 来说，AI Coding 的安全指标不能只看“扫出了多少漏洞”。更关键的是：哪些风险被提前拦住了，哪些安全经验回流成了规则，哪些 AI 行为被有效管住了。

10 交付指标

投产窗口前暴露问题

才是真改善

智能研发最终要影响交付。AI Coding 再热闹，如果只是开发环节的局部改进，对管理层的意义仍然有限。

交付指标首先要看周期，比如需求到开发完成的周期、开发完成到测试通过的周期、测试通过到交付完成的周期、版本准备时间、投产材料准备时间、流水线失败修复时间、从缺陷发现到修复合并的周期。这些指标能回答 AI 是否缩短了研发节拍。

金融机构还要看风险是否前移。比如持续集成问题定位准确率、版本风险提前识别数、环境差异提前识别率、投产材料一致性校验通过率、投产前风险清单命中率、回退方案完整率、上线后验证清单执行率。这些指标能回答 AI 是否帮助交付团队更早发现问题。

这里有一个很关键的管理指标：版本问题提前发现数。对开发中心负责人来说，交付指标里最有价值的，不是投产材料自动生成了多少，而是版本问题有没有更早被发现，环境差异、依赖冲突、脚本遗漏、接口影响有没有在投产窗口前暴露出来。

还要看交付结果，比如上线成功率、投产问题数量、版本回滚率、上线后缺陷数、紧急修复次数、灰度验证通过率。AI Coding 如果缩短了开发时间，却提高了上线后问题数量，管理层不能把它当成成功。

一个比较适合 CIO 的综合指标是：

AI 参与版本健康度 = AI 代码比例 + 测试通过率 + 安全通过率 + 投产成功率 + 上线后问题下降率。

这个指标不是简单公式，而是一种管理思路：AI 参与越深，越要看版本整体是否健康。单看 AI 比例，很容易把风险误当成进步。

11 运维指标

生产稳定性会检验前面所有指标

AI Coding 最终要接受生产环境的检验。生产不稳，前面所有效率指标都会打折扣。

运维指标要看几个层面。

第一，故障发现和定位指标，比如告警降噪率、故障定位准确率、根因分析耗时、历史案例命中率、运维智能体建议采纳率。它们回答的是：AI 是否帮助运维人员更快找到问题。

第二，恢复效率指标，比如 MTTR 下降率、故障恢复时间、应急处置建议采纳率、回滚决策耗时、故障影响面收敛时间。它们回答的是：AI 是否帮助生产系统更快恢复。

第三，变更关联指标，比如故障与近期变更自动关联准确率、上线版本引发故障比例、AI 参与代码引发故障比例、变更风险提前识别率。它们回答的是：AI 参与研发后，生产变更风险有没有得到控制。

第四，复盘回流指标，比如故障复盘自动生成率、复盘知识采纳率、故障知识回流率、同类故障复发率。它们回答的是：生产问题有没有成为下一次研发的知识资产。

银行 CIO 最终要看的，不是“AI 运维回答了多少问题”，而是故障是不是更少了，定位是不是更快了，恢复是不是更稳了，同类问题是不是更少复发了。

12 知识指标

AI 写代码时

是否带着本行经验

智能研发的护城河是知识工程。到了指标体系里，就必须回答一个问题：知识工程有没有真的让 AI 更懂本行研发现场。

知识指标可以分几类。

第一类是知识覆盖指标，比如 RepoWiki 覆盖率、核心应用知识覆盖率、接口文档覆盖率、公共组件知识覆盖率、规约库覆盖率、历史故障案例覆盖率、测试案例知识覆盖率、投产知识覆盖率。这些指标回答的是：知识资产有没有被盘出来。

第二类是知识质量指标，比如知识更新及时率、知识重复率、知识过期率、人工审核通过率、知识可信度评分、知识引用准确率。这些指标回答的是：知识是否可靠。

第三类是知识调用指标，比如知识命中率、有效引用率、AI 回答中知识引用占比、代码生成时规约引用率、测试生成时历史缺陷引用率、运维分析时历史故障命中率。这些指标回答的是：知识有没有被 AI 真正用起来。

第四类是知识回流指标，比如代码评审意见回流率、测试缺陷回流率、投产问题回流率、生产故障回流率、安全事件回流率、规则更新回路完成率。这些指标回答的是：研发过程有没有反哺组织记忆。

知识指标还要补一层产品化口径。对 AI IDE 和编程智能体来说，知识指标不能只看知识库文档数量，还要看项目上下文有没有被结构化。核心项目是否建立了代码结构、依赖关系、接口关系和关键模块视图；AI 执行任务时是否能复用这些上下文；重复扫描、重复检索、重复喂上下文的比例有没有下降。项目上下文覆盖率、上下文复用率、Token 节省率，应该成为知识和成本指标的一部分。

企业知识库和规则库也不能只看建设规模。AI 生成代码时是否引用了企业规约，生成测试时是否引用了历史缺陷，生成修复方案时是否引用了安全规则，调用自定义指令和 Skills 后是否减少了人工修正，这些指标比“知识库有多少文档”更能说明 AI 是否真正理解本行研发现场。

智能研发的知识资产也不只是 Wiki 和向量库，还包括高质量金融代码语料、应用文档、接口规范、测试案例、历史缺陷、版本风险点、代码评审意见、指导手册和种子用户实践。CIO 要看的不是知识库有多大，而是这些资产有没有被 AI 在真实任务中正确调用，并在评审、测试、交付和运维中形成反馈。

CIO 重点要看一个指标：

有效知识命中率 = AI 在真实研发任务中引用正确知识并被人工确认有效的次数 / AI 触发知识检索的总次数。

这个指标比“知识库有多少文档”更重要。未来智能研发的核心，不是谁存了更多知识，而是谁能在正确任务、正确时刻，给 AI 注入正确知识。

13 组织指标：人有没有升级

AI Coding 不只改变工具，也会改变人。指标体系如果只看代码和流程，不看人的变化，就会漏掉智能研发最关键的组织问题。

组织指标首先要看使用分层。哪些人是高频有效使用者，哪些人只是偶尔使用，哪些人不用，哪些人用得多但产出低，哪些人用得少但价值高。不能简单把高频使用当成优秀，不同岗位任务不同，关键要看使用质量。

其次，要看岗位能力变化。开发人员是否从纯编码转向任务拆解、代码审查、系统集成和风险判断；测试人员是否从执行案例转向测试设计和质量出口；交付人员是否从材料整理转向版本风险管理；运维人员是否从日志排查转向故障推理和知识沉淀；安全人员是否从事后扫描转向规则建设和门禁运营。

第三，要看专家经验是否被放大。AI Coding 的一个重要价值，是让高手的经验通过规约、模板、Skills、知识库和审查机制扩散到更多团队。如果专家经验仍然停留在少数人脑子里，AI 只是个人工具；如果专家经验开始变成组织资产，AI 才真正进入组织能力建设。

第四，要看培训和认证效果。参加过 AI Coding 培训的人，和没有参加过的人，在采纳率、入库率、缺陷率、安全问题密度、交付质量上是否有差异。培训不能只看人数和课时，要看行为改变和结果改变。

还要看人工接管率。AI 执行任务时，哪些环节必须由开发人员接手，哪些环节需要架构师确认，哪些环节触发安全或交付人员介入。人工接管率过高，说明 Agent 还没有真正融入工程流程；人工接管率过低，也要结合安全拦截率和缺陷密度一起看，避免把必要的人工责任弱化掉。

组织运营指标也要进入仪表盘。种子用户数量、实战培训后有效采纳率提升、周活跃有效用户占比、岗位智能体覆盖率、优秀实践复用次数，这些指标能说明智能研发有没有从少数人尝鲜，走向组织级运营。

组织指标要回答的问题很清楚：AI 有没有让人从执行者升级为责任承接者。AI 写得越多，人如果只是忙着补救、返工、救火，那就说明复杂度被推给了后链路；AI 如果让人有更多时间做设计、审查、判断和沉淀，组织能力才开始升级。

14 组织结构指标

自有人员、分级外包

与 AI 的组合效率

中国金融机构的研发组织，长期以来不是单纯的自有研发体系，而是由自有开发人员、不同级别外包开发人员、测试外包人员、驻场支持人员共同构成。很多银行内部，自有人员与外包人员接近 1:1，在部分项目上外包比例更高。外包人员还会分为初级、中级、高级，测试外包也有功能测试、自动化测试、性能测试、回归测试、现场测试支持等不同类型。AI Coding 进入以后，真正要重新计量的，不是某一个开发人员的效率，而是“自有人员、分级外包、测试外包、AI 工具链”组成的新型研发单元。

过去银行管理外包，主要看人头、工时、交付数量、缺陷率和项目验收。AI 介入以后，这些指标不够用了。初级外包借助 AI 可能写出更多代码，但这些代码是否符合规约、是否能通过测试和安全门禁、是否增加自有人员 review 压力，需要单独计量。中级外包借助 AI 可能承担更多模块开发，但要看一次通过率和返工率。高级外包借助 AI 可能承担方案设计、复杂改造和技术支撑，也要看其经验是否沉淀为银行自己的知识资产。测试外包借助 AI 可以生成更多测试用例和脚本，但关键指标不是用例数量，而是缺陷检出率、有效用例率和生产缺陷漏出率。

这里至少要设置四类指标。

第一类是外包分级效率指标。初级、中级、高级外包不能放在一个池子里看。初级外包应重点看 AI 辅助后的任务完成率、返工率、规约违规率、人工 review 耗时；中级外包应重点看模块交付一次通过率、AI 合规入库率、缺陷密度、单测补齐率；高级外包应重点看复杂任务承接能力、方案质量、关键问题解决率、知识沉淀贡献。这样才能判断 AI 到底是在提升外包交付能力，还是在放大不同层级人员之间的质量差异。

第二类是测试外包质量指标。测试外包人员使用 AI 后，不能只看生成了多少测试用例，而要看有效测试用例率、缺陷检出密度、核心路径覆盖率、边界场景覆盖率、自动化脚本通过率、回归测试复用率、生产缺陷漏出率。大量测试工作过去靠人海战术，AI 进入以后，测试外包的价值应从“执行更多案例”转向“更早发现高价值缺陷”。

第三类是自有人员审查负担指标。AI 和外包如果只提高了产出速度，却让自有人员花更多时间做 review、返工、解释问题和兜底责任，对银行并不是真正提效。可以增加一个指标：

自有人员审查负担率 = 自有人员用于复核 AI / 外包产出的时间 / 自有人员总研发管理时间。

这个指标很有现场感。外包人员和 AI 产出越多，自有人员的审查压力可能越大。成熟的智能研发体系，应该让自有人员把更多时间放在架构、设计、风险判断、关键问题处理和知识沉淀上，而不是被大量低质量代码和测试结果拖住。

第四类是分级人力成本与交付质量指标。不同级别外包价格不同，AI 介入后，要看单位需求综合成本，而不是单纯看某类人力便宜。可以设置：

单位需求综合成本 = 自有人员投入成本 + 外包人员投入成本 + AI 资源成本 + review 成本 + 返工成本 + 缺陷修复成本。

这个指标比“人天单价”更真实。低级别外包单价低，但返工、缺陷、安全问题和审查成本高，综合成本未必低；高级外包单价高，但复杂任务一次通过率高、返工少、知识沉淀好，综合成本可能更优。AI 的价值，也要放在这张总账里看。

AI Coding 进入银行以后，外包管理要从“按人头买产能”，转向“按角色、级别、质量、成本和知识沉淀管理交付结果”。自有人员、初级外包、中级外包、高级外包、测试外包和 AI 工具链，需要放在同一张管理仪表盘里看。这样 CIO 才能判断，AI 到底是在降低综合交付成本，还是把更多隐性成本推到了自有团队、测试团队和生产环境。

15 成本指标

单位价值成本有没有下降

CIO 非常重视看成本。智能研发不能只谈价值，也要看投入产出。AI Coding 如果小范围试点很好，一扩大就算力成本暴涨、响应延迟变长、上下文费用过高、运维压力变大，就很难规模化。

成本指标至少包括模型调用成本、Token 消耗、算力使用率、平均响应时间、任务平均完成成本、不同模型路由成本、缓存命中率、知识检索成本、Agent 执行成本、失败任务重试成本。

其中有几个指标特别重要。单任务成本，要看生成一个单测、修复一个漏洞、完成一次交付分析、定位一次故障平均花多少钱。模型路由效率，要看简单任务是否错用了昂贵模型，复杂任务是否用了能力不足的模型。Token 有效率，要看知识切片是否精准，是否把大量无效上下文塞进模型。

成本指标还要看部署形态。API 调用启动快，但要持续关注调用成本、数据出域、审计留痕、供应商依赖和响应稳定性；私有化部署前期投入更高，但在数据安全、权限控制、审计追溯和高频调用场景中，更容易形成长期可控的成本结构。大型银行通常不会只用一种形态，而会根据任务敏感度、调用频率、上下文长度和响应时延，形成混合模型路由。低风险、低敏感任务可以走轻量模型，高敏感、高频、高审计要求的任务，应进入更受控的内部环境。

还要看多模型路由准确率。代码补全、注释生成、单测生成、代码解释、缺陷修复、安全修复、复杂重构、生产故障分析，对模型能力、上下文长度、响应时延和数据安全要求不同。CIO 要看的不是“用了哪个模型”，而是任务是否被路由到合适的模型和环境。

模型路由准确率 = 按任务风险、复杂度、成本、时延要求匹配到合适模型的任务数 / 总任务数。

成本指标不能只看模型调用成本，还要看需求交付成本。一个需求从开发到测试、从测试到投产、从投产到稳定运行，AI 介入以后人力成本、等待成本、返工成本和故障恢复成本有没有下降，才是 CIO 更关心的投入产出。

CIO 要看一个核心问题：AI Coding 的单位价值成本是否持续下降。随着使用规模扩大，单任务成本下降、响应更稳定、有效产出增加，说明体系在成熟；越用越贵、越用越慢、越用越乱，说明智能研发的工程底座还没有搭好。

16 防止指标变成新的形式主义

银行体系做指标，很容易做得非常完整，但完整不等于有效。智能研发指标体系也有这个风险：指标越来越多，报表越来越厚，会议越来越频繁，一线却没有真正改善。

要避免形式主义，必须坚持三个原则。

第一，指标必须能驱动行动。一个指标出来以后，要能回答“接下来该改什么”。某个指标连续几个月没有变化，团队也没有根据它调整工具、流程、培训、模型、知识库或门禁规则，这个指标就应该从核心仪表盘上降级，甚至移除。

第二，指标必须能追溯来源。AI 入库率怎么算，AI 代码如何标记，哪些代码算 AI 参与，哪些算人工重写，安全问题如何归因，知识命中如何确认，这些口径必须统一。否则不同团队各算各的，最后指标失真。

第三，指标必须能防止行为扭曲。只考核生成代码量，团队可能会鼓励多生成；只考核采纳率，开发人员可能会降低审查标准；只考核活跃度，大家可能为了完成指标频繁调用低价值任务。智能研发指标必须设计得足够平衡，让团队追求真实价值，而不是追求好看数据。

还有两点很关键。

第一，数据最好从工具链自动产生。所有 AI 参与的代码、测试、文档、修复建议和交付分析，都应该在工具链中留下 Metadata。哪些代码由 AI 生成，哪些代码由 AI 修改，哪些建议被人工采纳，哪些建议被否决，哪些内容通过了测试和门禁，都要能从 IDE、Git、PR、流水线和审计记录中自动追溯。指标最好是系统跑出来的，不要靠团队手工填出来。

第二，指标口径要跨入口统一。开发人员可能在 IDE 插件里补代码，在 CLI 里委派任务，在代码评审里调用智能评审，在企业知识库里问答，在流水线里触发自动修复。如果这些入口各算各的，管理层会看到一堆割裂数字。智能研发指标要能跨 IDE、CLI、PR、流水线、知识库和 Agent 平台统一归集，避免重复计算和遗漏计算。

好指标的价值，在于帮助组织看清问题、调整行为、持续改进，而不是让团队围着数字转。

17 失败原因分布

比失败率更有价值

产品迭代和研发管理最需要失败分类。AI 任务失败以后，管理层不能只看到“失败了”，还要知道失败在哪里。

常见失败原因包括：上下文不足，知识命中错误，工具调用失败，权限被拦截，测试未通过，安全扫描未通过，人工 review 否决，性能或兼容性问题，业务逻辑理解错误，生产运行风险过高。

失败原因分清楚以后，产品和研发管理才能对症调整。上下文不足，就要补项目知识图谱和 RepoWiki；知识命中错误，就要重新做知识切片和审核；工具调用失败，就要优化 MCP 工具、权限和执行环境；测试失败多，就要加强计划生成和测试策略；安全扫描失败多，就要把安全规约前置到生成阶段；人工 review 否决多，就要看任务拆解、代码风格、规约匹配和开发者信任。

失败分类比失败率更有价值。失败率告诉管理者出了多少问题，失败原因分布告诉管理者下一步该改哪里。

18 总结

从工具接入走向生产级能力

AI Coding 进入银行研发以后，最容易出现两种极端。一种是过度乐观，看到生成代码多、使用人数多，就认为智能研发成功了；另一种是过度谨慎，看到 AI 有错误、有风险，就不敢让它进入更深流程。成熟的做法，是用指标体系把它管起来。

指标体系不是为了做报表，而是为了让 CIO 看清三件事：AI 到底有没有提高研发效率，AI 到底有没有改善工程质量，AI 到底有没有降低生产风险。

从代码采纳率到 AI 合规入库率，从单测覆盖率到安全问题密度，从知识命中率到生产事故下降率，从工具调用成功率到单位价值成本，再到自有人员、分级外包、测试外包与 AI 的组合效率，这些指标共同构成智能研发的管理仪表盘。没有这套仪表盘，AI Coding 很容易靠热情推进、靠感觉判断、靠个别案例证明；有了这套仪表盘，银行才有可能把 AI Coding 从试点工具，推进到生产级研发能力。

AI Coding 的第九讲，希望从“会不会写代码”，转向“能不能被稳定管理”。建立一套可衡量、可追溯、可改进的指标体系之后，AI Coding 才能从个人助手升级为生产级研发能力。