《软件造价功能点智能识别测评规范》进入立项阶段—

《软件造价功能点智能识别测评规范》进入立项阶段——填补行业空白,引领AI评审标准化

随着人工智能与大语言模型技术的快速发展，基于AI的软件功能点智能识别应用以及智能软件造价工具不断涌现，已成为推动软件造价评估行业数智化转型的重要力量。然而，行业的快速扩张也带来了突出的规范化问题：各类智能识别工具的精度参差不齐，不同大语言模型的表现差异显著，用户无从科学判断工具优劣；各机构自行建设的测评集在样本代表性、标注一致性、难度梯度等方面标准不一、质量参差，测评结果难以横向比较和复现。

上述问题的根源在于缺乏统一的行业测评集。测评集的科学建设必须以规范先行为前提，只有先统一“测什么、怎么测、如何评”的标准，才能确保测评结果具有权威性、可比性和复用性。

为破解行业困局、填补标准空白，成都东契奇正式发起了《软件造价功能点智能识别测评规范》团体标准的立项申请工作。该标准计划于2026年6月启动参编单位征集，预计2026年12月底前完成编制并发布。

标准定位：打造行业统一的”度量衡”

本标准定位于建立软件造价功能点智能识别测评的统一技术规范，明确测评目标、操作流程、精度指标和评价方法，为智能识别工具提供商、大模型服务商、测评机构及软件项目业主等各方提供科学、客观、可复现的测评依据，推动行业从“无序竞争”走向“规范发展”。

核心内容：九大体系构建完整测评框架

本标准涵盖九大核心内容体系，全面覆盖测评工作各环节：

（一）确立测评总体原则

明确合理性、独立性、客观性、公正性和科学性五大原则，为测评工作奠定价值基石。

（二）规范测评全流程操作

对测评准备、数据集选取、工具部署、智能识别、结果验证、偏差分析到报告编制等各环节进行细化规范。

（三）规定分类测评方法

针对ILF、EIF、EI、EO、EQ等不同类型功能点特点，分别明确数据有效性核查、识别准确率测算、识别效率测试、稳定性测试、兼容性测试等方法。

（四）建立测评集构建规范

明确测评数据集的设计原则、样本选取标准、标注规范、质量要求和版本管理，确保测评集的权威性、代表性和可持续性。

（五）建立大模型对比评测框架

针对基于不同大语言模型的智能识别工具，规定统一的对比评测框架、基准测试流程和公平性保障措施，支持模型选型和性能评估。

（六）建立识别精度与误差分析体系

明确识别准确率、误判率、漏判率、边界误差、置信区间等核心指标的定义和测算方法。

（七）确立测评质量控制体系

规范测评报告编制要求、审核程序及质量评估标准，明确测评数据的留存、复用与安全管理。

（八）建立核心测评指标体系

对识别准确率、识别覆盖率、识别效率、稳定性、兼容性等核心指标统一测算方法和合格标准。

（九）确保结果可比与可复现

建立统一的测评记录和报告格式，确保不同时间、不同机构、不同工具之间的测评结果可以科学对比和复现。

重要意义：三大价值驱动行业升级

（一）填补标准空白，完善行业制度体系

目前国内外标准主要侧重于功能点人工识别方法和软件规模测量通用要求，对AI智能识别工具的测评指标、测评流程、偏差分析等关键环节涉及较少。本标准的制定将填补这一细分领域空白，形成完整覆盖”人工+智能”双轨并行的标准体系。

（二）统一测评基准，促进行业公平竞争

通过建立统一的测评框架和核心指标体系，使各类智能识别工具能够在同一”赛道”上公平竞技，帮助用户科学选型，倒逼技术服务商持续优化产品性能，形成良性竞争格局。

（三）赋能产业应用，提升造价评估质效

规范的测评体系和权威的测评集，将为政府机关、企事业单位的软件造价评估工作提供可靠的技术支撑，降低AI工具应用风险，提升软件开发费用测算的科学性和准确性。

诚邀参与：共建行业权威测评基准

标准是行业共识的结晶，测评集是技术进步的基石。本标准的研制离不开广大行业机构、技术专家和从业者的深度参与和智慧贡献。

诚邀行业机构和专家加入标准研制工作：

软件研发企业、信息化建设单位，提供典型应用场景和实践需求；

智能识别工具厂商、大模型服务商，贡献技术方案和行业经验；

第三方测评机构、科研院所，参与测评方法论证和实验验证；

软件造价评估专家、功能点分析从业人员，提供领域知识和实务指导；

有意愿、有能力的机构，共建行业统一测评数据集。

我们将依据本标准同步启动行业统一测评集建设工作，并开展对主流智能识别工具及大语言模型的对比评测活动。参与标准研制的单位和专家，将优先获得测评集使用权和测评结果共享权，共同把握行业技术演进的先机。

让我们携手共建软件造价功能点智能识别测评的行业标杆，以标准之力驱动技术向善、以规范之基赋能行业发展。