乐于分享
好东西不私藏

AI加速器软件生态公开评测:以标准为尺,丈量真实可用性

AI加速器软件生态公开评测:以标准为尺,丈量真实可用性

编写团队:陈泽宇 陈禹澎 谢先衍 陈果

编写单位:湖南大学

本项工作受国家超级计算长沙中心和湖南省计算产业生态创新中心支持

对接联系人:柏林

电话:18670392874  

微信:bolincloud

获取联系方式

关注公众号

此次,我们面向行业公开发布的,绝非一份简单的结论报告,亦非仅聚焦“能否运行”的兼容性清单,而是一套具备复用价值、可精准比对、支持规范提交的公开评测标准体系,涵盖:《AI加速器软件生态公开评测规范》《AI加速器软件生态公开评测打分表》《AI加速器软件生态评测过程数据提交规范/模板》。三者协同发力,精准回应三大核心问题:评测维度有哪些、评分规则如何定、过程证据怎样交。

为何聚焦“软件生态”开展专项公开评测?

过去一年,AI加速器在训练、推理、私有化部署及行业应用选型中,渗透率持续攀升。然而,一张加速卡能否真正融入业务系统,核心关键并非宣传页上的峰值性能指标,而是软件生态的支撑能力。

诸多团队在实际落地中,卡点并非“能否搭建Demo”,而是直面诸多真实痛点:驱动虽在,版本矩阵却模糊不清;框架完成适配,切换模型便报错频发;性能数据有截图,Profiling却无法定位核心热点;看似跑通案例,一旦接入自定义算子,便陷入脚本修改、环境补全、紧急远程救火的困境;更有甚者,表面显示依托AI加速器运行,关键业务路径实则已悄然回退至CPU。

正因如此,此次我们突破传统“兼容性名单”的局限,将迁移成本、落地摩擦、闭环机制与证据链条全面公开,让生态实力透明化。

诸多团队在实际落地中,卡点并非“能否搭建Demo”,而是直面诸多真实痛点:驱动虽在,版本矩阵却模糊不清;框架完成适配,切换模型便报错频发;性能数据有截图,Profiling却无法定位核心热点;看似跑通案例,一旦接入自定义算子,便陷入脚本修改、环境补全、紧急远程救火的困境;更有甚者,表面显示依托AI加速器运行,关键业务路径实则已悄然回退至CPU。

正因如此,此次我们突破传统“兼容性名单”的局限,将迁移成本、落地摩擦、闭环机制与证据链条全面公开,让生态实力透明化。

1. 《AI加速器软件生态公开评测规范》:界定评测的“根本准则”

作为整套标准的核心标尺,该文件精准明确核心规则:

  • 评测对象精准化
    严格锚定具体产品线与软件栈的组合形态;
  • 评测层级全覆盖
    涵盖基础支撑层、核心工具层、框架适配层、管理监控层及支持闭环能力五大层级;
  • 规则边界清晰化
    界定“最小等价适配”的内涵,明确禁止换题、绕题、静默回退等违规操作;
  • 统计口径统一化
    规范总分、首轮通过率、最终闭环率、原则性不兼容数的计算标准;
  • 证据要求刚性化
    明确强制提交的证据类型,杜绝仅凭截图或口头说明下结论的做法。简言之,这份文件为评测划定边界,清晰界定通过标准与不通过情形,让评测有章可循。

3. 《AI加速器软件生态评测过程数据提交规范/模板》:补齐过程的“关键短板”

作为本次新增的核心文件,它填补了过往评测中过程数据缺失的关键空白,统一规范核心内容:

  • 结果目录的搭建规则;
  • 元数据、日志、脚本、运行产物、问题台账与支持记录的组织逻辑;
  • 时间成本与文档质量的记录标准;
  • PR提交的必备材料清单;
  • 公共标准文件与专属结果目录的内容边界。这份文件的核心价值,在于让评测过程数据提交标准化,保障后续复核、复现与复用的可行性。

这套标准与传统兼容性测试的本质差异

核心差异在于,我们不再局限于“最终是否跑通”的结果导向,而是将过程成本纳入核心考量。任务最终跑通,并不等同于适合采购,更无法代表迁移成本可控。对企业而言,3天完成适配与3周完成适配,传递的是截然不同的决策信号。

为此,本套标准对时间成本进行独立量化,至少记录三类核心指标:

  • 首轮通过耗时
    从完成裸机接管到首轮达成验收目标的总工时;
  • 问题闭环耗时
    从发现问题到修复验证通过的总时长;
  • 文档阅读成本
    完成评测所需阅读的关键文档数量、篇幅及投入工时。我们期望通过公开结果,不仅告知行业“能否跑通”,更要清晰呈现跑通的成本投入、实现路径,为真实项目决策提供核心依据。同时,该标准不局限于国产加速卡,TPU、AMD等国外AI加速芯片,均可参照执行。

为何将“文档质量”与“API稳定性”单独凸显?

软件生态的真实体验,痛点往往并非“完全无法使用”,而是隐匿在细节中的体验损耗:

  • 文档分散零散,核心版本矩阵无处可寻;
  • 已知问题缺乏清单,踩坑只能反复试错;
  • 故障排查无明确路径,问题解决依赖远程求助;
  • 关键文档需登录甚至签署NDA,公开渠道无法获取;
  • API或插件频繁出现破坏性变更,却无配套迁移指引。

基于此,本次评测将文档与接口质量独立呈现,重点覆盖三大维度:

  • 文档完备性
    是否提供版本矩阵、已知问题清单及故障排查指南;
  • 文档可访问性
    关键文档是否公开可查,是否需登录或NDA权限;
  • API稳定性
    是否存在频繁破坏性变更,是否配套清晰迁移说明。这部分内容暂不直接纳入性能跑分,但会与总分同步公开。对采购决策、迁移落地及长期维护而言,这些信息与性能数据同等关键。

坚持纳入“自定义算子/自定义模型”评测的核心考量

真实业务场景,远不止官方Demo那般理想化。若一张加速卡仅能在标准样例中表现良好,一旦遭遇用户自研算子、专属服务模型、定制训练脚本便报错频发,这样的生态更贴近“样板间”,而非具备工程落地能力的成熟生态。

因此,本套评测持续将自定义扩展能力作为核心评测项,重点考察:

  • 自定义扩展的编译可行性;
  • 热点算子是否存在回退情形;
  • 图编译路径的可用性;
  • 真实业务模型迁移时,仅需调整device参数,还是需要大规模修改脚本、导出流程与构建链路。

过程数据提交规则:清晰划分,规范管理

本轮仓库的结果目录结构统一设定为:submission/<厂商>/<产品型号>/<stack_tag><yyyymmdd><submitter_id>/同时明确区分公共标准文件与专属测试结果:

  • 公共标准文件
    由维护团队统一维护更新;
  • 测试结果与过程数据
    参与方按统一目录规范,提交至专属结果目录;
  • 标准修改建议
    优先通过Issue发起讨论,经维护团队审核后,纳入正式版本。

规范提交流程:标准化推进评测落地

统一提交路径如下:访问官方提交仓库:https://gitee.com/china-ai-chip-whitepaper/gpu_bench

1.点击Fork,将仓库复制至个人Gitee账号;
2.依照评测规范与目录要求,在个人仓库新增本次测试结果目录,同步上传打分表、报告、日志、脚本及必要说明文件;
3.提交完成后,向主仓库发起Pull Request;
4.维护团队将依次审核目录结构、材料完整性、证据有效性与口径一致性,审核通过后合并至主仓库。(注:点击文末阅读原文,可直接跳转至仓库)

结果公开维度:不止于结论,更在于可审计的证据索引

最终公开的结果,绝非单一总分,而是多维度、可追溯的完整信息,至少涵盖:

1.综合总分;
2.首轮通过率;
3.最终闭环率;
4.原则性不兼容数量;
5.时间成本指标;
6.文档与接口质量评级;
7.厂商支持闭环结论;
对应的日志、脚本、问题台账与支持记录路径。简言之,公开的不仅是结论,更是一套可审计、可追溯的证据体系。

诚邀多方参与,共筑真实生态

    厂商视角:

    这是一份贴近真实用户感受的答卷。性能优势固然重要,但“首次适配能否顺畅落地”“问题能否以公开方式闭环解决”“用户迁移的时间成本”,同样是核心竞争力的体现。

    开发者/平台团队视角

    这是一份直击落地痛点的问题地图。你将看到的不是宣传话术,而是真实的日志、问题台账、支持方式、时间投入与最终结论,为技术选型提供可靠参考。

    最终用户视角

    这套标准要解答的核心命题只有一个:这套软件生态,究竟是“表面适配”,还是“真正值得迁移落地”。

    我们的核心目标:沉淀可复用的行业资产

    我们期望沉淀的,绝非喧嚣的口号,亦非泛滥的“已适配”截图,而是三类具备行业复用价值的核心资产:一把公开透明、稳定可靠、可复核的评测标尺;

    一套具备横向可比性的打分结果;

    一批附带完整过程证据的真实落地案例。

    这也正是本次我们一次性公开三份核心文件的初衷:

    《AI加速器软件生态公开评测规范》

    《AI加速器软件生态公开评测打分表》

    《AI加速器软件生态评测过程数据提交规范/模板》

    评测的本质,绝非制造行业噪音,而是让“软件生态可用性”这一核心命题,以更真实、更具体的方式被看见,为AI加速技术的产业落地筑牢根基