首批可信AI智能助手评估结果发布,第二批评估工作正式启动-夜雨聆风

首批可信AI智能助手评估结果发布,第二批评估工作正式启动

随着人工智能技术加速向现实世界场景渗透，以OpenClaw为代表的智能助手正从概念验证迈向规模化应用。智能助手通过将复杂操作指令转化为对本地或远程系统的直接操控，实现从“信息处理”到“任务执行”的能力跨越，成为重塑人机交互范式与产业数字化发展格局的关键动能。

中国信息通信研究院（以下简称“中国信通院”）人工智能研究所高度关注智能助手技术及应用发展动态，联合业内多家单位共同编制了《智能助手基准测试通用框架》技术规范，围绕基础能力、应用能力和综合能力三大能力域、17个能力子域，形成覆盖智能助手核心能力的全维度评测体系。为助推智能助手技术及相关产品和服务落地，促进产业高质量发展，中国信通院依托该框架开展了首批评估工作。截至目前，已累计为百度、滴普科技、枫清科技、小米等企业提供了多款智能助手产品的评估服务，涵盖通用智能助手基准测试、端侧应用专项测试等项目，评估结果已于近期发布。

图1 首批通过智能助手（Claw）评估的产品名单

为进一步提升技术方先行示范影响力，协助应用方选取适配产品，中国信通院现正式启动2026年第二批可信AI智能助手（Claw）基准测试，具体范围如下：

智能助手（Claw）基准测试通用框架围绕基础能力、应用能力和综合能力三大能力域，共计3个能力域、17个能力子域，形成覆盖智能助手核心能力的全维度评测体系。

端侧应用专项测试聚焦智能助手在终端设备上的实际表现，围绕日程安排、出行规划、通讯管理、效率办公、影像搜索与处理五大核心场景，评估智能助手在资源受限环境下的响应效率、操作准确性与用户体验。

基础能力

聚焦智能助手人机交互与任务执行核心环节，评估智能助手在理解交互、逻辑推理、检索核验、规划执行、状态记忆和工具技能等方面的能力。

应用能力

聚焦智能助手落地应用实效，评估智能助手在软件工程、数据分析、文档处理、流程执行、创意写作、文件管理和网页操作等方面的能力。

综合能力

聚焦智能助手规模化部署与系统化运营，评估智能助手在多渠协作、工程运行、合规对齐和端侧应用等方面的能力。

图2 智能助手基准测试技术规范框架

联系人

张老师，15722924458

zhangxueqiang@caict.ac.cn

张丹 19852822678

zhangdan3@caict.ac.cn