首批可信AI智能助手评估结果发布,第二批评估工作正式启动
随着人工智能技术加速向现实世界场景渗透,以OpenClaw为代表的智能助手正从概念验证迈向规模化应用。智能助手通过将复杂操作指令转化为对本地或远程系统的直接操控,实现从“信息处理”到“任务执行”的能力跨越,成为重塑人机交互范式与产业数字化发展格局的关键动能。
中国信息通信研究院(以下简称“中国信通院”)人工智能研究所高度关注智能助手技术及应用发展动态,联合业内多家单位共同编制了《智能助手基准测试通用框架》技术规范,围绕基础能力、应用能力和综合能力三大能力域、17个能力子域,形成覆盖智能助手核心能力的全维度评测体系。为助推智能助手技术及相关产品和服务落地,促进产业高质量发展,中国信通院依托该框架开展了首批评估工作。截至目前,已累计为百度、滴普科技、枫清科技、小米等企业提供了多款智能助手产品的评估服务,涵盖通用智能助手基准测试、端侧应用专项测试等项目,评估结果已于近期发布。

图1 首批通过智能助手(Claw)评估的产品名单
为进一步提升技术方先行示范影响力,协助应用方选取适配产品,中国信通院现正式启动2026年第二批可信AI智能助手(Claw)基准测试,具体范围如下:
智能助手(Claw)基准测试通用框架围绕基础能力、应用能力和综合能力三大能力域,共计3个能力域、17个能力子域,形成覆盖智能助手核心能力的全维度评测体系。
端侧应用专项测试聚焦智能助手在终端设备上的实际表现,围绕日程安排、出行规划、通讯管理、效率办公、影像搜索与处理五大核心场景,评估智能助手在资源受限环境下的响应效率、操作准确性与用户体验。
1
基础能力
聚焦智能助手人机交互与任务执行核心环节,评估智能助手在理解交互、逻辑推理、检索核验、规划执行、状态记忆和工具技能等方面的能力。
2
应用能力
聚焦智能助手落地应用实效,评估智能助手在软件工程、数据分析、文档处理、流程执行、创意写作、文件管理和网页操作等方面的能力。
3
综合能力
聚焦智能助手规模化部署与系统化运营,评估智能助手在多渠协作、工程运行、合规对齐和端侧应用等方面的能力。

图2 智能助手基准测试技术规范框架
联系人
张老师,15722924458
zhangxueqiang@caict.ac.cn
张丹 19852822678
zhangdan3@caict.ac.cn
夜雨聆风