主流AI评测体系:从模型能力到智能体再到具身机器人

Artifitial Analysis

Artificial Analysis 是由George Cameron和Micah Hill-Smith于 2024年创立的独立第三方AI基准测试与分析平台，不与任何模型厂商或 API提供商关联，专注于通过数据驱动的方式对大语言模型（LLM）、多模态生成模型（文生图/视频/语音）及API推理服务商进行客观、透明的横向对比，帮助用户选型。

核心评测维度

智能水平（Intelligence Index v4.0）：综合GDPval-AA（真实世界经济任务）、GPQA Diamond、Terminal-Bench Hard、AA-Omniscience（知识可靠性/幻觉率）等约10项benchmark加权得出

速度与延迟：输出Token/s（Throughput）、首Token延迟（TTFT）

价格：每百万Token混合成本（$/MTok，输入输出按3:1估算）

上下文窗口：支持的最大输入长度

幻觉率：通过AA-Omniscience Index（-100~100 分，奖励正确、惩罚幻觉）衡量知识可靠性

开放度指数（Openness Index）：评估模型权重、训练数据、方法的公开程度

主要榜单与产品

板块	说明
LLM Leaderboard	前沿语言模型按智能、速度、价格、上下文综合排行
AA-Omniscience Rank	知识准确性与抗幻觉专项榜
Image / Video Arena	文生图、文生视频（含带音频）盲测 ELO 排行
Speech / TTS Arena	语音合成质量对比
API Provider Benchmark	同一模型在不同推理服务商（Groq/Fireworks/Together/Bedrock 等）的速度与价格对比
State of AI Report	季度 AI 行业趋势报告（智能成本下降、前沿竞争等）

RoBoArena-评测具身智能

RoboArena（Distributed Real-World Evaluation of Generalist Robot Policies）是由UC Berkeley、Stanford、NVIDIA等联合发起的具身智能通用策略分布式真实世界评测平台，被称为机器人领域的"Chatbot Arena"。

官网：https://robo-arena.github.io/

Leaderboard：https://robo-arena.github.io/leaderboard

论文：RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies（CoRL 2025 Oral）

核心评测机制

特性	说明
分布式众包评测	依托全球数十所高校/机构的标准 DROID 机器人硬件网络，评估员自选任务与环境，覆盖远超单一实验室的多样性
双盲成对 A/B 测试	评估员不知策略身份，对同一任务依次运行两策略（πₐ vs πᵦ），按完成度（0–100 分）+偏好投票+文字说明反馈
动态 Elo 排名	聚合大量成对比较，用 Elo 算法计算全局策略排名，打败强者加分多，防止静态刷榜
全开源 & 信用激励	框架/数据/排名算法开源；提交策略有周额度，参与评测得"评估积分"换更多测试机会

评测对象与意义

评测对象：基于 DROID 平台的通用机器人操作策略（Generalist Robot Policies），如 π₀、OpenVLA、RT-2 系列、Cosmos、Spirit 等

与传统 Benchmark 区别：不做固定场景标准化跑分，而是拥抱真实世界多样性——看策略在未见过的环境、物体、光照下的泛化能力

业界定位：目前具身智能领域公认的权威公开基准，榜单排名代表模型在多任务真实世界操作中的综合泛化水平

PinchBench-专门评测OpenClaw编码代理LLM

PinchBench 是一个用于评估LLM模型作为OpenClaw编码代理的基准测试系统。在不同模型上运行相同的真实任务，衡量成功率、速度和成本，帮助开发者选择适合其用例的模型。

PinchBench由Kilo Code（KiloClaw的开发商）开发，旨在帮助用户在设置Claw代理时，选择合适的AI模型。

Claw-Eval&Claw-Eval-Live-评测智能体Agent能力

Claw-Eval 和Claw-Eval-Live是面向AI Agent（智能体）的端到端真实工作流评测基准，由香港中文大学、港大、北大等机构提出，主要评测 LLM Agent的工具调用、多步规划与执行过程。

Claw-Eval — 可信Agent过程评测基准

核心思想：打破传统"只看最终输出对错"，通过执行轨迹 + 服务端审计日志 + 环境快照三条证据链验证Agent是否真正完成了任务（防 shortcut/hallucination）。

任务规模：300 道人工验证任务，覆盖通用服务编排（CRM/邮件/财务等）、多模态感知生成、多轮专业对话，共 2,159 条评分细则。

评测维度：

Completion（完成度）：任务目标是否达成
Safety（安全性）：有无越权/违规操作
Robustness（鲁棒性）：API超时/报错下能否恢复

资源：

官网/Leaderboard：https://claw-eval.github.io/
GitHub：https://github.com/claw-eval/claw-eval
数据集：https://modelscope.cn/datasets/claw-eval/Claw-Eval

Claw-Eval-Live — 动态"活"基准（Live Benchmark）

解决痛点：静态benchmark任务分布随时间偏离真实用户需求，Claw-Eval-Live用公开workflow demand signals（ClawHub Top-500 技能热度）驱动任务族权重，每季度发布带时间戳的快照（可复现+跟得上现实）。

架构：信号层（Signal Layer，采集真实需求信号→聚类→加权）+ 发布层（Release Layer，锁定 task.yaml/夹具/评分脚本），通过MILP优化选取高区分度任务。

当前版本（v1.0）：105道任务、22个任务家族、13个前沿模型；含 87道服务驱动业务工作流（CRM/HR/财务/工单）＋18道本地工作空间修复（终端/环境调试）。

评分：沿用证据锚定原则（数据检索正确性、数值准确性、状态变更验证），辅以结构化LLM Judge处理语义维度。

资源：

官网：https://claw-eval-live.github.io/

论文：arXiv 2026-04-30：Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

两者关系速览

	Claw-Eval	Claw-Eval-Live
解决问题	测得准——过程可审计，防只看结果高估模型	测得对——任务分布跟真实工作流需求走
任务集	固定 300 题	季度刷新时间戳快照（当前 105 题）
评分方式	执行轨迹+审计日志+环境快照三线证据	同上，证据锚定+结构化 LLM Judge
适用场景	模型能力对标、安全/鲁棒性分析	贴近部署选型的动态 workflow 评测