Artifitial Analysis

核心评测维度
主要榜单与产品
板块 | 说明 |
|---|---|
LLM Leaderboard | 前沿语言模型按智能、速度、价格、上下文综合排行 |
AA-Omniscience Rank | 知识准确性与抗幻觉专项榜 |
Image / Video Arena | 文生图、文生视频(含带音频)盲测 ELO 排行 |
Speech / TTS Arena | 语音合成质量对比 |
API Provider Benchmark | 同一模型在不同推理服务商(Groq/Fireworks/Together/Bedrock 等)的速度与价格对比 |
State of AI Report | 季度 AI 行业趋势报告(智能成本下降、前沿竞争等) |
RoBoArena-评测具身智能

核心评测机制
特性 | 说明 |
|---|---|
分布式众包评测 | 依托全球数十所高校/机构的标准 DROID 机器人硬件网络,评估员自选任务与环境,覆盖远超单一实验室的多样性 |
双盲成对 A/B 测试 | 评估员不知策略身份,对同一任务依次运行两策略(πₐ vs πᵦ),按完成度(0–100 分)+偏好投票+文字说明反馈 |
动态 Elo 排名 | 聚合大量成对比较,用 Elo 算法计算全局策略排名,打败强者加分多,防止静态刷榜 |
全开源 & 信用激励 | 框架/数据/排名算法开源;提交策略有周额度,参与评测得"评估积分"换更多测试机会 |
评测对象与意义
PinchBench-专门评测OpenClaw编码代理LLM

Claw-Eval&Claw-Eval-Live-评测智能体Agent能力

Claw-Eval — 可信Agent过程评测基准
评测维度:
Completion(完成度):任务目标是否达成
Safety(安全性):有无越权/违规操作
Robustness(鲁棒性):API超时/报错下能否恢复
资源:
官网/Leaderboard:https://claw-eval.github.io/
GitHub:https://github.com/claw-eval/claw-eval
数据集:https://modelscope.cn/datasets/claw-eval/Claw-Eval
Claw-Eval-Live — 动态"活"基准(Live Benchmark)
官网:https://claw-eval-live.github.io/
论文:arXiv 2026-04-30:Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows
两者关系速览
Claw-Eval | Claw-Eval-Live | |
|---|---|---|
解决问题 | 测得准——过程可审计,防只看结果高估模型 | 测得对——任务分布跟真实工作流需求走 |
任务集 | 固定 300 题 | 季度刷新时间戳快照(当前 105 题) |
评分方式 | 执行轨迹+审计日志+环境快照三线证据 | 同上,证据锚定+结构化 LLM Judge |
适用场景 | 模型能力对标、安全/鲁棒性分析 | 贴近部署选型的动态 workflow 评测 |
夜雨聆风