非技术人员怎么用 Arena 选对 AI 工具#实测指南-夜雨聆风

非技术人员怎么用 Arena 选对 AI 工具#实测指南

Arena.ai（Chatbot Arena、LMArena）最近改名叫 Arena，但核心没变：一个靠全球用户投票决定 AI 模型排名的众包评测平台。

你不需要懂技术，也能从中拿到有用的参考。

Arena 是什么

Arena 由 LMSYS 和 UC Berkeley SkyLab 联合开发，机制很直接：你输入一个 prompt，平台返回两个匿名模型的回复，你选哪个更好，投票后才公开模型身份。投票数据通过 Elo 评分计算排名。

Arena leaderboards

目前有 600 多万次投票，月活 5M，覆盖 150 个国家，每月 60M 次对话。

直接价值：看模型排名。

Arena 有多个细分类别的排行榜：

2026 年 4 月的数据：

How to evaluate LLMs: the statistics behind Arena’s rankings

选 AI 工具时，这些排名比厂商自己的宣传可靠——几百万人次投票投出来的结果，不是官网首页上写的那几句话。

Arena 不是完美的评测体系。TechCrunch 的深度报道指出几个问题：

把它当作”用户满意度调研”会更准确，而不是”客观智能测评”。

1. 找到对应需求的排行榜类别。

只看 Overall 排名容易误导。主要用 AI 写文案，看 Text；主要做图片相关的事，看 Vision 或 Image to WebDev。不同类别的排名差异很大。

2. 亲自测一下。

Battle Mode 对所有人开放。输入自己真实场景的 prompt，看两个匿名模型哪个回复更好——这个测试结果比任何排名都准确，因为测的是你真正会用到的东西。

How To Try Out AI Models For Free

3. 结合其他维度。

Arena 人类偏好 + 静态基准测试（如 MMLU、HellaSwag）+ 特定任务表现，三者结合才能全面评估。

4. 关注 Expert Category。

这个类别反映的是专业用户提出的最有挑战性的 prompt，最接近前沿能力。

即使不用 Arena 做决策，这个平台本身也是个学习资源。

通过大量真实对话，可以了解不同 AI 模型在复杂推理、多模态、代码等任务上的实际表现。追踪同一个模型在不同时间点的排名变化，能看到模型的进化方向。参考全球数百万用户的集体判断，能建立对 AI 能力边界的真实认知——不是看厂商怎么说，是看大家实际怎么用。

Arena 用户以技术背景为主，对非技术类任务（如创意写作、生活建议）的评估参考价值有限。

商业公司可能利用 Arena 排名做营销，排名靠前不等于”最适合你的场景”。

另外，纯 API 调用的模型可以访问所有用户输入，存在”针对 Arena 训练”的潜在不公平优势。

[1] Arena.ai 官方首页 | 2026

[2] Arena 排行榜

[3] LMArena is now Arena

[4] The AI industry is obsessed with Chatbot Arena — TechCrunch