
01. 什么是 Arena.ai?为什么要看它?
简单来说,是目前大模型圈子里最接地气的“盲测排位赛”。它不看厂商自己吹牛的测试集,全靠真实开发者输入 Prompt,然后让两个匿名大模型打擂台,最后由人类当裁判选出更好用的那个。
接下来按官方最新的 Template(基础栈)与 Domain(垂直领域)两大分支,带你看看各个大模型在真实项目里的底色到底如何。
</> Template(基础技术栈)
Overall(综合表现)
综合实力的直接体现。平时做项目能不能把多个文件串起来、状态管理写得对不对,全看这个大满贯维度。
HTML
不搞花里胡哨的框架,纯看写原生 DOM 节点和 CSS 内联排版的底子有多扎实。
React
日常搬砖用得最多的场景。主要看模型会不会写 Hooks、组件拆得合不合理、渲染逻辑对不对。
Domain(垂直领域)
Brand & Marketing(品牌与营销)
聚焦于品牌形象塑造、市场推广与受众心智转化,涵盖各类数字化营销场景。
Reference-Based Design(参考级设计)
严格依据既定的视觉规范或参考图例,进行高精度的设计表达与视觉还原。
Data & Analytics(数据与分析)
专注于海量信息的逻辑处理、深度挖掘,以及直观的数据可视化呈现。
Consumer Product(消费级产品)
面向广大终端消费群体,强调直觉化的交互体验与极简的用户旅程设计。
Gaming(游戏与互动)
涵盖各类娱乐互动场景,聚焦于核心玩法机制、规则设定与沉浸式体验构建。
Simulations(模拟仿真)
基于真实世界规律或特定推演逻辑,构建用于测试、观察与预测的复杂虚拟系统。
Content Creation Tools(内容创作工具)
富文本和编辑器一类的工具开发。这种场景经常要处理复杂的内联样式和各种奇怪的嵌套,非常考验模型写防御性代码的能力。
02. 厂商格局盘点:到底该选谁?
看完上面这么多榜单,现在的 AI 编程助手到底是个什么局势?我们可以简单总结出这么几个梯队:
Anthropic:依然是写代码的扛把子
不管是基础语法还是业务逻辑,Claude Opus(特别是带了思维链路的 4.7/4.8 版本)几乎垄断了榜一。写复杂项目、改 bug 或是抠样式细节,它目前确实比同行高出一个身位。
Alibaba (Qwen):干活最麻利的国产代表
通义千问 3.7 Max 在各个榜单基本都能稳进前四。不仅用中文提需求非常懂你,写 React 和还原页面也是一把好手。平时做业务开发,它绝对是响应快、用着顺手的好搭档。
GLM / MiniMax / Kimi:咬得很紧的黑马队
这一批国产大模型进步非常快。智谱 GLM 5.1 在写原生 HTML 方面很强;MiniMax 在 React 里表现亮眼;Kimi 也发挥稳定。很多时候,用它们写前端的体验已经追平了海外老牌大厂。
OpenAI & Google:底子还在,但压力不小
GPT 家族和 Gemini 肯定不算差,特别是写些 Canvas 游戏脚本或者处理大文件时依然靠谱。但在前端这种极其讲究排版和框架规范的活儿上,正被新模型一点点挤出前三。
DeepSeek, Xiaomi, Meta:各有千秋的潜力股
虽然没能大面积屠榜,但它们都在前十里有一席之地。特别是在某些特定的开源场景和小众需求下,时不时会有惊喜,很值得持续关注。
夜雨聆风