国产模型登顶全球,AI 工具进入实用新纪元
WEEKLY AI ROUNDUP · Vol.3
国产模型登顶全球,AI 工具进入实用新纪元
虾米智造 · 2026 年 3 月 第三周
上周 AI 圈节奏快得有点上头:Qwen3.5 盲测全球第一、国产调用量再次反超美国、百万上下文成主流,而 OpenClaw/QClaw 这类 Agent 框架也在悄悄改变我们和电脑的交互方式——5分钟,虾米带你把这周的变化一次看完。
Qwen 3.5 盲测全球第一,国产模型正式”登顶”
3 月 24 日的极客日志数据让人精神一振:阿里Qwen3.5-Max-Preview在权威盲测平台 LM Arena 以1464 分登顶,超过 GPT-5.4、Claude Opus 4,全球排名第一。
🏆 LM Arena 全球大模型盲测榜(2026年3月)
Qwen 3.5-Max-Preview
阿里巴巴 · 稀疏 MoE 架构
1464🇨🇳
GPT-5.4
OpenAI · 百万 Token 上下文
~1450🇺🇸
Claude Opus 4
Anthropic · 文案 / 分析首选
~1440🇺🇸
DeepSeek V3.2
深度求索 · 代码 / 推理神器
~1430🇨🇳
这份榜单意味着什么?LM Arena 用的是全球真实用户的盲测投票——两个回复不告诉你是谁,你觉得哪个好就投哪个。这比各家自己发的跑分基准靠谱多了。国产模型能在这里拿第一,说明”真实体验感”也到位了。
国产调用量再次反超美国:+15.3%,全球前5占3席
OpenRouter 最新平台数据显示,3 月这一周,中国大模型 Token 调用量达到4.19 万亿,美国3.63 万亿,差距进一步扩大。
🇨🇳 中国
4.19万亿 Token
↑ 持续领先
🇺🇸 美国
3.63万亿 Token
差距约 15.3%
📌 全球 Top 5 中,MiniMax M2.5(第1)、DeepSeek V3.2(第3)、阶跃星辰 Step 3.5 Flash(第5)均为国产模型,且近半数调用来自海外开发者。
百万 Token 上下文成标配,这意味着什么?
今年最明显的一个趋势——无论是 GPT-5.4、DeepSeek V4,还是国产小模型,百万 Token 上下文窗口已经成了标配。
📐 1 百万 Token 大概是多少?
这意味着 AI 可以一次性”读完”一个完整的代码库、整套合同文件、完整研究报告,不再需要切块喂给它——过去很多”AI不好用”的体验,本质上就是上下文窗口太小。这个问题,正在被彻底解决。
AI Agent 进入爆发期:从”聊天工具”到”数字员工”
上周虾米测了 QClaw,这周继续说 Agent 这个话题——因为这一周圈子里最热的词就是”智能体商业化“。
AI Agent 的核心变化:现在的 Agent 框架(比如 OpenClaw、Cursor、Claude 的新功能)已经开始支持原生电脑控制、工具调用、任务拆解、长链路执行——它不只是”回答问题”,而是”帮你做事”。
从上周 QClaw”翻车测评”的反馈来看,大家对 Agent 的期待很高,但容忍度也在提升——只要工具真的在进步,”偶尔失败”反而显得真实。下期我打算手把手教一个0代码搭自动早报机器人,感兴趣的点关注别丢。
QClaw / OpenClaw
微信发指令控电脑,支持5000+技能
推荐指数 ★★★★☆
Cursor AI IDE
AI原生代码编辑器,开发者圈几乎人手一个
推荐指数 ★★★★★
DeepSeek V3.2
数学+代码推理绝杀,API性价比极高
推荐指数 ★★★★★
💬 你现在日常最常用哪款 AI 工具?
评论区告诉我,数据多了我来出一期「用户调查」
虾米智造
AI工具 · 机器人黑科技 · AI Agent · 每周更新
数据来源:极客日志 zeeklog.com · 腾讯云开发者社区 · OpenRouter
夜雨聆风