乐于分享
好东西不私藏

国产模型登顶全球,AI 工具进入实用新纪元

国产模型登顶全球,AI 工具进入实用新纪元

WEEKLY AI ROUNDUP · Vol.3

国产模型登顶全球,AI 工具进入实用新纪元

虾米智造 · 2026 年 3 月 第三周

🏆 国产大模型🤖 AI Agent🛠️ 实用工具

上周 AI 圈节奏快得有点上头:Qwen3.5 盲测全球第一、国产调用量再次反超美国、百万上下文成主流,而 OpenClaw/QClaw 这类 Agent 框架也在悄悄改变我们和电脑的交互方式——5分钟,虾米带你把这周的变化一次看完。

🏆 头条

Qwen 3.5 盲测全球第一,国产模型正式”登顶”

3 月 24 日的极客日志数据让人精神一振:阿里Qwen3.5-Max-Preview在权威盲测平台 LM Arena 以1464 分登顶,超过 GPT-5.4、Claude Opus 4,全球排名第一。

🏆 LM Arena 全球大模型盲测榜(2026年3月)

1

Qwen 3.5-Max-Preview

阿里巴巴 · 稀疏 MoE 架构

1464🇨🇳

2

GPT-5.4

OpenAI · 百万 Token 上下文

~1450🇺🇸

3

Claude Opus 4

Anthropic · 文案 / 分析首选

~1440🇺🇸

4

DeepSeek V3.2

深度求索 · 代码 / 推理神器

~1430🇨🇳

这份榜单意味着什么?LM Arena 用的是全球真实用户的盲测投票——两个回复不告诉你是谁,你觉得哪个好就投哪个。这比各家自己发的跑分基准靠谱多了。国产模型能在这里拿第一,说明”真实体验感”也到位了。

📊 数据

国产调用量再次反超美国:+15.3%,全球前5占3席

OpenRouter 最新平台数据显示,3 月这一周,中国大模型 Token 调用量达到4.19 万亿,美国3.63 万亿,差距进一步扩大。

🇨🇳 中国

4.19万亿 Token

↑ 持续领先

🇺🇸 美国

3.63万亿 Token

差距约 15.3%

📌 全球 Top 5 中,MiniMax M2.5(第1)、DeepSeek V3.2(第3)、阶跃星辰 Step 3.5 Flash(第5)均为国产模型,且近半数调用来自海外开发者

🚀 趋势

百万 Token 上下文成标配,这意味着什么?

今年最明显的一个趋势——无论是 GPT-5.4、DeepSeek V4,还是国产小模型,百万 Token 上下文窗口已经成了标配

📐 1 百万 Token 大概是多少?

📚 一整套《三体》约 80万字💻 中型项目全部代码📑 数百份法律合同

这意味着 AI 可以一次性”读完”一个完整的代码库、整套合同文件、完整研究报告,不再需要切块喂给它——过去很多”AI不好用”的体验,本质上就是上下文窗口太小。这个问题,正在被彻底解决。

🤖 Agent

AI Agent 进入爆发期:从”聊天工具”到”数字员工”

上周虾米测了 QClaw,这周继续说 Agent 这个话题——因为这一周圈子里最热的词就是”智能体商业化“。

AI Agent 的核心变化:现在的 Agent 框架(比如 OpenClaw、Cursor、Claude 的新功能)已经开始支持原生电脑控制、工具调用、任务拆解、长链路执行——它不只是”回答问题”,而是”帮你做事”。

对比维度传统 AI 聊天AI Agent
交互方式一问一答自主决策执行
任务范围生成文本操作电脑 / 调 API
持续时长单次对话长链路任务流
典型工具ChatGPT / 文心OpenClaw / Cursor

从上周 QClaw”翻车测评”的反馈来看,大家对 Agent 的期待很高,但容忍度也在提升——只要工具真的在进步,”偶尔失败”反而显得真实。下期我打算手把手教一个0代码搭自动早报机器人,感兴趣的点关注别丢。

🛠️ 本周工具推荐
🦞

QClaw / OpenClaw

微信发指令控电脑,支持5000+技能

推荐指数 ★★★★☆

💻

Cursor AI IDE

AI原生代码编辑器,开发者圈几乎人手一个

推荐指数 ★★★★★

🔍

DeepSeek V3.2

数学+代码推理绝杀,API性价比极高

推荐指数 ★★★★★

💬 你现在日常最常用哪款 AI 工具?

评论区告诉我,数据多了我来出一期「用户调查」

虾米智造

AI工具 · 机器人黑科技 · AI Agent · 每周更新

数据来源:极客日志 zeeklog.com · 腾讯云开发者社区 · OpenRouter