
一、本报告概述。
报告系统梳理2026年2月前海外与国产主流大模型最新迭代,指出行业已完成“从生成到行动”的范式切换:海外以Anthropic、OpenAI、Google、OpenClaw为代表,沿“推理筑基—行动落地—生态重构”三线竞速;国产阵营由智谱、MiniMax、Kimi、阿里、字节跳动领衔,借开源、成本与Agent协同实现多维突围。核心结论:竞争焦点从参数规模转向“单位Token成本、长任务ROI、可执行生态”三大效率指标;入口形态由对话框升级为Office、IDE、工作台等深度集成;开源模型在真实流量占比持续提升,Agent规模化落地进入“成本可算、任务可闭环”的新阶段。
二、第一章:海外大模型三重进化——推理筑基、行动落地与生态重构的竞速新格局
1. Anthropic:Claude Opus 4.6首次开放1M上下文,在深度多轮Agent任务榜排名第一;Claude Sonnet 4.6获computer use评分第一。Cowork产品把文件夹级读写权限封装为“可调度劳动力”,上线两个月年化收入贡献约10亿美元。
2. OpenAI:GPT-5.3-Codex执行速度较上一代提升25%,Spark版在Cerebras硬件上实现>1000 tokens/s;macOS端Codex app支持100步以上长任务并行,桌面操作案例显示单项目可调用8个Agent同时运行。
3. Google:Gemini 3.1 Pro在ARC-AGI-2基准取得77.1% verified成绩,较3 Pro翻倍;上下文1M token、输出64K token,已嵌入NotebookLM等5端。Lyria 3 beta上线18小时生成30秒音频片段超120万条,默认植入SynthID水印。
4. OpenClaw:自托管网关单实例可聚合WhatsApp、Telegram等6渠道,平均延迟<200 ms;创始人2026年2月加盟OpenAI,项目基金会化后GitHub星标一夜新增1.4万。
三、第二章:国产大模型多维突围——开源筑基、效率制胜与Agent生态协同的落地新格局
1. 智谱GLM-5:参数744B(激活40B),兼容昇腾910B集群,推理吞吐较上一代提升2.3倍;编码订阅提价30%后付费转化率仍保持68%,验证刚性需求。
2. MiniMax M2.5:SWE-Bench Verified达80.2%,速度较M2.1提升37%;100 token/s连续运行1小时成本约1美元,内部30%真实任务已全自动化。
3. Kimi K2.5:MoE总参数1T(激活32B),256K上下文;Agent Swarm可并行100子Agent,端到端任务速度最高提升4.5倍,视觉到代码转换准确率91%。
4. 阿里Qwen3.5-Plus:稀疏MoE 3970亿参数(激活170亿),256K场景推理吞吐提升19倍;百炼API定价0.8元/百万Token,春节期间AI购物Agent 6天完成1.2亿笔订单。
5. 字节豆包2.0:Seedream 5.0 Lite支持实时联网检索,Seedance 2.0生成5秒短视频成本降至0.18元;火山引擎MaaS春节调用量峰值达2.3亿次/小时,Agent任务占比52%。
四、第三章:行业趋势印证——从生成到行动,竞争聚焦供给效率与生态重构
OpenRouter 2月上旬周度Token处理量13 T,环比1月初增58%,增量80%来自多步Agent调用;平台TOP20模型中开源/开放权重占比首次突破50%。Token消耗与任务ROI已取代参数规模成为核心指标,主流厂商一致压低单位推理成本:Gemini 3.1 Pro长任务调用价降至$0.8/百万Token,Qwen3.5-Plus稀疏激活使显存占用降60%。入口侧,Office集成、IDE插件、工作台成为新战场,传统对话框流量占比由年初45%降至27%。
五、第四章:投资建议
报告维持行业“看好”评级,建议沿“AI应用—云网服务—IDC算力—国产/海外算力链”四线布局,重点关注智谱、MiniMax、金山办公、优刻得、数据港、寒武纪、中际旭创等27家标的。
关注公众号,获取本报告下载方法。












夜雨聆风