全球主流大模型进展跟踪(附下载)

由于公众号资源受限，仅能展示部分报告，所有报告已上传“全球速查报告库”知识星球。加入星球可无限下载报告，星球包含10万+报告，涵盖全行业。客服微信：muchuanliu123

报告内容

一、本报告概述。

报告系统梳理2026年2月前海外与国产主流大模型最新迭代，指出行业已完成“从生成到行动”的范式切换：海外以Anthropic、OpenAI、Google、OpenClaw为代表，沿“推理筑基—行动落地—生态重构”三线竞速；国产阵营由智谱、MiniMax、Kimi、阿里、字节跳动领衔，借开源、成本与Agent协同实现多维突围。核心结论：竞争焦点从参数规模转向“单位Token成本、长任务ROI、可执行生态”三大效率指标；入口形态由对话框升级为Office、IDE、工作台等深度集成；开源模型在真实流量占比持续提升，Agent规模化落地进入“成本可算、任务可闭环”的新阶段。

二、第一章：海外大模型三重进化——推理筑基、行动落地与生态重构的竞速新格局

1. Anthropic：Claude Opus 4.6首次开放1M上下文，在深度多轮Agent任务榜排名第一；Claude Sonnet 4.6获computer use评分第一。Cowork产品把文件夹级读写权限封装为“可调度劳动力”，上线两个月年化收入贡献约10亿美元。

2. OpenAI：GPT-5.3-Codex执行速度较上一代提升25%，Spark版在Cerebras硬件上实现>1000 tokens/s；macOS端Codex app支持100步以上长任务并行，桌面操作案例显示单项目可调用8个Agent同时运行。

3. Google：Gemini 3.1 Pro在ARC-AGI-2基准取得77.1% verified成绩，较3 Pro翻倍；上下文1M token、输出64K token，已嵌入NotebookLM等5端。Lyria 3 beta上线18小时生成30秒音频片段超120万条，默认植入SynthID水印。

4. OpenClaw：自托管网关单实例可聚合WhatsApp、Telegram等6渠道，平均延迟<200 ms；创始人2026年2月加盟OpenAI，项目基金会化后GitHub星标一夜新增1.4万。

三、第二章：国产大模型多维突围——开源筑基、效率制胜与Agent生态协同的落地新格局

1. 智谱GLM-5：参数744B（激活40B），兼容昇腾910B集群，推理吞吐较上一代提升2.3倍；编码订阅提价30%后付费转化率仍保持68%，验证刚性需求。

2. MiniMax M2.5：SWE-Bench Verified达80.2%，速度较M2.1提升37%；100 token/s连续运行1小时成本约1美元，内部30%真实任务已全自动化。

3. Kimi K2.5：MoE总参数1T（激活32B），256K上下文；Agent Swarm可并行100子Agent，端到端任务速度最高提升4.5倍，视觉到代码转换准确率91%。

4. 阿里Qwen3.5-Plus：稀疏MoE 3970亿参数（激活170亿），256K场景推理吞吐提升19倍；百炼API定价0.8元/百万Token，春节期间AI购物Agent 6天完成1.2亿笔订单。

5. 字节豆包2.0：Seedream 5.0 Lite支持实时联网检索，Seedance 2.0生成5秒短视频成本降至0.18元；火山引擎MaaS春节调用量峰值达2.3亿次/小时，Agent任务占比52%。

四、第三章：行业趋势印证——从生成到行动，竞争聚焦供给效率与生态重构

OpenRouter 2月上旬周度Token处理量13 T，环比1月初增58%，增量80%来自多步Agent调用；平台TOP20模型中开源/开放权重占比首次突破50%。Token消耗与任务ROI已取代参数规模成为核心指标，主流厂商一致压低单位推理成本：Gemini 3.1 Pro长任务调用价降至$0.8/百万Token，Qwen3.5-Plus稀疏激活使显存占用降60%。入口侧，Office集成、IDE插件、工作台成为新战场，传统对话框流量占比由年初45%降至27%。

五、第四章：投资建议

报告维持行业“看好”评级，建议沿“AI应用—云网服务—IDC算力—国产/海外算力链”四线布局，重点关注智谱、MiniMax、金山办公、优刻得、数据港、寒武纪、中际旭创等27家标的。

关注公众号，获取本报告下载方法。