AI 一次读完《三体》三部曲,只花几毛钱:MiniMax 把不可能变成了开源今天,MiniMax 发了一个模型。没有铺张的发布会,没有 CEO 登台讲愿景。就是一篇博客,几组数字,一个开源链接。但如果你做 AI 应用,这几组数字值得你坐下来好好看一遍。MiniMax M3。开源。100 万 token 上下文。自研 MSA 稀疏注意力。100 万 token 下每 token 计算成本降至前代的 1/20。SWE-Bench Pro 59.0%,超越 GPT-5.5 和 Gemini 3.1 Pro。好。我们来拆这台机器。 100 万 token 的诅咒大模型从 4K 涨到 128K,从 128K 涨到 1M——上下文窗口一直在变大。这个行业有一个不说破的共识:长上下文是个噱头。不是技术上做不到。是算起来太贵。你把 100 万 token 塞进一个模型,就像把一整本《三体》三部曲扔给一个人,让他三秒钟给你总结。不是看不懂,是来不及看。传统的密集注意力(Dense Attention)在处理长上下文时,计算量随 token 数平方级增长。100 万 token 的注意力矩阵包含 1 万亿对关系——每一对都要算一遍。这相当于每一代 iPhone 发布时,你要把全世界所有 iPhone 用户两两配对,检查他们是不是认识。没有人付得起这个账单。所以现在的"长上下文模型"大多在玩一个把戏:窗口标 100 万,但 80 万以后的 token 模型几乎不关注。"能塞进去"跟"能用上"之间,隔着三层楼。## MSA 是怎么做的MiniMax 的自研 MSA(MiniMax Sparse Attention)稀疏注意力架构,本质上回答了这个问题:**不是每对 token 都值得关注。MSA 的核心逻辑是把注意力分成两层:第一层:粗筛。快速扫描 100 万 token,找出跟当前任务相关的候选区域。就像你在一本书里找"上海"这个词——你不会从头到尾读一遍,你会翻目录、扫小标题、跳着看。第二层:精读。只在筛选出的候选区域上进行完整的密集注意力计算。这个两阶段策略的效果,MiniMax 给出了四个数字:| 指标 | MSA vs 前代 ||------|--------|| 每 token 计算成本 | 降至 1/20 || 预填充速度 | 提升 9 倍 || 解码速度 | 提升 15 倍 || 上下文窗口 | 100 万 token |降到 1/20 是什么概念?以前调用一次满上下文查询的成本够你吃一顿海底捞,现在够你买一瓶农夫山泉。这不再是 30% 的优化,不是翻一倍——这是换了一个成本结构。 SWE-Bench Pro 59% 意味着什么SWE-Bench Pro 是目前业界最硬核的 AI 编码评测之一。它不考选择题,不让模型写一个函数——它给模型甩一个真实的 GitHub issue,要求模型自己读代码库、定位 bug、写修复、跑测试。这跟一个初级程序员入职第一周干的活一模一样。| 模型 | SWE-Bench Pro 得分 ||------|--------|| GPT-5.5 | ~57% || Gemini 3.1 Pro | ~56% || MiniMax M3 | 59.0% || Claude Opus 4.7 | ~60% |一个中国创业公司做的开源模型,在编码能力上夹在了 OpenAI 和 Anthropic 的旗舰之间。这不是"追上了"——是从第三排直接走到了第一排。而且注意一个细节:MiniMax 强调 M3 是"开源"的。MiniMax 走的是"开放权重 + API 服务并行"的路线。开发者可以在自己的服务器上部署,也可以通过 MiniMax Code、Token Plan 和 API 使用。这是一种"我不锁你"的诚意。在当前全球 AI 行业越来越封闭的趋势下——OpenAI 不再 open,Anthropic 一直是 closed——MiniMax 坚持开源,本身就是一种竞争策略。 中国大模型的第四条路过去两周,我们在情报速递里陆续写了几家中国大模型公司:DeepSeek:极致性价比 + 科创板上市,走的是"成本驱动商业化"路线。Qwen(阿里):开源 + 全球化生态 + UEFA 六年合作,走的是"品牌出海"路线。阶跃星辰:MoE + 智能体效率 + 本地可运行,走的是"端侧友好"路线。MiniMax M3 走出了第四条路。它的关键词是 "长上下文 + 编码 + 原生多模态 + 开源"**。它不是在某一个维度上做极致的,而是在多个维度上同时做到"够强"——然后打包成一个开源的、面向开发者的整体方案。这个策略聪明的地方在于:它不跟 DeepSeek 比价格,不跟 Qwen 比品牌,不跟阶跃比端侧部署。它打的是一个组合拳——"你需要长上下文,你需要编码强,你需要原生多模态,我都给你,而且开源。"四条路,四个方向,互不踩脚。当中国大模型的竞争从"谁能追上 GPT"变成"谁能在自己的赛道上定义标准"——这个行业的内生动力就出来了。长上下文的真正价值写到这里,你可能还是觉得——"长上下文跟我有什么关系?"有关系。而且关系很大。第一,Agent 工作流。 一个真正有用的 AI Agent 不是"你问一句它答一句"——它需要记住你之前说的所有话,需要跟踪一个持续了三个小时的任务,需要在一次会话中处理几百个文件的代码变更。没有长上下文,Agent 就是一个七秒记忆的金鱼。二,代码库理解。 MiniMax M3 在 SWE-Bench Pro 上拿 59%,靠的不只是编码能力——是靠 100 万 token 上下文把整个代码仓库一口吞进去,然后精准定位。传统模型做不到不是因为不够聪明,是因为记不住这么多代码。第三,成本。 MSA 把 100 万 token 上下文的成本打到前代的 1/20。这意味着长上下文不再是"奢侈品功能"——是跟短上下文一样可以随便用的基础能力。当成本不再是瓶颈,应用的想象力才真正打开。MiniMax 没有在博客里用"革命""颠覆"这些词。它只是列了一组数字,然后附上了 GitHub 链接和 API 入口。但如果你能把 100 万 token 上下文当成默认配置来设计产品——你的 Agent 能记住整个项目的上下文,你的代码助手能一口吞下整个代码库,你的知识库产品不需要搞 RAG 分块——那你做的 AI 产品,跟用 4K 窗口做出来的一切,根本不是一个物种。长上下文的天花板,不是被砸开的,是被算账算穿的。*数据来源:MiniMax 官方博客、SWE-Bench 排行榜、各模型厂商公开数据*