AI 一次读完《三体》三部曲,只花几毛钱:MiniMax 把不可能变成了开源

今天，MiniMax 发了一个模型。没有铺张的发布会，没有 CEO 登台讲愿景。就是一篇博客，几组数字，一个开源链接。

但如果你做 AI 应用，这几组数字值得你坐下来好好看一遍。

MiniMax M3。开源。100 万 token 上下文。自研 MSA 稀疏注意力。100 万 token 下每 token 计算成本降至前代的 1/20。SWE-Bench Pro 59.0%，超越 GPT-5.5 和 Gemini 3.1 Pro。

好。我们来拆这台机器。

100 万 token 的诅咒

大模型从 4K 涨到 128K，从 128K 涨到 1M——上下文窗口一直在变大。这个行业有一个不说破的共识：长上下文是个噱头。

不是技术上做不到。是算起来太贵。

你把 100 万 token 塞进一个模型，就像把一整本《三体》三部曲扔给一个人，让他三秒钟给你总结。不是看不懂，是来不及看。

传统的密集注意力（Dense Attention）在处理长上下文时，计算量随 token 数平方级增长。100 万 token 的注意力矩阵包含 1 万亿对关系——每一对都要算一遍。这相当于每一代 iPhone 发布时，你要把全世界所有 iPhone 用户两两配对，检查他们是不是认识。

没有人付得起这个账单。

所以现在的"长上下文模型"大多在玩一个把戏：窗口标 100 万，但 80 万以后的 token 模型几乎不关注。"能塞进去"跟"能用上"之间，隔着三层楼。

## MSA 是怎么做的

MiniMax 的自研 MSA（MiniMax Sparse Attention）稀疏注意力架构，本质上回答了这个问题：**不是每对 token 都值得关注。

MSA 的核心逻辑是把注意力分成两层：

第一层：粗筛。快速扫描 100 万 token，找出跟当前任务相关的候选区域。就像你在一本书里找"上海"这个词——你不会从头到尾读一遍，你会翻目录、扫小标题、跳着看。

第二层：精读。只在筛选出的候选区域上进行完整的密集注意力计算。

这个两阶段策略的效果，MiniMax 给出了四个数字：

| 指标 | MSA vs 前代 |

|------|--------|

| 每 token 计算成本 | 降至 1/20 |

| 预填充速度 | 提升 9 倍 |

| 解码速度 | 提升 15 倍 |

| 上下文窗口 | 100 万 token |

降到 1/20 是什么概念？以前调用一次满上下文查询的成本够你吃一顿海底捞，现在够你买一瓶农夫山泉。这不再是 30% 的优化，不是翻一倍——这是换了一个成本结构。

SWE-Bench Pro 59% 意味着什么

SWE-Bench Pro 是目前业界最硬核的 AI 编码评测之一。它不考选择题，不让模型写一个函数——它给模型甩一个真实的 GitHub issue，要求模型自己读代码库、定位 bug、写修复、跑测试。

这跟一个初级程序员入职第一周干的活一模一样。

| 模型 | SWE-Bench Pro 得分 |

|------|--------|

| GPT-5.5 | ~57% |

| Gemini 3.1 Pro | ~56% |

| MiniMax M3 | 59.0% |

| Claude Opus 4.7 | ~60% |

一个中国创业公司做的开源模型，在编码能力上夹在了 OpenAI 和 Anthropic 的旗舰之间。这不是"追上了"——是从第三排直接走到了第一排。

而且注意一个细节：MiniMax 强调 M3 是"开源"的。MiniMax 走的是"开放权重 + API 服务并行"的路线。开发者可以在自己的服务器上部署，也可以通过 MiniMax Code、Token Plan 和 API 使用。

这是一种"我不锁你"的诚意。在当前全球 AI 行业越来越封闭的趋势下——OpenAI 不再 open，Anthropic 一直是 closed——MiniMax 坚持开源，本身就是一种竞争策略。

中国大模型的第四条路

过去两周，我们在情报速递里陆续写了几家中国大模型公司：

DeepSeek：极致性价比 + 科创板上市，走的是"成本驱动商业化"路线。
Qwen（阿里）：开源 + 全球化生态 + UEFA 六年合作，走的是"品牌出海"路线。
阶跃星辰：MoE + 智能体效率 + 本地可运行，走的是"端侧友好"路线。

MiniMax M3 走出了第四条路。

它的关键词是 "长上下文 + 编码 + 原生多模态 + 开源"**。它不是在某一个维度上做极致的，而是在多个维度上同时做到"够强"——然后打包成一个开源的、面向开发者的整体方案。

这个策略聪明的地方在于：它不跟 DeepSeek 比价格，不跟 Qwen 比品牌，不跟阶跃比端侧部署。它打的是一个组合拳——"你需要长上下文，你需要编码强，你需要原生多模态，我都给你，而且开源。"

四条路，四个方向，互不踩脚。当中国大模型的竞争从"谁能追上 GPT"变成"谁能在自己的赛道上定义标准"——这个行业的内生动力就出来了。

长上下文的真正价值

写到这里，你可能还是觉得——"长上下文跟我有什么关系？"

有关系。而且关系很大。

第一，Agent 工作流。一个真正有用的 AI Agent 不是"你问一句它答一句"——它需要记住你之前说的所有话，需要跟踪一个持续了三个小时的任务，需要在一次会话中处理几百个文件的代码变更。没有长上下文，Agent 就是一个七秒记忆的金鱼。

二，代码库理解。 MiniMax M3 在 SWE-Bench Pro 上拿 59%，靠的不只是编码能力——是靠 100 万 token 上下文把整个代码仓库一口吞进去，然后精准定位。传统模型做不到不是因为不够聪明，是因为记不住这么多代码。

第三，成本。 MSA 把 100 万 token 上下文的成本打到前代的 1/20。这意味着长上下文不再是"奢侈品功能"——是跟短上下文一样可以随便用的基础能力。当成本不再是瓶颈，应用的想象力才真正打开。

MiniMax 没有在博客里用"革命""颠覆"这些词。它只是列了一组数字，然后附上了 GitHub 链接和 API 入口。

但如果你能把 100 万 token 上下文当成默认配置来设计产品——你的 Agent 能记住整个项目的上下文，你的代码助手能一口吞下整个代码库，你的知识库产品不需要搞 RAG 分块——那你做的 AI 产品，跟用 4K 窗口做出来的一切，根本不是一个物种。

长上下文的天花板，不是被砸开的，是被算账算穿的。

*数据来源：MiniMax 官方博客、SWE-Bench 排行榜、各模型厂商公开数据*