当所有人都盯着参数量时,MiniMax悄悄在做注意力机制的底层改造。
一
你可能没听说过MiniMax的模型,但你大概率听说过它的产品。
Talkie——海外最火的AI陪伴应用之一,数千万用户,在Z世代中渗透率惊人。Glow——国内版本,同样积累了庞大的用户基础。
MiniMax在中文圈的形象很清晰:「做AI陪伴的那家中国公司」。
所以当VentureBeat在5月27日报道MiniMax预告其M3模型,核心亮点是一个新的注意力机制——MiniMax Sparse Attention(MSA),长上下文响应速度提升15.6倍——这条消息产生了有趣的认知错位。
做AI陪伴的公司,开始做最硬的架构创新了。
二
先看懂为什么这件事比「又发了一个新模型」重要得多。
当前所有主流大模型——GPT、Claude、Gemini、DeepSeek——都基于Transformer架构。Transformer的核心是注意力机制(Attention),它的计算复杂度是O(n²)。当上下文长度翻倍,计算量翻四倍。
这正是你的AI聊天在处理长文档时会卡顿、超时的根本原因。
业界有多条路线在解决这个问题:Mistral的滑动窗口注意力、Google的线性注意力,各显神通。MiniMax加入的,正是这场「注意力机制优化竞赛」——这是Transformer架构的底层改造,比单纯堆参数量难得多,也比发一篇新模型评测有更长的技术半衰期。
MSA声称的长上下文响应速度提升15.6倍,如果落地为可用的API或开源实现,意味着今天需要15秒处理完的10万字长文档,未来可能只需要1秒。
这不是渐进式改进,这是成本结构的质变。
三
这件事的信息差在于:中文媒体几乎没有报道。
与此同时,VentureBeat已经用「Exclusive」标签发出深度报道。MiniMax选择了英文科技媒体首发M3的技术细节,说明它的目标市场不仅是国内。
这不是某个大厂的战略发布会,不是融资PR稿,而是一个中国AI公司在学术和工程层面做出的原创贡献——在注意力机制这个Transformer最核心、竞争最激烈的领域。
四
如果把这条信号和同期事件放在一起看,趋势更清晰了。
蚂蚁集团CEO韩歆毅在支付宝AI生态大会上提出:未来会有1400亿个Agent,流量的逻辑会失效,信任的逻辑会崛起。这是一家中国互联网巨头对Agent时代最系统的战略表态。
而MiniMax的MSA,解决的正是Agent时代的核心基础设施问题——当Agent需要处理长上下文(用户历史、知识库、代码库)时,推理能不能做到足够快、足够便宜。
这两个信号指向同一个方向:中国AI公司和平台正在从「追平」转向「定义」。
结语
MiniMax M3还处于预告阶段,正式发布前的基准测试数据尚未公开,15.6倍是否能在真实场景中复现有待验证。稀疏注意力方案一直面临的核心争议——精度和质量的权衡——MSA也尚未给出完整答案。
当一家被中国科技圈标记为「做AI陪伴的公司」开始做注意力机制的原创架构创新,这意味着中国AI的竞争维度在升级。从模型层(参数量竞赛)到平台层(Agent基础设施)再到架构层(Transformer底层改造),三个层次同时在发生不属于「追赶」的变化。
夜雨聆风