做AI陪伴的公司,做了最硬的架构创新

当所有人都盯着参数量时，MiniMax悄悄在做注意力机制的底层改造。

一

你可能没听说过MiniMax的模型，但你大概率听说过它的产品。

Talkie——海外最火的AI陪伴应用之一，数千万用户，在Z世代中渗透率惊人。Glow——国内版本，同样积累了庞大的用户基础。

MiniMax在中文圈的形象很清晰：「做AI陪伴的那家中国公司」。

所以当VentureBeat在5月27日报道MiniMax预告其M3模型，核心亮点是一个新的注意力机制——MiniMax Sparse Attention（MSA），长上下文响应速度提升15.6倍——这条消息产生了有趣的认知错位。

做AI陪伴的公司，开始做最硬的架构创新了。

先看懂为什么这件事比「又发了一个新模型」重要得多。

当前所有主流大模型——GPT、Claude、Gemini、DeepSeek——都基于Transformer架构。Transformer的核心是注意力机制（Attention），它的计算复杂度是O(n²)。当上下文长度翻倍，计算量翻四倍。

这正是你的AI聊天在处理长文档时会卡顿、超时的根本原因。

业界有多条路线在解决这个问题：Mistral的滑动窗口注意力、Google的线性注意力，各显神通。MiniMax加入的，正是这场「注意力机制优化竞赛」——这是Transformer架构的底层改造，比单纯堆参数量难得多，也比发一篇新模型评测有更长的技术半衰期。

MSA声称的长上下文响应速度提升15.6倍，如果落地为可用的API或开源实现，意味着今天需要15秒处理完的10万字长文档，未来可能只需要1秒。

这不是渐进式改进，这是成本结构的质变。

这件事的信息差在于：中文媒体几乎没有报道。

与此同时，VentureBeat已经用「Exclusive」标签发出深度报道。MiniMax选择了英文科技媒体首发M3的技术细节，说明它的目标市场不仅是国内。

这不是某个大厂的战略发布会，不是融资PR稿，而是一个中国AI公司在学术和工程层面做出的原创贡献——在注意力机制这个Transformer最核心、竞争最激烈的领域。

如果把这条信号和同期事件放在一起看，趋势更清晰了。

蚂蚁集团CEO韩歆毅在支付宝AI生态大会上提出：未来会有1400亿个Agent，流量的逻辑会失效，信任的逻辑会崛起。这是一家中国互联网巨头对Agent时代最系统的战略表态。

而MiniMax的MSA，解决的正是Agent时代的核心基础设施问题——当Agent需要处理长上下文（用户历史、知识库、代码库）时，推理能不能做到足够快、足够便宜。

这两个信号指向同一个方向：中国AI公司和平台正在从「追平」转向「定义」。

MiniMax M3还处于预告阶段，正式发布前的基准测试数据尚未公开，15.6倍是否能在真实场景中复现有待验证。稀疏注意力方案一直面临的核心争议——精度和质量的权衡——MSA也尚未给出完整答案。

当一家被中国科技圈标记为「做AI陪伴的公司」开始做注意力机制的原创架构创新，这意味着中国AI的竞争维度在升级。从模型层（参数量竞赛）到平台层（Agent基础设施）再到架构层（Transformer底层改造），三个层次同时在发生不属于「追赶」的变化。