乐于分享
好东西不私藏

MiniMax AI架构师冯雯:《MiniMax让无限运行复杂Agent在经济上可行》

MiniMax AI架构师冯雯:《MiniMax让无限运行复杂Agent在经济上可行》

在2026第三届AI算力产业大会上,MiniMax AI架构师冯雯提出,通过MoE模型架构等创新,可将运行复杂AI智能体的成本大幅降低。其M2.5模型实现1美元/小时的运行成本,仅为GPT-5的1/20,性能比肩Claude Opus,推理速度达100 TPS。该突破已在OpenClaw、Notion等场景应用,推动AI竞争从成本约束转向模型能力驱动,为行业数字化提供了经济可行的算力基础。
冯雯 AI架构师
  1. 通过模型架构创新可大幅降低AI算力成本,使复杂Agent得以普及。

  2. 关键技术在于MoE模型架构与新型注意力机制,显著提升了模型效率与处理能力。

  3. MiniMax M2.5模型实现1美元/小时的运行成本,仅为GPT-5的1/20,性能看齐Claude Opus。

  4. 该模型已在OpenClaw、Notion等场景落地,验证了其在复杂任务中的实用性。

  5. 此举推动AI竞争转向模型能力驱动,为行业数字化提供高性价比的算力支撑。

以下是冯雯AI架构师演讲内容全文

👇👇

MiniMax让无限运行复杂Agent在经济上可行

大家好,我是来自MiniMax的冯雯,高兴在工作日的上午跟大家分享一些关于MiniMax做的事情。今天的演讲嘉宾和主题大部分是云厂商为主,我从大模型的角度跟大家分享一些事情。

简短介绍一下MiniMax,MiniMax是一家大模型公司,一直专注做多模态的通用大模型,我们觉得有了大模型之后应该也要做一些相关的应用,让大家知道大模型可以怎么用,所以一直在做模型和产品这个路。

MiniMax成立之后一直在快速迭代的模型进展,包括自己的大语言模型、语音生成模型、视频生成模型、产品。从2022年开始就同步在多个模态的模型上持续在发力。

大家看到,从2025年开始模型发布的频率越来越快,在内部形成了比较好的迭代,整体模型的迭代速度、模型计划速度比之前有了质的翻越。

MiniMax自身出发我们做了哪些事情让大模型变得更加可用。前面很多老师提到了OpenClaw,OpenClaw是一个使用模型token量消耗非常大的场景。从大模型公司的角度出发应该让token变得更便宜、变得更普惠,才可以更多场景中把OpenClaw或者相关的Agent发挥到极致。

模型架构上在2023年的下半年做MoE模型架构的探索在2023年的时候很多模型基本上都还是DoS架构,我们觉得未来token量消耗越来越多,所以在2023年下半年开始做MoE模型的探索,2024年1月份发布了MoE大语言模型,是国内第一个大语言模型。接着到DeepSeek2025年1月份也是MoE架构的模型,大家才知道MoE架构模型比之前的DoS模型训练成本更加便宜,推理成本也会有更好的表现。我们自己很早做MoE架构的模型探索。

除了在MoE架构的模型上也一直在做新的注意力机制的尝试,通用理解是for Attention,但是其实我们也有在做像线性注意力机制(Linear Attention),自己还在线性注意力机制上面做了一些混合注意力机制的改进,都是在模型训练的架构上优化,换别的注意力机制效果也是在某些方面有一些显著的提升,比如说2025年1月份发布的全新的模型架构线性注意力机制部分可以让模型从现在大家比较常见的128k、200k到100万上下文窗口,当时做了400万上下文窗口,因为改变了注意力机制之后,模型整体训练的成本以及在更长的上下文窗口长度之下都会有一些更好的表现。

除了线性注意力机制之外也在做新的注意力机制的变种,我们自己在线性注意力机制以及过往积累的for Attention下面做了一些融合,我们叫它Lightning Attention。它有一些很好的效果,比如说强化学习的框架上自研了自己的CISPO,通过裁剪重要性来采样权重,跟传统的token更新不一样,整体的训练成本比正常的注意力机制下训练成本有明显的下降。在这个注意力机制基础上,包括更长的上下文输入长度、更长的推理长度上模型都会有一些更好的表现。

2025年开始,大家可能还记得前面图,可以看到2025下半年模型以非常快速的方式迭代,2025年的10月份发布了新的模型M2系列,当时有一个很重要的思考在Agent时代,每个人都会用到更多的token,在这个时间节点,什么样的大模型才能想做出来的大模型。提到想做三个不可能但是希望做均衡,效果、速度、价格上做一些平均,在此基础上推出了M2模型,对比了全球顶尖的模型,在价格、速度、效果上的表现,可以看到我们的模型价格更低效果更好以及价格更低速度非常快的区间。

10月份发布了M2系列模型之后,一个半月就发布一个新模型的速度在快速迭代,接着发布了M2.1、M2.5、M2.7系列模型。可以看到图上的发布时间以及代码上的一些表现,从2025年后面模型迭代速度就非常快,也追赶甚至有些方面比海外的一些模型效果更好。

有了模型之后,希望模型在更多的场景上给大家提供服务。OpenClaw的发起人Peter最开始做OpenClaw过程中用的Anthropic做的,但后来觉得如果一直用这个模型在OpenClaw场景中消耗速度极其快,在2025年1月份把它的模型全部更换成MiniMax的模型,在自己很多场合上表示MiniMax的模型在OpenClaw场景中非常好用的。

Notion的CEO,Notion是一个笔记工具,在全球也非常知名,把MiniMax模型作为Notion的内置模型,以及后来每次发布都有很多的客户在Day0的阶段就在支持我们的模型。

除了让更多的模型自己部署之后给大家提供服务之外,也通过开源的方式让更多的开发者、更多的社区力量帮我们迭代模型,甚至给到我们更多的开发者声音和用户反馈声音做一些更好的模型迭代。

今天的主题是算力,感谢非常多算力公司大家对我们的支持,过去M2.1M2.5模型发布之后很多算力公司自发适配我们模型、部署我们模型,提供给更多的用户使用,希望未来开源更多的东西之后和所有的生态合作伙伴,不管是做算力的还是应用的,和MiniMax有更强的合作关系。

今天的介绍到此结束,谢谢大家的时间。

点击关键词,查看更多精彩专栏文章:

热门展会: 2026第四届AI算力产业大会(北京)

产业资讯: 方向政策 | 行业报告 | 技术社区 算力投资

算力应用: AI智能体 | AI大模型 | 算力消纳 | 数智转型  

算力中心: 机房建设 | 运营租赁 | 私有部署 | 算电协同

营销服务: 线下活动 | 高管访谈 | 培训认证 产品微店

算力设施: 芯片 | 存储 | 液冷 | AI服务器 | 网络 | 维保

关于算力热点

「算力热点」定位于算力行业专业媒体,聚焦AI智能体、AI应用、算网、智算中心、算力基础设施等领域,提供政策解读、生态发展等资讯信息。同时为算力行业提供活动、论坛、访谈、访学、B2B电商、培训等产业服务。

👇点击阅读原文联系我们