实测Mavis:让AI自己“三省六部”,12分钟不偷懒,这才是Agent该有的样子

“停下来问你‘是否继续’的AI，和停下来问你‘晚饭吃什么’的男朋友，本质上没有区别——都是没长大的表现。”

这才是Agent该有的样子

不知道你有没有这种体验：给AI Agent布置一个稍微复杂点的任务，它吭哧吭哧跑了三步，突然停下来说：“我已经完成了1、2、3，请问是否继续4、5、6、7？”

你说继续。它又跑了两步，又停了：“我已经完成了4、5，请问是否继续6、7？”

一个晚上下来，对话框里全是“继续”。

这不是你的prompt写得不好，也不是模型不够聪明。这是MiniMax在最新技术博客中一针见血指出的——“上下文焦虑”。说白了，模型不是不会做，而是不敢做。 每完成一步都怕做错，所以干一半就停下来等你拍板。

这种 “薛定谔的主动性” ，让无数打工人对Agent又爱又恨。

直到昨天，MiniMax桌面端完成了一次重大更新，推出了一个名为Mavis的新模式（MiniMax as a Jarvis的缩写）。实测之后，我只能说：这才是Agent该有的样子。

01 “三省六部”：用工程约束干掉AI的“玻璃心”

以前的多Agent框架是什么德行？靠提示词编排让模型“角色扮演”——你是Leader，你是Worker，你是Verifier。

听起来很美，实际上撑不了多久就会遇到：上下文焦虑、长程任务退化、自检失灵……因为这些角色本质上都是同一个模型在“精分”，它自己既是运动员又是裁判，当然会互相放水。

Mavis的不同之处在于：它不是让模型“演戏”，而是搭建了一套真实可用的“三省六部”基础设施。

这套基础设施叫做Team Engine，下面挂着三类核心角色：

Leader 🧠：负责拆解任务、分配工作、统筹协调
Worker 🔧：真正的执行者，干活但不验收
Verifier 🛡️：专职“挑刺”，和Worker之间是对抗关系

关键就在这里——Verifier和Worker是“铁面无私”的对抗关系，谁也蒙混过关。

我做了个实测。让Mavis研究一个课题，任务拆出了5个Worker。每个Worker完成后，Leader会整理结果并传递状态。

其中有一个Worker跑了12分钟还没返回结果。Leader等不及了，直接发了一条bash命令检查其工作状态——这哪里是AI，这分明是个催进度的项目经理。

02 实测：“甲方”Verifier如何让Worker“瑟瑟发抖”

5个Worker都完成后，Leader生成了5个Verifier（界面上显示为戴着“小黄帽”的Agent）。

Verifier很快就找到了错误！

其中一个Verifier发现了对应Worker交付成果中存在明确的数据错误，直接给出了“失败”的判罚。 紧接着，与之对应的Worker重新启动。

我点进那个Worker的工作区，看到了它的思考过程：

“Verifier拒绝了我之前的交付成果，基于以下三个错误……我需要返回去重新核查关键事实，并检查修正具体的数字问题……”

还别说，Agent跟Agent之间“铁面无私”，工作起来真的可靠。

在五组1v1的Agent对抗中，总共发生了数十次“打回重做”。过程中，Mavis还表示这次“学到了新东西”，并顺手更新了一下记忆。

03 复杂任务实测：一口气跑9个并行任务

上一个任务还在跑着，我开启了一个新的深度研究任务：基于权威口径数据分析五一假期的旅游市场，并交付一份多维度分析报告。

这个研究比刚才的任务更复杂，因为要持续对抗，Agent Team在深度研究上所花的时间，也远比一般的单Agent要长。

但我注意到一个关键差异：它从始至终没有停下来问我“是否继续”。

最终呈现的报告，和其他AI深度研究交付的内容相比，确实干净不少，也更加可信。

接着我又扔给它一个更复杂的任务：策划一场在广州举办的AI开发者线下沙龙。

需求是：提供多个适合百人/千人科技活动的场地及大概报价，抓取同类活动的信息，策划活动主题、宣传、运营的全部工作，整理成一份严格的商业计划书格式，以及符合主题特色、设计精美的网页。

光是制定计划的时间，就比之前的深度研究任务要长。Mavis回复：“这个任务规模很大，需要多个Agent并行工作——场地调研、竞品抓取、主题策划、商业计划书、网页开发。”

Mavis的过人之处，在于还可以持续追加新需求：

“给我长报告的同时，最好还能给我起草一份初步的正式合同，和场地的合作、以及和邀请嘉宾的合作、等等可能涉及的合同，还有前期的财务表格，再给我一份用来汇报这套方案的PPT，越详细越好。”

Agent Team收到新需求后，进一步完善计划并启动更多工作流。最终，我们启动了多达9个并行任务。

最终交付的文件数量达到了惊人的10多个，包括xls、ppt、html网页，以及对应的.md版本。

Agent Team生成的财务预算表格，包括项目预算总表、现金流预测、票价和赞助定价模型，以及成本明细台账。

04 最炸裂的特性：上下文隔离 + 多任务并行

除了“三省六部”的对抗式架构，Mavis还有两个让我直接 “跪了” 的特性。

1. 上下文隔离：每个Agent只看到该看的信息 🔒

和MiniMax此前已经支持的OpenClaw、Hermes Agent类似，Mavis也可以通过微信、飞书这两个IM管道来实现任务分配。接入流程极度简化——点击设置按钮、扫码、命名，就能在微信/飞书里面使用Mavis了。

但一般的Agent产品接入IM后有个致命缺陷：给它安排一项需要长时间完成的任务后，往往就不能再咨询别的问题了。

一部分原因在于这些Agent无法同时打开多个对话窗口；另一个原因则是Agent工作模式的限制——在一个会话里运行多个任务，极易出现语境错乱的情况，导致上下文污染。

Mavis的解决方案，是把“秒回”和“执行”的逻辑解耦。

我在飞书里让它研究最近石油涨价；任务开始之后，我又让它研究最近一个月硅谷AI巨头发布的重要产品。

Mavis没有停止之前的任务，直接告诉我新任务已经完成了，而石油涨价的任务还在处理。

每个Agent Team，以及Team里的每个Agent，都只看到跟自己任务相关的信息摘要，只有需要细节的时候才会去读全文。

这意味着什么？意味着在最极限场景下，你可以在极短时间内给它分配8个任务，都不会发生语境错乱的情况。

整个体验，很像跟一个认知带宽极高的同事共事：不仅能秒回信息，同时后台干活也不会被打断。想了解一下进度，大可直接问，不用担心干扰它的“心流”。

2. Token Plan和Agent Plan合并：统一额度，怎么花你说了算 💰

这次更新中，MiniMax还做了一件同样重要的事情：把Token Plan和Agent Plan合并了。

合并之后，无论是普通用户的日常使用（官网和App里对话、使用Agent），还是接入官方API来调用其他工具（例如coding产品或OpenClaw/Hermes Agent）——现在都可以使用统一的套餐额度了。

无论是M2.7以及后续的旗舰模型，还是音乐、视频、语音的多模态模型，全部包含在这一个套餐之下。 所有额度共享，怎么花用户可以自己说了算。

MiniMax还给出了福利：此前同时订阅两个方案的用户，将会额外送一个月的会员。

为什么要做这件事？站在用户视角其实很合理。

Agent时代，用户付费动机来自于对“模型算力”的需求，而这些需求的场景随着模型在coding、agent、多模态能力上的提升，只会变得愈发多元，会自然而然地发生在模型厂商的产品里（官网、独立产品、CLI）以及产品之外（接入外部API的独立部署的Agent）。

这其实也是各大AI巨头都在面对的问题：OpenAI目前用户订阅和API计费还是分开的，Anthropic同样；至于更小的Agent创业公司，则是用自己的订阅费用去代替用户支付底层的API费用。

这一次，MiniMax先一步把自己产品矩阵内部的墙拆掉了。

05 结语：不是AI不够聪明，而是它不该自己拍板

Mavis的意义，不在于让AI变得更聪明，而在于让那些真正复杂、知识密集型的任务，不再给模型自己“拍脑门”的机会。

它用一套经过验证的、有对抗、有核查、有权责划分和奖惩制度的工程系统，替代了模型自己“既要当裁判又要当选手”的经典难题。

其实在真正的人际工作中，我们也不需要一个同事“特别聪明”——只要他不偷懒、不耍小聪明、该交给别人的就交出去，往往就够了，不是吗？

多Agent一定多聪明吗？非也。但Mavis让AI更难偷懒，这本身就是大模型长期存在的老大难问题的终极解法。

⚡

📢 灵魂拷问时间（评论区交给你）：

读完这篇深度实测，我特别想听听大家的真实看法：

1. 你觉得“三省六部”式的对抗式Agent架构，真的比单Agent更靠谱吗？还是说只是“杀鸡用牛刀”？

2. 如果你的老板突然开始用Mavis同时跑8个任务，你会觉得他是“AI先锋”还是“卷王附体”？

3. 面对越来越聪明的Agent系统，你认为普通打工人现在最该警惕什么？

快来评论区留下你的神吐槽或犀利预测！

如果你也认为Agent时代的“三省六部”才是正道，请毫不吝啬地点亮右下角的【赞】+【在看】+【转发】，把这篇文章甩进你的老板群和技术讨论组。

让我们一起，迎接AI“公务员化”的时代！