“停下来问你‘是否继续’的AI,和停下来问你‘晚饭吃什么’的男朋友,本质上没有区别——都是没长大的表现。”
这才是Agent该有的样子
不知道你有没有这种体验:给AI Agent布置一个稍微复杂点的任务,它吭哧吭哧跑了三步,突然停下来说:“我已经完成了1、2、3,请问是否继续4、5、6、7?”
你说继续。它又跑了两步,又停了:“我已经完成了4、5,请问是否继续6、7?”
一个晚上下来,对话框里全是“继续”。
这不是你的prompt写得不好,也不是模型不够聪明。这是MiniMax在最新技术博客中一针见血指出的——“上下文焦虑”。说白了,模型不是不会做,而是不敢做。 每完成一步都怕做错,所以干一半就停下来等你拍板。
这种 “薛定谔的主动性” ,让无数打工人对Agent又爱又恨。
直到昨天,MiniMax桌面端完成了一次重大更新,推出了一个名为Mavis的新模式(MiniMax as a Jarvis的缩写)。实测之后,我只能说:这才是Agent该有的样子。
01 “三省六部”:用工程约束干掉AI的“玻璃心”
以前的多Agent框架是什么德行?靠提示词编排让模型“角色扮演”——你是Leader,你是Worker,你是Verifier。
听起来很美,实际上撑不了多久就会遇到:上下文焦虑、长程任务退化、自检失灵……因为这些角色本质上都是同一个模型在“精分”,它自己既是运动员又是裁判,当然会互相放水。
Mavis的不同之处在于:它不是让模型“演戏”,而是搭建了一套真实可用的“三省六部”基础设施。
这套基础设施叫做Team Engine,下面挂着三类核心角色:
Leader 🧠:负责拆解任务、分配工作、统筹协调 Worker 🔧:真正的执行者,干活但不验收 Verifier 🛡️:专职“挑刺”,和Worker之间是对抗关系
关键就在这里——Verifier和Worker是“铁面无私”的对抗关系,谁也蒙混过关。
我做了个实测。让Mavis研究一个课题,任务拆出了5个Worker。每个Worker完成后,Leader会整理结果并传递状态。
其中有一个Worker跑了12分钟还没返回结果。Leader等不及了,直接发了一条bash命令检查其工作状态——这哪里是AI,这分明是个催进度的项目经理。
02 实测:“甲方”Verifier如何让Worker“瑟瑟发抖”
5个Worker都完成后,Leader生成了5个Verifier(界面上显示为戴着“小黄帽”的Agent)。
Verifier很快就找到了错误!
其中一个Verifier发现了对应Worker交付成果中存在明确的数据错误,直接给出了“失败”的判罚。 紧接着,与之对应的Worker重新启动。
我点进那个Worker的工作区,看到了它的思考过程:
“Verifier拒绝了我之前的交付成果,基于以下三个错误……我需要返回去重新核查关键事实,并检查修正具体的数字问题……”
还别说,Agent跟Agent之间“铁面无私”,工作起来真的可靠。
在五组1v1的Agent对抗中,总共发生了数十次“打回重做”。过程中,Mavis还表示这次“学到了新东西”,并顺手更新了一下记忆。
03 复杂任务实测:一口气跑9个并行任务
上一个任务还在跑着,我开启了一个新的深度研究任务:基于权威口径数据分析五一假期的旅游市场,并交付一份多维度分析报告。
这个研究比刚才的任务更复杂,因为要持续对抗,Agent Team在深度研究上所花的时间,也远比一般的单Agent要长。
但我注意到一个关键差异:它从始至终没有停下来问我“是否继续”。
最终呈现的报告,和其他AI深度研究交付的内容相比,确实干净不少,也更加可信。
接着我又扔给它一个更复杂的任务:策划一场在广州举办的AI开发者线下沙龙。
需求是:提供多个适合百人/千人科技活动的场地及大概报价,抓取同类活动的信息,策划活动主题、宣传、运营的全部工作,整理成一份严格的商业计划书格式,以及符合主题特色、设计精美的网页。
光是制定计划的时间,就比之前的深度研究任务要长。Mavis回复:“这个任务规模很大,需要多个Agent并行工作——场地调研、竞品抓取、主题策划、商业计划书、网页开发。”
Mavis的过人之处,在于还可以持续追加新需求:
“给我长报告的同时,最好还能给我起草一份初步的正式合同,和场地的合作、以及和邀请嘉宾的合作、等等可能涉及的合同,还有前期的财务表格,再给我一份用来汇报这套方案的PPT,越详细越好。”
Agent Team收到新需求后,进一步完善计划并启动更多工作流。最终,我们启动了多达9个并行任务。
最终交付的文件数量达到了惊人的10多个,包括xls、ppt、html网页,以及对应的.md版本。
Agent Team生成的财务预算表格,包括项目预算总表、现金流预测、票价和赞助定价模型,以及成本明细台账。
04 最炸裂的特性:上下文隔离 + 多任务并行
除了“三省六部”的对抗式架构,Mavis还有两个让我直接 “跪了” 的特性。
1. 上下文隔离:每个Agent只看到该看的信息 🔒
和MiniMax此前已经支持的OpenClaw、Hermes Agent类似,Mavis也可以通过微信、飞书这两个IM管道来实现任务分配。接入流程极度简化——点击设置按钮、扫码、命名,就能在微信/飞书里面使用Mavis了。
但一般的Agent产品接入IM后有个致命缺陷:给它安排一项需要长时间完成的任务后,往往就不能再咨询别的问题了。
一部分原因在于这些Agent无法同时打开多个对话窗口;另一个原因则是Agent工作模式的限制——在一个会话里运行多个任务,极易出现语境错乱的情况,导致上下文污染。
Mavis的解决方案,是把“秒回”和“执行”的逻辑解耦。
我在飞书里让它研究最近石油涨价;任务开始之后,我又让它研究最近一个月硅谷AI巨头发布的重要产品。
Mavis没有停止之前的任务,直接告诉我新任务已经完成了,而石油涨价的任务还在处理。
每个Agent Team,以及Team里的每个Agent,都只看到跟自己任务相关的信息摘要,只有需要细节的时候才会去读全文。
这意味着什么?意味着在最极限场景下,你可以在极短时间内给它分配8个任务,都不会发生语境错乱的情况。
整个体验,很像跟一个认知带宽极高的同事共事:不仅能秒回信息,同时后台干活也不会被打断。想了解一下进度,大可直接问,不用担心干扰它的“心流”。
2. Token Plan和Agent Plan合并:统一额度,怎么花你说了算 💰
这次更新中,MiniMax还做了一件同样重要的事情:把Token Plan和Agent Plan合并了。
合并之后,无论是普通用户的日常使用(官网和App里对话、使用Agent),还是接入官方API来调用其他工具(例如coding产品或OpenClaw/Hermes Agent)——现在都可以使用统一的套餐额度了。
无论是M2.7以及后续的旗舰模型,还是音乐、视频、语音的多模态模型,全部包含在这一个套餐之下。 所有额度共享,怎么花用户可以自己说了算。
MiniMax还给出了福利:此前同时订阅两个方案的用户,将会额外送一个月的会员。
为什么要做这件事?站在用户视角其实很合理。
Agent时代,用户付费动机来自于对“模型算力”的需求,而这些需求的场景随着模型在coding、agent、多模态能力上的提升,只会变得愈发多元,会自然而然地发生在模型厂商的产品里(官网、独立产品、CLI)以及产品之外(接入外部API的独立部署的Agent)。
这其实也是各大AI巨头都在面对的问题:OpenAI目前用户订阅和API计费还是分开的,Anthropic同样;至于更小的Agent创业公司,则是用自己的订阅费用去代替用户支付底层的API费用。
这一次,MiniMax先一步把自己产品矩阵内部的墙拆掉了。
05 结语:不是AI不够聪明,而是它不该自己拍板
Mavis的意义,不在于让AI变得更聪明,而在于让那些真正复杂、知识密集型的任务,不再给模型自己“拍脑门”的机会。
它用一套经过验证的、有对抗、有核查、有权责划分和奖惩制度的工程系统,替代了模型自己“既要当裁判又要当选手”的经典难题。
其实在真正的人际工作中,我们也不需要一个同事“特别聪明”——只要他不偷懒、不耍小聪明、该交给别人的就交出去,往往就够了,不是吗?
多Agent一定多聪明吗?非也。但Mavis让AI更难偷懒,这本身就是大模型长期存在的老大难问题的终极解法。
⚡
📢 灵魂拷问时间(评论区交给你):
读完这篇深度实测,我特别想听听大家的真实看法:
1. 你觉得“三省六部”式的对抗式Agent架构,真的比单Agent更靠谱吗?还是说只是“杀鸡用牛刀”?
2. 如果你的老板突然开始用Mavis同时跑8个任务,你会觉得他是“AI先锋”还是“卷王附体”?
3. 面对越来越聪明的Agent系统,你认为普通打工人现在最该警惕什么?
快来评论区留下你的神吐槽或犀利预测!
如果你也认为Agent时代的“三省六部”才是正道,请毫不吝啬地点亮右下角的【赞】+【在看】+【转发】,把这篇文章甩进你的老板群和技术讨论组。
让我们一起,迎接AI“公务员化”的时代!
推荐阅读






温暖互助社群

愿我们都能:敢想敢干,健康、开心、幸福每一天。
✅ 永久免费:负债 | 残友 | 康复 | 求职
✅ 成长提升:自律 | AI 搞钱 | 脱单
关注公众号回复对应关键词,加入你的温暖圈子。

夜雨聆风