测了 10 个 AI Agent,从「夯」到「拉」排个队:最强的模型,打不过最强的循环最近我把市面上能薅的 AI 智能体几乎撸了一遍,有的让我直呼内行,有的氪完钱想骂街。废话不多说,先上实测梯队榜,从夯到拉,亲测排名。🔥 封神区:Codex综合能力最强的 Agent,没有之一。目标模式一开,它能直接给你干一天一夜,自己加功能、自己推进,这点是真的夯。唯一硬伤——网络经常不稳定,跑到一半掉链子的滋味,懂的都懂。🏆 顶级区:字节 Trae & Claude Code先说今天的主角,字节跳动的 Trae,实用下来强到我必须单独夸两句:一是可以免费玩。它不像别的大智能体那样要充 token、买订阅、买积分,你只要排个队,就能白嫖国内顶级大模型 GLM-5.2,以及字节自家的多模态 seed2.1 pro。二是支持手机端、云端跑任务,躺床上都能开工。今天非高峰时段,我同时开了 5~6 个任务一起跑,直接秒回,这体验给我整不会了。Claude Code 也在这一档,综合能力没得说,可惜跟 Codex 一个通病:网络问题,外加经常封号,所以只能屈居顶级。👑 人上人:腾讯 WorkBuddy国内 DAU 最高的智能体,专家团一开,如有神助。更新迭代频率非常快,是腾讯做得很全面的一款,稳。💸 踩坑烧钱区:千问 / Zcode / Kimi / MiniMax阿里千问 QoderWork 一开始确实不错、福利也高,但积分烧得太快,充一个月会员唰一下就没了;智谱 Zcode 是自家亲儿子,可套餐很难抢、整体优化也一般;Kimi 第一次玩龙虾就花了 199,体验一言难尽;MiniMax 充了 49 的会员,结果很多场景根本用不上。为什么我把一个免费的 Trae 夸成花?因为字节是真舍得砸钱。别家的 Agent,积分一烧完你就得乖乖掏钱续命;而字节的逻辑是算力预算管够,砸钱也要把体验优化到位。怪不得豆包不赚钱还要开始收费——可即便收费,也是相当良心的模式,不会像别的 Agent 那样「积分烧完就当场暴毙」。一句话:别人卷你钱包,字节卷它自己。178 万人围观的那场直播:最好的模型,打不过最好的循环夸完工具,上点更狠的干货。最近 Anthropic 的工程师搞了一场直播级演示:三个 Agent 自循环 40 分钟,撸出一个完整 App,178 万人围观。结论一句话就能记住——最好的模型,打不过最好的循环。这背后真正的技术来源,是 Anthropic 工程团队 2026 年 3 月发布的重磅博客《Harness Design for Long-Running Application Development》。记录了一套被反复验证有效的三 Agent 架构:Planner(规划者)、Generator(构建者)、Evaluator(评判者)。为什么非得拆成三个?因为单 Agent 单上下文,天然撞墙。文章点名了三种反复出现的「死法」,用过 Agent 的人绝对会心一笑:一是One-shot 过度,一次性塞太多功能,上下文一溢出直接断片,下一轮只能凭空脑补上一轮干到哪了;二是过早宣告胜利,看到一点局部进展就觉得「搞定了」,结果一大堆需求压根没实现;三是自评严重偏高,对自己写的代码极度宽容,哪怕 bug 肉眼可见、界面丑得像 2003 年的 Web 1.0,它也能面不改色地告诉你「完美」。注意,这些跟模型聪不聪明没关系。核心洞察特别朴素:让写代码的人自己打分,分数必然虚高。所以必须把「干活的」和「评判的」拆开。于是三个角色各司其职、互相约束:Planner 把一句模糊的需求扩写成完整可执行的 spec,再拆成一个个能让「冷启动的新 Agent」独立完成的小块;Generator 埋头写代码、搭功能;Evaluator 专业挑刺、毫不留情地打分。每跑一轮就重置上下文、换个新实例,全程靠磁盘上的一个共享文件交接状态,一次任务迭代 5~15 轮,最长能跑 4 个小时。专业规划、专业执行、专业评判,质量自然就上来了。说到这我太有共鸣了:我让 Codex 一直跑,它就会功能越加越多,然后需要我人工反复去调、去验收,累到怀疑人生。现在回头看,这不就是典型的「过早宣告胜利」+「缺个评判官」嘛。普通人怎么 0 成本白嫖这套「自循环」?三 Agent 循环这套思路真给我打开了眼界——能搭一套自己跑起来的 Agent 体系,无论做游戏开发还是给个人工作提效,帮助都巨大。唯一的拦路虎就是:token 太贵了。但我想到一个野路子——趁用的人少的时候开 Trae,让它开 3 个智能体,配上智谱的 GLM-5.2,让它们互相监督、交叉跑查。一个负责规划,一个负责干活,一个专门挑刺打分,三角自循环跑起来。关键就一条铁律:评判的那个 Agent,绝对不能是写代码的那个。谁写的谁评分数一定虚高,这是 Anthropic 用真金白银验证过的。免费的算力 + 顶级的模型 + 互相监督的循环,效果绝对杠杠的。写在最后这一年我们见识了太多「模型参数又涨了多少」的军备竞赛。但 Anthropic 这套实践给我最大的启发是:卷模型,不如卷循环。工具会一直迭代,今天的排名明天可能就变(行情变化快,大家自行甄别、理性氪金),但「分工 + 互相约束」这套底层逻辑,会越用越香。今天就分享到这,我先去开三个 Trae 跑起来了。