🔥 封神区：Codex

综合能力最强的 Agent，没有之一。目标模式一开，它能直接给你干一天一夜，自己加功能、自己推进，这点是真的夯。唯一硬伤——网络经常不稳定，跑到一半掉链子的滋味，懂的都懂。

🏆 顶级区：字节 Trae & Claude Code

先说今天的主角，字节跳动的 Trae，实用下来强到我必须单独夸两句：

一是可以免费玩。它不像别的大智能体那样要充 token、买订阅、买积分，你只要排个队，就能白嫖国内顶级大模型 GLM-5.2，以及字节自家的多模态 seed2.1 pro。

二是支持手机端、云端跑任务，躺床上都能开工。今天非高峰时段，我同时开了 5~6 个任务一起跑，直接秒回，这体验给我整不会了。

Claude Code 也在这一档，综合能力没得说，可惜跟 Codex 一个通病：网络问题，外加经常封号，所以只能屈居顶级。

👑 人上人：腾讯 WorkBuddy

国内 DAU 最高的智能体，专家团一开，如有神助。更新迭代频率非常快，是腾讯做得很全面的一款，稳。

💸 踩坑烧钱区：千问 / Zcode / Kimi / MiniMax

阿里千问 QoderWork 一开始确实不错、福利也高，但积分烧得太快，充一个月会员唰一下就没了；智谱 Zcode 是自家亲儿子，可套餐很难抢、整体优化也一般；Kimi 第一次玩龙虾就花了 199，体验一言难尽；MiniMax 充了 49 的会员，结果很多场景根本用不上。

为什么我把一个免费的 Trae 夸成花？

因为字节是真舍得砸钱。别家的 Agent，积分一烧完你就得乖乖掏钱续命；而字节的逻辑是算力预算管够，砸钱也要把体验优化到位。怪不得豆包不赚钱还要开始收费——可即便收费，也是相当良心的模式，不会像别的 Agent 那样「积分烧完就当场暴毙」。

一句话：别人卷你钱包，字节卷它自己。

178 万人围观的那场直播：最好的模型，打不过最好的循环

夸完工具，上点更狠的干货。最近 Anthropic 的工程师搞了一场直播级演示：三个 Agent 自循环 40 分钟，撸出一个完整 App，178 万人围观。结论一句话就能记住——

最好的模型，打不过最好的循环。

这背后真正的技术来源，是 Anthropic 工程团队 2026 年 3 月发布的重磅博客《Harness Design for Long-Running Application Development》。记录了一套被反复验证有效的三 Agent 架构：Planner（规划者）、Generator（构建者）、Evaluator（评判者）。

为什么非得拆成三个？因为单 Agent 单上下文，天然撞墙。文章点名了三种反复出现的「死法」，用过 Agent 的人绝对会心一笑：

一是One-shot 过度，一次性塞太多功能，上下文一溢出直接断片，下一轮只能凭空脑补上一轮干到哪了；

二是过早宣告胜利，看到一点局部进展就觉得「搞定了」，结果一大堆需求压根没实现；

三是自评严重偏高，对自己写的代码极度宽容，哪怕 bug 肉眼可见、界面丑得像 2003 年的 Web 1.0，它也能面不改色地告诉你「完美」。

注意，这些跟模型聪不聪明没关系。核心洞察特别朴素：让写代码的人自己打分，分数必然虚高。所以必须把「干活的」和「评判的」拆开。于是三个角色各司其职、互相约束：Planner 把一句模糊的需求扩写成完整可执行的 spec，再拆成一个个能让「冷启动的新 Agent」独立完成的小块；Generator 埋头写代码、搭功能；Evaluator 专业挑刺、毫不留情地打分。

每跑一轮就重置上下文、换个新实例，全程靠磁盘上的一个共享文件交接状态，一次任务迭代 5~15 轮，最长能跑 4 个小时。专业规划、专业执行、专业评判，质量自然就上来了。

说到这我太有共鸣了：我让 Codex 一直跑，它就会功能越加越多，然后需要我人工反复去调、去验收，累到怀疑人生。现在回头看，这不就是典型的「过早宣告胜利」+「缺个评判官」嘛。

普通人怎么 0 成本白嫖这套「自循环」？

三 Agent 循环这套思路真给我打开了眼界——能搭一套自己跑起来的 Agent 体系，无论做游戏开发还是给个人工作提效，帮助都巨大。唯一的拦路虎就是：token 太贵了。

但我想到一个野路子——趁用的人少的时候开 Trae，让它开 3 个智能体，配上智谱的 GLM-5.2，让它们互相监督、交叉跑查。一个负责规划，一个负责干活，一个专门挑刺打分，三角自循环跑起来。关键就一条铁律：评判的那个 Agent，绝对不能是写代码的那个。谁写的谁评分数一定虚高，这是 Anthropic 用真金白银验证过的。免费的算力 + 顶级的模型 + 互相监督的循环，效果绝对杠杠的。

写在最后

这一年我们见识了太多「模型参数又涨了多少」的军备竞赛。但 Anthropic 这套实践给我最大的启发是：卷模型，不如卷循环。工具会一直迭代，今天的排名明天可能就变（行情变化快，大家自行甄别、理性氪金），但「分工 + 互相约束」这套底层逻辑，会越用越香。

今天就分享到这，我先去开三个 Trae 跑起来了。