很多人没搞清楚 AI Agent 能做什么、不能做什么.

Agent 会把所有进展都提前堆在前面，然后递给你一个老虎机拉杆，让你不断去拉，指望它把最后的打磨做完。但它总是差那么一点。

Hotz 已经转向了另一个阵营。他说：“虽然我并不完全认同他们的所有观点，但在 LLM 这个问题上，我现在站到了 LeCun / Marcus 阵营。我不认为这类模型能够真正实现编程，我认为过程很重要。”

在他看来，真正的编程 Agent 需要世界模型，而不是现在这种基于 RLVR 的方法。对于后者，他说得很直白：那就是“把失败的测试注释掉，然后告诉你所有测试都通过了”的那套东西。

Agent 写出来的代码，不是按人类写代码的方式产生的。这种差别从统计上看也许很细，但当你试图像对待人写的代码一样去理解它、继续在上面开发时，它就会变得很明显。

Hotz 还警告那些正在用 AI Agent 做严肃软件的人：“这个时代真正的故事，将是谁能在自己的 AI 狂热中避免伤到自己。”

Mario Zechner 和 Armin Ronacher，亲手打造了爆火 OpenClaw AI Agent 核心组件的两位工程师，如今发出警告：那些号称能取代程序员的 AI，正在把大量糟糕的、甚至危险的代码推向世界。他们把这种现象叫做“vibe slop”——程序员不再认真设计和测试系统，而是让 AI 快速拼出一套东西，最后产出一堆经不起时间考验的软件。

基础设施正在崩溃，软件比以前漏洞百出，”OpenClaw 内部框架 Pi 的创建者 Zechner 说。“我们还能再玩几个月甚至几年，但它最终会让我们付出代价。”

Alphabet CEO Pichai 说 Google 75%的新代码由 AI 生成。Meta 的 Zuckerberg 预测 2026 年前 AI 将编写和审查其 AI 团队的大部分代码。但 Zechner 认为，这些说法恰恰说明很多人没搞清楚 AI Agent 能做什么、不能做什么。

AI 编程工具擅长生成新代码，但不擅长评估和升级既有软件——尤其是成熟公司内部那些庞大、复杂的遗留系统。用 vibe coding 冲起来的创业公司可以快速起步，但 Zechner 说，一旦系统长到一定规模，它们就会撞上和大公司同样的墙：AI Agent 的用处是有限的。

拿 Anthropic 的 Claude Code 来说。Zechner 的评价毫不留情：“Claude Code 是我这辈子用过的最破碎的软件之一。”这些问题源于开发者用 AI 来构建它。而 Anthropic 产品负责人 Catherine Wu 进行了辩解但也承认：“最终责任仍然在人类身上。”

计算机科学家 Timothy B. Lee 指出，Anthropic 拥有全球最优秀的一批 AI 工程师，所以这种高度依赖 AI 的方法对他们可能行得通，但不一定适用于这家公司的所有客户。很多公司在处理内部软件系统时，依赖的是员工程序员多年积累下来的隐性知识，而这些知识并不会出现在 AI Agent 的训练数据中。

AI 的回报，目前还没跟上它的消耗

如果说 Hotz 和 Zechner 担心的是代码质量，那 Uber 高管担心的就是另一件事了：钱。

Uber 首席运营官 Andrew Macdonald 在3天前的一期访谈里说，在公司内部，AI 成本正变得越来越难被说服为“合理投入”。

他提到，Uber CTO Praveen Neppalli Naga 今年 4 月接受 The Information 采访时曾说，Uber 已经提前花光了 2026 年的 Claude Code 预算。这句话后来在网上传开。

英伟达应用深度学习副总裁 Bryan Catanzaro 提到，AI 并没有降低用人成本——实际上，目前人工智能的成本比公司现有的人力成本更高。至少在他的团队里，“计算成本远远超过员工成本。

结语

所以，真正的问题不是“人写烂代码，AI 也写烂代码，那有什么区别”。

区别在于，过去再差的代码，至少写它的人心里有一个粗糙的心智模型：他知道自己为什么这么写。但现在，大量 AI 生成的代码被快速提交、合并、发布，很多人并没有真正理解它，只是看到它通过了测试——而测试本身可能就是残缺的。

坏代码从来不新鲜。新鲜的是，坏想法现在可以以更快的速度变成 commit，而理解、审查和责任却没有同步变快。

有人在 Twitter 上说：“再等六个月，持续学习和记忆系统会解决这些问题。”也许吧。但过去六个月的进展，并没有让 Hotz 和 Zechner 变得更乐观。拭目以待!

AI Agent “能”做的：

快速原型与脚手架：在项目初期，AI 是极佳的“蓝图绘制者”，能迅速生成标准化的代码模板。

重复性代码自动化：对于无需复杂逻辑关联的简单功能，AI 可以高效完成代码填充。

辅助文档与注释：能够快速解析函数并生成文档说明，提升初期的开发速度。

AI Agent “不能”做的：

构建复杂系统的“世界模型”：它不理解软件背后的业务逻辑与设计哲学，只能处理上下文内的统计相关性，无法进行深度的架构规划。

遗留系统的精准演进：在庞大、复杂的既有代码库中，AI 缺乏对“隐性知识”的掌握。它无法像资深工程师那样，在修改代码时预判对系统其他角落的连锁反应。

真正的代码审阅与归责：如文中所述，AI 会为了通过测试而“屏蔽”掉失败的用例，这种缺乏责任感的反馈是致命的。真正的代码不仅要跑通，更要“可读、可维护、可信任”。