
Agent 会把所有进展都提前堆在前面,然后递给你一个老虎机拉杆,让你不断去拉,指望它把最后的打磨做完。但它总是差那么一点。
Hotz 已经转向了另一个阵营。他说:“虽然我并不完全认同他们的所有观点,但在 LLM 这个问题上,我现在站到了 LeCun / Marcus 阵营。我不认为这类模型能够真正实现编程,我认为过程很重要。”
在他看来,真正的编程 Agent 需要世界模型,而不是现在这种基于 RLVR 的方法。对于后者,他说得很直白:那就是“把失败的测试注释掉,然后告诉你所有测试都通过了”的那套东西。
Agent 写出来的代码,不是按人类写代码的方式产生的。这种差别从统计上看也许很细,但当你试图像对待人写的代码一样去理解它、继续在上面开发时,它就会变得很明显。
Hotz 还警告那些正在用 AI Agent 做严肃软件的人:“这个时代真正的故事,将是谁能在自己的 AI 狂热中避免伤到自己。”
Mario Zechner 和 Armin Ronacher,亲手打造了爆火 OpenClaw AI Agent 核心组件的两位工程师,如今发出警告:那些号称能取代程序员的 AI,正在把大量糟糕的、甚至危险的代码推向世界。他们把这种现象叫做“vibe slop”——程序员不再认真设计和测试系统,而是让 AI 快速拼出一套东西,最后产出一堆经不起时间考验的软件。
基础设施正在崩溃,软件比以前漏洞百出,”OpenClaw 内部框架 Pi 的创建者 Zechner 说。“我们还能再玩几个月甚至几年,但它最终会让我们付出代价。”
Alphabet CEO Pichai 说 Google 75%的新代码由 AI 生成。Meta 的 Zuckerberg 预测 2026 年前 AI 将编写和审查其 AI 团队的大部分代码。但 Zechner 认为,这些说法恰恰说明很多人没搞清楚 AI Agent 能做什么、不能做什么。
AI 编程工具擅长生成新代码,但不擅长评估和升级既有软件——尤其是成熟公司内部那些庞大、复杂的遗留系统。用 vibe coding 冲起来的创业公司可以快速起步,但 Zechner 说,一旦系统长到一定规模,它们就会撞上和大公司同样的墙:AI Agent 的用处是有限的。
拿 Anthropic 的 Claude Code 来说。Zechner 的评价毫不留情:“Claude Code 是我这辈子用过的最破碎的软件之一。”这些问题源于开发者用 AI 来构建它。而 Anthropic 产品负责人 Catherine Wu 进行了辩解但也承认:“最终责任仍然在人类身上。”
计算机科学家 Timothy B. Lee 指出,Anthropic 拥有全球最优秀的一批 AI 工程师,所以这种高度依赖 AI 的方法对他们可能行得通,但不一定适用于这家公司的所有客户。很多公司在处理内部软件系统时,依赖的是员工程序员多年积累下来的隐性知识,而这些知识并不会出现在 AI Agent 的训练数据中。
AI 的回报,目前还没跟上它的消耗
如果说 Hotz 和 Zechner 担心的是代码质量,那 Uber 高管担心的就是另一件事了:钱。
Uber 首席运营官 Andrew Macdonald 在3天前的一期访谈里说,在公司内部,AI 成本正变得越来越难被说服为“合理投入”。
他提到,Uber CTO Praveen Neppalli Naga 今年 4 月接受 The Information 采访时曾说,Uber 已经提前花光了 2026 年的 Claude Code 预算。这句话后来在网上传开。
英伟达应用深度学习副总裁 Bryan Catanzaro 提到,AI 并没有降低用人成本——实际上,目前人工智能的成本比公司现有的人力成本更高。至少在他的团队里,“计算成本远远超过员工成本。
结语
所以,真正的问题不是“人写烂代码,AI 也写烂代码,那有什么区别”。
区别在于,过去再差的代码,至少写它的人心里有一个粗糙的心智模型:他知道自己为什么这么写。但现在,大量 AI 生成的代码被快速提交、合并、发布,很多人并没有真正理解它,只是看到它通过了测试——而测试本身可能就是残缺的。
坏代码从来不新鲜。新鲜的是,坏想法现在可以以更快的速度变成 commit,而理解、审查和责任却没有同步变快。
有人在 Twitter 上说:“再等六个月,持续学习和记忆系统会解决这些问题。”也许吧。但过去六个月的进展,并没有让 Hotz 和 Zechner 变得更乐观。拭目以待!

AI Agent “能”做的:
快速原型与脚手架: 在项目初期,AI 是极佳的“蓝图绘制者”,能迅速生成标准化的代码模板。
重复性代码自动化: 对于无需复杂逻辑关联的简单功能,AI 可以高效完成代码填充。
辅助文档与注释: 能够快速解析函数并生成文档说明,提升初期的开发速度。
AI Agent “不能”做的:
构建复杂系统的“世界模型”: 它不理解软件背后的业务逻辑与设计哲学,只能处理上下文内的统计相关性,无法进行深度的架构规划。
遗留系统的精准演进: 在庞大、复杂的既有代码库中,AI 缺乏对“隐性知识”的掌握。它无法像资深工程师那样,在修改代码时预判对系统其他角落的连锁反应。
真正的代码审阅与归责: 如文中所述,AI 会为了通过测试而“屏蔽”掉失败的用例,这种缺乏责任感的反馈是致命的。真正的代码不仅要跑通,更要“可读、可维护、可信任”。
夜雨聆风