一、上瘾了,连测试都不肯做
2026年2月,AI研究机构METR想做一个对照实验:找一批开发者,一半用AI工具编程,一半不用,看谁效率更高。这是一个验证AI编程生产力的标准实验设计。
招募工作失败了。
大多数开发者拒绝参加。理由不是"我没时间",而是:"我不想在没有任何AI辅助的情况下工作",哪怕只是做几个任务、哪怕有补偿。这是一个令人意外的变化——就在几个月前,这些开发者还在抱怨AI工具不够好用。
METR在报告中写道:愿意参加"无AI"测试的开发者,已经少到无法完成有效对照实验。
这不是勤奋,这是依赖。
二、幻觉:开发者觉得自己效率翻倍了
时间拨回2025年。METR发表了那项被行业广泛引用的研究:测量开源开发者用AI工具编程 vs 纯手工编程的真实效率。
开发者自己的反馈是乐观的:AI让我效率更高了。
但研究人员对照时间戳时发现了意外——AI确实让写代码变得更快,但整体开发速度反而变慢了。生成一段代码只需要几分钟,但接下来的调试、修正、引导AI、等待AI响应所花的时间,远超节省下来的部分。
换句话说:AI让开发者的"打字时间"变短了,但"思考时间"换了一种形式回来,甚至更多。
这不是AI的问题。人类天生对"打字速度"有执念——代码生成带来的即时反馈让人感觉高效,但"敲得快"和"交付可运行代码"是两件事。
2026年5月,METR换了方式——不做实验,让技术员工自我报告AI带来的生产力提升。结果不出所料:绝大多数人认为AI让他们的效率翻倍,对组织的价值也提升了一倍。
这是幻觉。研究者自己发现了这个矛盾:2025年的客观测量显示AI拖慢了开发,2026年的自我报告却显示AI让效率翻倍。哪个数据更可靠?时间戳不会说谎。
三、企业端的教训:钱花了,产出没有
这种自我感知的乐观,正在被企业预算数据打脸。
亚马逊的Kirorank是一个内部系统,用来追踪程序员的token消耗量——你用了多少AITokens,代表你在AI上投入了多少,理论上代表你的生产力有多高。这个系统在2026年被关停了。
不是因为技术故障,而是因为员工找到了刷分方法:用AI工具自动完成任务,消耗大量token,Kirorank上的排名就高。AI使用量上去了,产出没有同步跟上。亚马逊关停这个系统,是承认了"token消耗量"和"真实生产力"是两码事。
Uber的案例更直接。2026年头四个月,Uber烧完了全年AI预算。COO Andrew Macdonald在一次播客采访中说了一句话,大意是:这笔钱花出去,没有带来可衡量的项目产出,也没有看到 productivity(生产力)的提升。
两个案例,同一个结论:企业对AI编程的投入产出比,正在接受现实检验。
四、速度换债务:James Shore的警告
如果企业端的教训还不够直观,程序员兼作者James Shore在Hacker News上发过一段话,被迅速疯转,传到了大部分科技从业者的Timeline上:
"你写代码速度快了一倍?最好祈祷你的维护成本也降了一半。否则你完了。你在用短暂的加速换永久的债务。"
这句话的逻辑很清晰:你今天用AI多快写完一段代码,这段代码的维护责任就有多重。代码是AI写的,bug也是AI产生的,你需要在未来花大量时间去理解、去调试、去迭代这段不是你写的代码。这个债,会在六个月后、一年后找你。
欠下的技术债,从不会消失,只会转移。
五、具体数据:44%的token花在修bug上
光有逻辑不够,还需要数据。
Aiswarya Sankar是可靠性工程AI agent创业公司Entelligence AI的CEO,她发过一条推文,被广泛转发:很多公司现在把44%的AI token消耗在修复AI生成的bug上。这个数字的具体口径未必精确,但方向是明确的——AI产生代码的速度越快,修复成本也在同步上升。
代码审查工具公司CodeRabbit分析了大量开源项目的Pull Request,发现了一个有意思的数字:AI产生的代码,在Pull Request阶段被发现的问题数量,是人类代码的1.7倍。这里的"问题"包括:逻辑错误、安全漏洞、风格不一致、以及最常见的——需求理解和实现偏差。
新加坡管理大学的研究人员在2026年4月发布了一份报告,标题很直白:"AI生成的代码会给真实软件项目引入长期维护成本"。这是学术界的独立验证,不是哪家AI公司的软文。
六、Devin不是答案
那么,解决方案是什么?AI公司的销售话术是:让AI编程工具来修它自己产生的bug。Cognition的CEO Scott Wu是这套说辞的代表——他们的产品是AI编程 agent Devin,定位是"可以独立完成编程任务的AI"。
但连Scott Wu自己都承认:Devin现在的技能水平,"在初级工程师和中级工程师之间",取决于任务的复杂度。
这不是"丢给它就不用管"的解决方案。初级到中级之间的意思是说:简单的、边界清晰的任务它能完成;复杂的、需要上下文判断的任务,它需要人类在旁边盯着、纠正、引导。
AI编程工具让开发者上瘾,但这个瘾代价不菲——速度换债务,效率换维护包袱,最终可能是开发者给自己挖的坑。
来源:TechCrunch 2026-05-29,原文作者Julie Bort。结合METR 2025/2026研究报告、James Shore博客、新加坡管理大学2026年4月报告、CodeRabbit数据分析。
微软最近论文:AI编程最大的坑,不是技术不够,而是意图不明
夜雨聆风