上周看到一组新数据,让我沉默了很久。
Sonar最新报告:72%的开发者每天使用AI编码工具,42%的代码已经由AI生成或辅助完成。但仅不到三成的开发者完全信任AI代码输出。
这意味着什么?代码可以由AI批量生成,但大部分开发者对AI代码仍有信任顾虑。
2026年,AI编程正在从"怎么写出更多代码",转向一个更棘手的问题:谁敢拍板说"上线"?
━━━━━━━━━━━━━━━━━━━━
01
AI编程的"长期迭代失效"问题
我不是要否定AI编程工具。GitHub数据显示,AI已经生成了全球超过一半的代码,这个趋势不可逆。
但问题在于:我们对AI编程的理解,可能从根上就错了。
AI擅长"单点修复",但搞不定"持续演进"。
今年3月,MIT和威斯康星大学发布了一项重磅研究。他们测试了当前最强的11个AI模型,包括Claude Opus 4.6、GPT 5.4、GLM 4.7等等。结果令人震惊:
没有任何一个模型能完整完成任何一个长期项目。最强的Claude Opus 4.6,严格通过率只有17.2%。
更扎心的是:在80%的项目中,代码结构侵蚀随迭代持续上升。在89.8%的项目中,冗余度一路走高。
什么意思呢?就是你让AI帮你写一个功能,第一版可能还行。但一个月后加新需求,代码就开始变乱。三个月后,你可能连自己都看不懂了。
有个具体案例:研究者在测试一个电路模拟器任务时,Claude Opus 4.6的main函数从最初的84行膨胀到了1099行,圈复杂度从29飙升到285。
你辛辛苦苦迭代三个月,出来的代码,可能还不如一个程序员维护了十年的"屎山"健康。
同期,USC、Stanford、Princeton等顶尖高校联合发布了另一个研究。他们的基准测试揭示了类似结论:
AI在"持续演进"场景中的表现,会从得分超过80%,断崖式下跌到最高不到40%。长期自主迭代的成功率只有13.37%。
研究者打了个比方:现有评测就像只考"一次性完成作业",却忽视了真实考试是"期末考试"——需要在前面所学的基础上持续学习、迭代应用。
━━━━━━━━━━━━━━━━━━━━
02
安全问题才是最大的雷
说到AI生成代码的安全问题,很多人觉得离自己远。
我们来看今年的数据:
Code Rabbit分析了470个开源PR,发现AI代码的缺陷密度是人类的1.7倍。每100行AI代码,比人类代码多出4个多问题。
细分来看:逻辑错误率比人类高75%,性能回退比人类差8倍,安全漏洞比人类多2.74倍。Stanford AI Index今年的数据显示,45%的AI生成代码引入了已知安全缺陷。
Opsera的数据更直接:AI生成代码的PR接受率只有32.7%,人类代码是84.4%。
代码是写得快了,但审查更慢了。瓶颈从"写代码"转移到了"读代码"。
GitClear分析了2.11亿行代码变更,发现AI时代的代码圈复杂度增加了40%以上,重复代码块频率增长了8倍,代码"流失率"——写完两周内被丢弃的代码——比之前翻倍。
LinearB分析了810万次PR,发现AI生成的代码,等待审查的时间是人类的4.6倍。
━━━━━━━━━━━━━━━━━━━━
03
Anthropic自己发布的研究,让更多人沉默了
今年1月,Anthropic(Claude的开发商)的研究人员发表了一篇论文,题目叫"AI如何影响技能形成"。
他们找了52名有Python经验的工程师,让他们学习一个新的异步编程库,分成AI辅助组和手动组。
结果很有意思:
两组人都完成了任务。但在测验环节,AI辅助组平均得分(正确率)50%,手动组67%。差了17个百分点。
更讽刺的是速度。AI辅助组只比手动组快了约2分钟,而且这个差异连统计显著性都没达到。
有个人为了调教AI,足足改了15版Prompt,耗时11分钟。
你不是AI的主人,你是帮它改需求的卑微乙方。
论文里有句话很扎心:把任务委托给AI能带来一些生产力提升,但代价是你实际上什么都没学到。
Anthropic还给了一个残酷的比喻:你已经站在了职场的分岔路口。左边是把大脑完全外包给AI的"人体电池",右边是学会与AI正确协作的"宿主"。
━━━━━━━━━━━━━━━━━━━━
04
谁在变笨,谁没有?
JetBrains今年1月发布了AI Pulse调查,样本超过一万名专业开发者。90%的开发者已经在工作中使用AI工具,74%的人用的是专门的AI编程工具而非通用聊天机器人。
但"使用"和"高效"是两回事。
Anthropic把52名工程师分成五类,发现了关键差异:
"主动拷问者"和"思路提供者"在测验中表现完全不受AI影响。他们的共同特征是:AI写完之后自己过一遍逻辑,没搞懂的地方不直接Copy,而是追问"为什么这么写",AI生成代码前,先想清楚自己要什么。
而"温水煮青蛙"和"甩手掌柜"的认知能力下降最严重。前者是逐渐依赖,不加思索接受;后者是完全外包,连审查都省了。
说白了,用AI用多了,你可能连Bug在哪都不知道了。
MIT的SlopCodeBench研究指出了AI编程失败的核心——缺乏"设计纪律"。
AI的决策基于当前Prompt的最优解,倾向于快速堆砌代码,缺乏对长期扩展性的考量。人类开发者会预留扩展点、抽取公共函数;AI没有"未来视角",需求变更时只能硬塞代码。
更有意思的是,研究者尝试了"优化提示词"干预实验,看能不能解决这个问题。
结果发现:初始代码质量确有改善,冗余度降低超过30%。但退化速率没变——提示词无法根治顽疾。
以GPT 5.4为例,使用优化提示后,完成项目的花费从304美元涨到450美元,涨幅近50%。但通过率反而从37.2%降到了27.1%。
你花钱买更好的提示词,结果得到更贵的失败。
━━━━━━━━━━━━━━━━━━━━
05
AI编程还值得用吗?
说了这么多,当然值得用。但要搞清楚怎么用。
AI擅长"边界清晰、验证容易"的任务。比如文档生成、单元测试、样板代码补全,3到10个文件的功能重构,这些场景AI表现很好。
但有一类任务要谨慎:长期迭代项目。
McKinsey研究4500名开发者发现,AI将日常编码任务时间减少46%,但复杂任务只节省不到10%。
关键区别在于:AI在单次任务中表现可以,但持续演进能力断崖式下跌。
这就像考试。AI很擅长做一道一道的独立大题。但如果你让它写一篇需要前后呼应、层层递进的论文,它可能在第二章就把第一章推翻,到最后全文逻辑自相矛盾。
━━━━━━━━━━━━━━━━━━━━
06
精英团队是怎么做的
好消息是:正确使用AI是可以的,但需要方法。
JetBrains发现了一个有趣的趋势:Claude Code在开发者中的办公使用率半年暴涨6倍,Cursor却在增速上明显放缓。
工具市场正在经历洗牌。胜出的不是谁宣传猛,是谁能让开发者掌控代码逻辑。
LinearB追踪的精英团队有一些共同特征:
他们追踪AI vs 人类的分开指标。不只是看PR数量,而是看代码质量、审查时间、流失率。
他们设置AI代码比例门槛。健康区间是25%到40%。超过太多,质量就会下滑。
他们用AI预审系统。在人工审查前,AI先提供结构化反馈,减少来回次数。
他们为资深开发者提供培训。这些人需要学习从"独立创作者"转变为"AI输出的协作审查者"。
还有一个"review sandwich"方法:AI先review代码的风格和常见Bug,然后人类review架构和业务逻辑。这样能把review时间减少30%到50%,同时保持Bug检出率。
关键是:AI负责快速发现问题,人负责判断要不要改。
━━━━━━━━━━━━━━━━━━━━
07
作为一个天天用AI编程的人
说一千道一万,不如说说我自己的感受。
我每天都在用AI编程工具写代码。说实话,有时候确实爽。几秒钟出来一版代码,比自己敲快多了。
但我也踩过坑。
有一次我让AI帮我重构一个模块,它三下五除二就搞定了,看着很美。结果第二天测试发现逻辑有漏洞,我愣是花了两倍的时间才找到问题——因为我对它生成的代码不够熟悉。
AI生成代码很快,但理解代码需要时间。
后来我学乖了。每次AI给代码,我都会先读一遍。不是检查对错,是建立"这是我的代码"的感觉。
现在用AI之前,我会问自己三个问题:这段代码为什么这么写?我有没有更好的方案?如果明天失去AI,我还能不能独立完成这个任务?
三个问题里有两个答不上来,我就知道自己在偷懒了。
AI是个好实习生,但你得是个能带团队的高级工程师。
对于团队,我有四点建议:
一是不要让AI做决策,只让它执行。你的架构、你的边界、你的验收标准,这些必须你来定。
二是代码写完务必读一遍。没读过的部分就是你的盲区。
三是警惕"单点vs演进"的陷阱。AI可以帮你快速完成一个功能,但如果你的项目需要持续迭代几个月,不要过度依赖AI。
四是团队要有AI使用规范。不是限制AI,而是明确什么场景用、怎么验收、有问题找谁。
━━━━━━━━━━━━━━━━━━━━
08
写在最后
Sonar报告里有个很刺眼的数据:
"我批准将这段代码投入生产环境,并承担随之而来的所有风险。"
2026年最大的挑战,就是找到愿意说出这句话的人。
好消息是:工具在进化。CodeRabbit已经达到46%的Bug检测准确率。Devin达到70%的自动修复率。这些数字会继续上升。
但工具越强,对人的要求越高。
AI不会让你变强,不当使用反而会让你变笨。
夜雨聆风