AI给AI写代码,这件事比你想象的更奇怪

AI给AI写代码，这件事比你想象的更奇怪

软件吃掉世界，AI正在吃掉软件。但当AI开始给AI写代码，我们其实正在目睹一件在工业史上从未发生过的事：一台机器第一次有能力改进制造自己的流水线。这不只是效率问题，这是一个关于控制权的问题。

先说一个容易被忽略的事实：过去三年，GitHub Copilot、Cursor、Devin这些工具让「AI辅助写代码」变得稀松平常。但最近发生的事情有点不一样——AI开始被用来训练下一代AI，被用来生成AI的评测基准，被用来优化AI自身的推理链。这个循环正在悄悄闭合。

这一次，机器在改造自己的图纸

工业革命以来，机器一直在替代人类的体力。自动化流水线可以造汽车，但造流水线本身还是靠人。这条边界维持了两百年，从没被真正越过。现在它开始松动了。当OpenAI用GPT-4生成训练数据来微调GPT-4o，当Meta用代码生成模型来自动撰写系统测试，「制造工具的工具」这件事，第一次不完全需要人在场。

●这不是「AI更聪明了」，而是生产链的边界在移动——人类正在从「制造者」退到「监督者」的位置。

听起来很酷，但这里藏着一个真实的技术困境，工程师们每天都在跟它打架。

递归的代价：错误会自我繁殖

假设你让AI写一段代码，AI写完之后用另一个AI来做代码审查，审查通过之后这段代码被用来训练下一个AI模型。整个链条里，如果第一步引入了一个细微的偏差——比如某种不符合安全规范的代码习惯——后续每一步都可能把这个偏差当作「正确示范」放大。这就是递归污染的问题。

「

自动化系统最危险的不是它犯错，而是它把错误变成了标准。

」

这在统计学上有个名字叫「模型崩塌」（Model Collapse）。2023年牛津大学的研究已经用实验证明：如果反复用AI生成的内容训练AI，模型会逐渐失去对真实世界分布的感知，输出越来越同质化，最终变得既自信又错误。放在代码生成场景里，这意味着系统可能会越来越擅长生成「看起来正确」的代码，但实际上漏洞丛生。

23%

在一项针对AI生成代码的安全审计中，约23%的样本包含可利用的安全漏洞，而开发者的接受率却高达72%

人类在这个循环里扮演什么角色

有一种天真的乐观主义认为：没关系，最后总有人类把关。但「最后把关」这件事，在规模化之后会变得非常困难。一个中型科技公司的代码库每天可能新增数万行AI生成代码，没有任何团队有人力逐行审查。于是「人类监督」在实践中往往退化成「人类抽查」，而抽查的样本是AI帮你挑的。

●监督者依赖被监督者来决定监督什么，这个逻辑漏洞几乎无解。

这不是危言耸听，这是当前工程实践里真实存在的张力。很多团队已经意识到这个问题，但解法还在摸索中。有人在做「AI生成代码的溯源标记」，有人在做「独立评估模型」——用一个与训练流程完全隔离的模型来做质量审查，就像财务审计要用外部机构一样。

但也别太悲观：约束本身就是进步

历史上每一次生产力工具的跃迁，都伴随着新的质量控制体系的诞生。印刷机出现之后，出版行业发展出了编辑、校对、版权的整套机制。互联网出现之后，搜索引擎的排名算法、社区的举报机制、平台的内容审核，都是在混乱中慢慢长出来的。AI写代码这件事，也会走同样的路。

1形式化验证工具正在被引入AI代码生成的下游，用数学证明而非人工审查来保证关键逻辑的正确性

2「红队测试」（Red Teaming）开始被系统化用于AI编程工具，专门寻找模型的盲点和习惯性错误

3一些公司开始要求AI生成代码必须附带「置信度说明」，让开发者知道哪些部分是模型不确定的

这些都是对的方向。但有一点需要清醒：这些机制需要人主动去建立，它们不会自动生长出来。技术的自我优化能力越强，人类主动介入、设定边界的责任就越重，而不是越轻。

所以「AI给AI写代码」这件事，本质上是一面镜子，照出了我们对自动化系统的一个根深蒂固的误解：我们以为自动化是在减少我们的工作，但实际上，它只是在把我们的工作从「执行」转移到「设计规则」。以前你写代码，现在你要想清楚代码应该被怎样写、怎样审查、怎样迭代。这个工作，目前还没有任何AI能替你做。

✦ 小结

AI自动化编程不是终点，而是一个新的起点——它把人类从执行者变成了规则制定者。但制定规则比执行规则难得多，而且一旦规则出错，整个系统会以你看不见的速度把错误放大。这才是这场变革真正值得认真对待的地方。

AI编程自动化模型崩塌软件工程