🌟星标 + 👆关注,第一时间知道最新、最有用的AI编程姿势
《贾杰的AI编程秘籍》付费合集,共10篇,现已完结。30元交个朋友,学不到真东西找我退钱;)
以及我最新的付费合集《又100个思维碎片》墨问,把我上一天班,AI自己在家写一天代码的焚诀,分享给你
写在前面
最近读到 Bits and Pieces 上一篇文章《How to scale AI development beyond prototype speed》,里面引用了 Qodo 的《2025 State of AI Code Quality》报告,挺有料。
读完写点笔记。声明在先:观点和数据都来自原文(引自 Bits and Pieces 与 Qodo 报告),我只是个搬运工,吐槽是我自己的。
Demo 不是产品
原文开篇一句话直接戳中:把“能跑的 Demo”当成“能上线的系统”,这事儿现在变得太容易了。
为什么容易?因为搭 Demo 实在太爽了。一个聊天机器人、一个推荐引擎、一个文档处理器,几天就能跑起来。
演示完美,老板眼睛一亮:“什么时候上线?”
故事通常就是从这一刻开始崩的。
我打个比方:Demo 是相亲照,生产系统是素颜起床。一个开了十级美颜,一个要面对早上八点的真实世界。差距不是一个版本号,是两种物种。
越用越不放心,怎么回事?
报告里有组数据特别扎眼。
82% 的开发者每天/每周都在用 AI,59% 的人同时挂着 3 个以上工具,65% 的代码库里至少 1/4 是 AI 生成的。
听起来 AI 赢麻了对吧?
但同一份报告说:那些挂着 6 个以上 AI 工具的团队,只有 28% 对自己 AI 写的代码有信心。
诡异不?工具越多,信心越差。
其实不难理解:用得多 ≠ 用得好,更不等于敢合并。我自己就是这样,Cursor、Copilot、Claude 来回切,看起来很厉害,真到 Code Review 时谁也不敢闭着眼合(怕死)。
Context:信任的地基
报告抛出的第一个核心观点:Context is the foundation of trust(上下文是信任的地基)。
数字很难看:65% 用 AI 重构的人、约 60% 做测试和评审的人,都吐槽 AI“漏掉了相关上下文”。即便在那些觉得 AI 提升了质量的人里,也有 53% 还在喊“上下文再强一点”。
为什么上下文这么要命?
打个比方:AI 现在像个新来的外包。技术能力满分,但不知道你们用什么框架、不知道命名规范、不知道这段代码上周刚因为线上事故重构过、更不知道隔壁服务有个隐藏依赖。
它不缺脑子,缺的是“在场感”。
它没和你一起熬过那些深夜,没看过 Confluence 里那些设计决策。写出来的代码?技术上没毛病,放在你这个项目里就是格格不入。
所以原文那句话才掷地有声:“repo-wide context engine 不是 nice-to-have,是地基。”
Confidence Flywheel:信心飞轮
第二个观点更狠:Confidence is the key to adoption(信心决定采用率)。
数据:幻觉率低于 20% 的开发者,敢直接合并代码不审查的概率是别人的 2.5 倍(24% vs 9%)。高信心组里 46% 觉得 AI 让工作更愉快,低信心组只有 35%。
报告把这个叫“Confidence Flywheel”(信心飞轮)。
飞轮怎么转?AI 准 → 我敢用 → 用得多反馈多 → AI 更准 → 我更敢用。一旦转起来,越转越快。
但反过来呢?只要 AI 经常翻车,团队就会用脚投票把它扔进角落。再快也没用。
原文一句话钉死:“Any AI workflow that cannot prove its accuracy will stall adoption long before reaching scale.”
翻译成人话:证明不了准确性的 AI,活不到规模化那一天。
速度和质量,居然能同时涨?
这个观点彻底颠覆了我以前的偏见。
我一直觉得“快”和“好”是对立的——AI 让你写得快,代价就是质量崩。
但报告说:当团队报告“显著生产力提升”时,70% 同时报告了质量提升,是停滞团队的 3.5 倍。
更狠的还在后面:加了 AI Review 之后,质量提升比例飙到 81%(没 Review 的同速团队只有 55%)。即使速度没涨,加了 AI Review 的团队质量提升也是别人的 2 倍。
读到这儿我才反应过来:原来“AI 写代码”和“AI 审代码”是两件事。前者是产量机器,后者是质检员。
光有产量没质检?次品堆成山。
原文那句话用得真漂亮:“Continuous, opinionated review is the force-multiplier.”(持续的、有观点的审查,是力量倍增器。)
我打个比方:Review 不是踩刹车,是给油门装方向盘。没方向盘的油门,跑得越快摔得越惨。
幻觉:那个老大难
报告没回避那个最尴尬的问题——幻觉。
25% 的开发者估计每 5 条 AI 建议里就有 1 条是错的。Toy project 里忍忍就过了,生产环境里?致命。
幻觉为啥难治?
我的理解:大模型在意的是“这段代码看起来像不像对的”,不是“这段代码在你的代码库里到底对不对”。前者是模式匹配,后者要事实校验。
中间隔着一道鸿沟,叫上下文 + 验证。
绕来绕去又回到第一个观点了——Context is the foundation。所有问题最终都指向同一个根。
串起来看
通读完,我把整个故事串了一遍。
问题是啥?我们太容易把 Demo 当成生产系统,AI 让这个错觉变得更廉价、更危险。
根因是啥?AI 没有仓库级的上下文,看起来对,未必真对。
症状是啥?信任崩塌、幻觉频发、用得越多越不敢合并。
解药是啥?给 AI 装上下文引擎,让它“在场”;把 AI Review 嵌进流程,把速度变成质量;让信心飞轮转起来。
最戳我的一句话来自 Qodo CEO Itamar Friedman:“AI must become more than just an autocomplete engine.”
没错。如果 AI 在我们眼里永远只是个加强版 Tab 键,它的天花板早就到了。
真正改变软件开发的 AI,应该是个懂上下文、有观点、永远在线的老同事,而不是一个聪明的工具人。
总结
三句话收尾。
第一,Demo 不是产品。跑得通的不一定靠得住,别被五天搭出来的原型骗了。
第二,上下文是地基。没它,再聪明的模型也是个不知深浅的实习生。
第三,Review 是倍增器。把审查嵌进流程,速度和质量才能一起涨(不是非此即彼)。
P.S. 读这种报告最大的收获不是数据,是那种“原来不止我一个人这么想”的安慰感。AI 编程的下半场,比的不是谁写得更快,是谁让人敢放心用。
参考资料
原文:《How to scale AI development beyond prototype speed》,Bits and Pieces 博客。
数据来源:《2025 State of AI Code Quality》,Qodo 报告(基于 609 位开发者调研)。
坚持创作不易,求个一键三连,谢谢你~❤️
以及「AI Coding技术交流群」,联系 ayqywx 我拉你进群,共同交流学习~
夜雨聆风