乐于分享
好东西不私藏

AI 让开发者慢了 19%,但每个人都觉得快 20%

AI 让开发者慢了 19%,但每个人都觉得快 20%

Hacker News 揭示的 2026 AI 编程真相

题记:2026 年,AI 编程已经不再是”会不会用”的问题,而是”用对了没有”的问题。Hacker News 社区用一整年的讨论,给出了他们的答案。

一个让所有人都懵了的数据

先说个反直觉的。

METR(Model Evaluation & Threat Research)在 2025 年春季做了一项实验:招募 16 位资深开发者,让他们用 AI 辅助工具完成 246 项任务——错误修复、功能开发、重构。都是真实项目,平均每个项目 2.2 万 star、100 万行代码。

结果出来,炸锅了:

  • AI 实际节省的时间:-19%
    (你没看错,是负数。用 AI 反而更慢了)
  • 开发者主观感受:快了 20%
  • 代码审查时间:占总任务时间的 9%

这个数字太有意思了。所有人都觉得自己在加速,但当你把计时器放在桌上,数字告诉你的是反方向。

更讽刺的是,Stack Overflow 2025 年的调查数据佐证了这一点:45% 的开发者承认,调试 AI 生成的代码花的时间比纯手写还多。

那问题来了:钱呢?GitHub Copilot 突破 470 万付费订阅,Cursor 从 $100M ARR 增长到 $2B ARR 仅用 14 个月,成为史上最快 B2B SaaS(比 Slack、Zoom、Snowflake 都快)。这些数据说明 AI 编程工具确实有价值,但为什么 METR 的实验结果这么打脸?

答案藏在 Hacker News 整整一年的讨论里。

真相一:工作流比模型更重要

先问一个问题:GitHub Copilot(29%)、Cursor(18%)、Claude Code(18%)——这三个工具哪个最强?

JetBrains 2026 开发者调查给出了市场份额,但如果你去 HN 问这个问题,大概率会被反问:”你说的’强’是什么意思?”

因为真实的选择逻辑根本不是这样。

Cursor 的一个典型用户故事是这样的:这位开发者今年 1 月装了 Claude Code,之后 VS Code 打开次数”断崖式下跌”。他的原话是:”说实话有点心虚——毕竟 Cursor 社区这么大,说退订怕被喷。但事实就是,我打开 Cursor 的次数越来越少了。”

但你猜怎么着?Cursor 的 ARR 还在疯涨。

因为他们根本不是同一批用户在用。

维度
Cursor 更合适
Claude Code 更合适
操作习惯
鼠标点击派
键盘终端党
项目偏好
前端/UI 开发
后端/脚本/DevOps
改动范围
单文件局部修改
跨文件批量重构
上下文
手动圈选文件
自动扫描仓库

HN 上一位叫 tptacek 的用户说了一句很到位的话:

“The first and most important question to ask here is: are you using a coding agent? A lot of times, people who aren’t getting much out of LLM-assisted coding are just asking Claude or GPT for code snippets, and pasting and building themselves.”

翻译过来就是:很多人根本没用对工具。他们把 AI 当成了一个更快的 Google Stack Overflow,而不是一个能接管整个开发循环的 agent。

Stripe 产品负责人 Michelle Bu 在 2025 开发者大会上说了一句更本质的话:

“We’ve learned is that AI isn’t about replacing human judgment, it’s about amplifying it.”

Amplify(放大),不是 Automate(自动化)。这个措辞的差别,藏着整个工作流设计的逻辑。

判断:2026 年的 AI 编程工具竞争,本质上是工作流整合度的竞争,而不是模型能力的竞争。 Claude Opus 4.6 在 SWE-bench Verified 达到 80.8%,创了行业记录,但 Cursor 依然在蚕食市场——因为 IDE 深度集成带来的流畅感,比那个分数更能留住用户。

真相二:Skills 正在取代 Prompts

2025 年 10 月,Anthropic 推出了 Claude Skills。然后一件有意思的事发生了:开发者发现,SKILL.md 这个文件在 Codex CLI、Gemini CLI 等工具里也能用。

很快,社区工具出现了,可以把同一个 SKILL.md 转换成 Cursor 的规则格式、Windsurf 的配置、Copilot 的指令文件。换句话说,Skills 正在成为一个跨平台的标准。

这意味着什么?

Prompt 是消耗品。你每次写 Prompt,都是一次性使用,用完即丢。但 Skills 是资产——你写一次,可以用在十个项目里,可以在团队里分享,可以版本控制,可以迭代优化。

一位 HN 用户把这个转变总结得很精准:

“Prompt 是消耗品,Skills 才是资产。”

背后的工程逻辑是三层渐进式加载架构:

  • L1 元数据
    :name + description + 适用范围,快速路由(常驻)
  • L2 指令正文
    :workflow、输出规范、异常处理(按需注入)
  • L3 资源文件
    :脚本、模板、知识库(外部调用)

这套架构解决了 AI 编程工具最头疼的问题——上下文窗口限制。它不是靠不断扩大窗口来硬扛,而是把”上下文”变成一个可管理的工程问题。

Red Hat 的开发者博客把这个思路进一步工程化,提出了 Harness Engineering 方法:先用 “Repository Impact Map” 定义改动范围,再用 “Structured Task Template” 约束 AI 的行为边界。

markdown

## Repositorytrustify## Files to Modify-`modules/sbom/src/service.rs`## Acceptance Criteria- [ ] GET /api/v2/sbom/export?format=csv returns valid CSV

Martin Fowler 也在文章里提过类似的思路,叫 SPDD(Structured-Prompt-Driven Development),核心三技能是:Abstraction first(先生设计)、Alignment(锁定意图)、Iterative Review(受控循环)。

判断:到 2027 年,大多数中等规模以上的团队,都会有自己的 Skills 库——这会成为团队知识沉淀的新形式,就像代码规范一样自然。 Prompt Engineering 这个职位会越来越少见,取而代之的是 Agent Workflow Engineer。

真相三:编排比自主更实用

现在 HN 上有个经典的争论:Agent 该不该自主?

一方是 Devin 用户 kasey_junk 的玩法:

“I trigger a bunch of prompts in the morning, lunch and at the end of the day. The async nature really means I can have it work on things I can’t be bothered with myself.”

早上放一堆任务,中午回来看结果,下班前再处理反馈。全程异步,完全自主。

另一方是 tptacek 的玩法:

“I’ll go round and round with an agent until I’ve got roughly what I want, and then I go through and beat everything into my own idiom. I don’t push code I don’t understand and most of the code gets moved or reworked a bit.”

一直在 agent 旁边盯着,随时修正,最后出来的代码还得过一遍自己的风格。边界清晰,人是主驾驶。

哪种更好?没有标准答案。但数据给出了一些参考。

arXiv 上有一篇论文专门研究多 Agent 代码验证系统,发现了一个有意思的现象:

  • 单 Agent 漏洞检出率:32.8%
  • 双 Agent 组合检出率:79.3%(提升 14.9 个百分点)
  • 四 Agent 并行检出率:76.1%(总提升 39.7 个百分点)

不是越多越好,双 Agent 协作是最佳性价比。更重要的是,数学证明了一个朴素的道理:当 Agent 检测的问题类型不同时,组合 Agent 比任何单一 Agent 都能发现更多 bug。

这和软件开发中”代码审查需要两个以上的人”是同一个逻辑。盲点不同,互补价值就出来了。

Gartner 的预测也在佐证这个趋势:2028 年,33% 的企业软件应用将包含 agentic AI,而 2024 年这个数字不到 1%。

判断:2026 年的最佳实践不是”让一个超级 Agent 全权负责”,而是”用编排层把多个有边界的 Agent 组合起来”。 自主是方向,但边界才是护城河。LangChain/LangGraph、CrewAI 这样的编排框架,会成为下一个阶段的标配。

真相四:验证是真正的瓶颈

回到开头 METR 的那个数据:开发者把 9% 的时间花在审查和修改 AI 生成的代码上。

LogRocket 做了更详细的实验:同一个 REST API 端点,手动写 29 行,Claude Code 生成 186 行(6.4 倍多)。错误处理重构更夸张:手动 +10 行,AI 生成 +272 行(17 倍多)。

你可能会想:行数多怎么了?功能一样就行。

问题是:审查时间也变长了。手动 3 分钟,AI 生成 8-12 分钟。代码变多了,但质量没有变好,甚至更差了。

CodeRabbit 的研究量化了这个问题:分析 470 个 PR,对比 320 个 AI 辅助和 150 个纯人工。结果是:

指标
AI 辅助
纯人工
倍数
每个 PR 问题数
10.83
6.45
+68%
XSS 漏洞
2.74×
不安全直接对象引用
1.91×
密码处理问题
1.88×

GitHub Octoverse 2025 的数据也在印证:AI 生成的代码里,Broken Access Control(失效的访问控制) 已经超过 Injection 成为最常见的 CodeQL 警报,年增长率 172%。原因很直接:AI 生成的代码骨架经常跳过身份验证检查,因为它在”补全”一个完整的实现,而不是从零思考每个安全边界。

更扎心的是 Qodo 的调查数据:

  • 68% 的资深工程师报告 AI 带来了代码质量提升
  • 但只有 26% 愿意不审查就发布 AI 生成的代码

74% 的人嘴上说 AI 提升了质量,手上还是要亲自过一遍。

这说明什么?

代码生成变快了,但验证能力决定了团队能吸收多少 AI 产出。

一个团队一天能生成 1000 行代码,但如果审查能力只够消化 200 行,那多出来的 800 行就是浪费。这不是 AI 的问题,是工作流设计的问题。

而行业用脚投票给出了答案:2025 年 12 月,Cursor 以超 $2.9 亿收购了代码审查工具 Graphite。

Cursor CEO Michael Truell 说得非常直接:

“Code review is taking up a growing share of developer time as the time spent writing code keeps shrinking.”

写代码的时间在缩短,审查代码的时间在变长。瓶颈在哪,一目了然。

结尾:闭环

回到开头那个认知落差。

AI 让开发者慢了 19%,但开发者主观感觉快了 20%。

这个数字不只是讽刺,它是一个关于感知的隐喻:我们以为自己在加速,实际上可能是交付了更多有缺陷的代码,同时失去了对代码的理解深度。

Anthropic 有一项研究也佐证了这一点:用 AI 完成不熟悉代码库任务的开发者,完成速度更快,但后续测试得分低 17%。最大的差距出现在调试知识领域。

你获得了产出,但可能失去了理解。这笔账不会出现在任何仪表盘上。

Stripe 的 Michelle Bu 说得对:AI 不是替代判断,而是放大判断。如果你没有判断力,AI 会把没有判断力的你放大 10 倍,100 倍。

Cursor 花 $2.9 亿收购 Graphite,大厂自己都认了:验证是瓶颈。当这个问题被一家价值数十亿美元的公司用真金白银确认,我们还有什么好争的?

2026 年的 AI 编程,不缺工具,不缺模型,缺的是一套能”验证、判断、吸收”的工作流。

谁先解决这个,谁就是下一个 Cursor。

参考来源

  • METR 2025春季实验:https://www.augmentcode.com/guides/why-ai-coding-tools-make-experienced-developers-19-slower-and-how-to-fix-it
  • JetBrains Developer Survey 2026:https://aicoding.juejin.cn/post/7627854201214304266
  • CodeRabbit 漏洞研究:https://www.pixee.ai/blog/ai-code-security-problem
  • LogRocket 代码审查研究:https://blog.logrocket.com/ai-coding-tools-shift-bottleneck-to-review/
  • GitHub Octoverse 2025:https://github.blog/2025/10/octoverse-2025/
  • arXiv 多Agent验证论文:https://www.arxiv.org/pdf/2511.16708
  • Red Hat Harness Engineering:https://developers.redhat.com/articles/2026/04/07/harness-engineering-structured-workflows-ai-assisted-development
  • Stripe Sessions 2025:https://stripe.com/sv-fi/sessions/2025/developer-keynote
  • HN 讨论帖:https://news.ycombinator.com/item?id=43988315
  • HN 讨论帖:https://news.ycombinator.com/item?id=43998994

字数统计:约 2800 字