AI 编程正在从补全变成工程代理:美国大厂到底在抢什么

调研说明
调研截止：2026.06.29 北京时间
主要来源：OpenAI 官方报告、GitHub Changelog/Docs、Qwen/Kimi 官方资料、YouTube 产品演示与技术解读、公开媒体报道
交叉验证：官方资料 + 产品文档 + YouTube 演示/社区讨论
结论置信度：中高。官方能力和计费规则置信度高；“行业影响”属于基于公开资料的判断。

适合谁看

这篇适合三类人：

• 已经在用 Cursor、Claude Code、Codex、GitHub Copilot，但还停留在“让 AI 补代码”的人。
• 想看懂美国大厂为什么突然都在讲 coding agent、review agent、long-running task 的人。
• 负责团队工具、研发流程、AI 提效的人，尤其是正在纠结“要不要让 AI 进代码仓库”的人。

太长不看版

• AI 编程的主战场正在换位置。 过去比的是“单次补全准不准”，现在比的是“能不能接住一个工程任务，读仓库、改代码、跑测试、解释风险”。
• 美国大厂不是在做更聪明的输入框，而是在做可委托的执行层。 OpenAI 的 Codex、GitHub Copilot 的 code review、Claude Code 这类产品，本质都在把 AI 塞进软件生产流程。
• 真正的门槛不是模型会不会写代码，而是工程控制系统够不够硬。 权限、上下文、测试、回滚、费用、团队规范，决定了 coding agent 是生产力，还是一个会批量制造麻烦的自动化实习生。

先从一个小变化说起

我最近看 AI 编程新闻时，最明显的感觉是：大家不再满足于“AI 能写一段代码”了。

两年前，一款 AI 编程工具只要 autocomplete 做得顺手，能在你打 useEffect 的时候猜出下一段，就已经很像未来。现在不行了。现在大家问的问题变成：

“我能不能把一个 issue 直接丢给它？”

“它能不能自己读 repo？”

“它改完能不能跑测试？”

“它能不能知道哪些文件不能碰？”

“它能不能像人一样写 review comment？”

这不是小功能升级，而是工作位置变了。

以前 AI 坐在你的光标后面，像一个很会抢答的输入法。现在它开始坐到任务流里面，像一个可以被分派工作的执行层。这个变化一旦发生，软件团队要讨论的就不只是“哪个模型更聪明”，而是“我们敢把什么工作交给它”。

我倾向于把这轮变化叫做：AI 编程从补全时代，进入工程代理时代。

事实层：美国大厂正在把 AI 放进工程流程

我把最近公开资料里比较确定的事实整理成一张表。这里不追求把每条新闻都列全，只抓能说明趋势的点。

线索	官方/一手事实	我看到的含义	置信度
OpenAI Codex / agents	OpenAI 在 2026 年 6 月发布的企业内部使用报告里，把 Codex 放在“long-running work”和“agentic coding”语境里讨论，并披露内部员工使用 Codex 生成大量输出 tokens 的情况	OpenAI 不只把 Codex 当开发者工具，而是在用它重组内部工作方式	中高
GitHub Copilot code review	GitHub 2026.06.18 changelog 显示 Copilot code review 支持 `AGENTS.md`，并改进 UI	GitHub 正在把 AI review 从“评论几句”推向“按仓库规则执行检查”	高
GitHub premium requests / AI credits	GitHub Docs 已把 Copilot 高级模型请求纳入 premium requests / AI credits 体系；官方文档也说明 Copilot coding agent 相关工作流会消耗 GitHub Actions minutes	AI 编程从“订阅后随便用”转向“高价值模型调用和执行环境都要核算”	高
YouTube 演示和技术解读	我抽样看的 Codex / Copilot / coding agent 演示里，反复出现 record & replay、agent task、repo context、review flow	开发者社区关注点正在从补全速度转向代理可控性，但这只能作为兴趣信号	中
国内模型跟进	Qwen3-Coder、Kimi K2、GLM 系列都把 coding、agentic、long-context 放在核心卖点里	这不是某一家美国公司的局部创新，而是模型厂商共同追的方向	中高

这里我最在意的不是某个模型分数，而是几个关键词反复出现：repo、task、review、agent、workflow、rules、credits。

这些词连起来，已经不是“写代码”本身，而是“软件生产流程”。

补全时代：AI 只是在帮你敲键盘

先把旧时代讲清楚。

补全型 AI 编程工具的价值很直接：减少打字，减少查 API，减少样板代码。你写一半函数，它接着写；你写一行注释，它补出实现；你忘了某个库的用法，它帮你凑出来。

这个阶段的用户体验很像开了一个超级自动补全。它有用，但责任边界非常清楚：

• 你决定任务；
• 你决定文件；
• 你决定架构；
• 你决定要不要采纳；
• AI 只是给候选代码。

也就是说，AI 的工作发生在“光标附近”。

这种模式最适合确定性任务：写一个 helper、补一个测试、生成一段 SQL、把一个函数翻译成另一种语言。问题是，真实工程里的麻烦通常不在这里。

真实工程里的麻烦是：

• 需求不完整；
• 历史代码有债；
• 改一个地方会牵动三个模块；
• 测试没覆盖；
• README 过期；
• 团队有自己的隐性规则；
• 线上事故不是因为少写了十行代码，而是因为边界条件被忽略。

补全工具能帮你写得快，但不一定能帮你少犯系统性错误。

这也是为什么很多人用了一阵 AI 编程后会有一个微妙的落差：一开始觉得它很神，后来发现真正耗时间的不是“写”，而是“确定该怎么改、改完怎么证明没坏”。

工程代理时代，恰好是往这个方向走。

工程代理时代：AI 开始接任务，而不是只接句子

一个 coding agent 如果只是“聊天框里能生成代码”，我不觉得它有多新。真正的新意在于它必须同时具备几类能力。

第一，能读上下文。

不是读你复制进去的一段文件，而是理解一个 repo 的结构、依赖、测试方式、命名习惯、错误处理风格。没有这个能力，它每次都像临时外包，只能写看起来像样的片段。

第二，能执行动作。

它要能改文件、跑命令、看测试失败、继续修。没有执行层，它就是一个建议生成器；有执行层，它才可能变成“接任务的人”。

第三，能受规则约束。

GitHub 支持 AGENTS.md 这件事，我觉得比很多“模型分数上涨”更值得看。因为软件团队真正需要的不是一个天才型 AI，而是一个遵守仓库规则的 AI。

第四，能留下证据。

改了什么、为什么改、测试跑了什么、哪里没跑、风险是什么，都要能交代。否则团队没法 review，也没法追责。

第五，成本可控。

GitHub 的 premium requests / AI credits 把一个现实问题摆上台面：agent 越会干活，越可能消耗更多模型调用、更多工具调用、更多云端执行时间。以前我们讨论“准不准”，以后还要讨论“值不值”。

这五件事合在一起，才叫工程代理。少一件，都容易变成演示视频里的魔法，实际项目里的麻烦。

YouTube 上的热闹，说明开发者真正关心什么

我这次特意看了一些 YouTube 上关于 Codex、Copilot、Qwen/Kimi coding agent 的介绍和演示。YouTube 不是事实的最终来源，我不会用它来确认模型规格或产品能力；但它很适合看“开发者的注意力在哪里”。

我看到的共同点是，大家已经不太兴奋于“AI 又写了一个 Todo App”。这种演示太多了，刺激阈值早被拉高。

更能引发讨论的是这几类内容：

• AI 能不能读一个真实代码库，而不是空项目；
• AI 能不能修一个测试失败；
• AI 能不能解释它为什么这么改；
• AI 能不能在多轮执行后不跑偏；
• AI 能不能把过程 record/replay，让人类检查；
• AI 的上下文和权限怎么控制。

这和官方资料是互相印证的。

官方文档讲的是产品能力，YouTube 演示讲的是开发者焦虑。两边合起来看，结论更清楚：大家真正想要的不是更会聊天的编程模型，而是更可靠的工程执行单元。

我有时觉得，YouTube 上那些“AI 写完整项目”的标题虽然夸张，但评论区反而更诚实。很多开发者不是真的怕 AI 写不出来，而是怕它写出来以后没人知道哪里会炸。

一张表：补全工具和工程代理的区别

维度	补全型 AI 编程	工程代理型 AI 编程
输入单位	一行代码、一段 prompt	一个 issue、一个任务、一个 PR
上下文	当前文件或少量文件	repo、文档、历史约定、测试结果
输出	代码片段	代码改动、测试结果、解释、风险说明
人类角色	实时采纳/拒绝	分派、审查、验收
失败方式	写错一段代码	在多个文件里系统性跑偏
价值来源	少打字、少查资料	少切上下文、少做重复工程流程
管理重点	prompt 写得好不好	权限、测试、规则、成本、回滚

这个表里最重要的一行是“失败方式”。

补全工具失败，通常是局部失败。工程代理失败，可能是流程失败。它一旦拿到更多权限，犯错半径也会变大。

这就是为什么我不太赞成把 coding agent 简单吹成“程序员替代品”。它更像一个新的工程流程节点。流程节点好不好，不只看智商，还看接口、约束和审计。

OpenAI 数据给了一个很有意思的信号

OpenAI 那篇关于 agents 如何改变工作的报告里，有几个数据值得单独拎出来。

公开资料显示，OpenAI 用模型估算任务时长，把 Codex 任务按“人类需要多久完成”分层；报告里提到一些 Codex 任务可对应数小时甚至更长的人类工作。报告还讨论了内部员工使用 Codex 生成大量输出 tokens 的情况。

我不会把这些数据直接理解为“AI 替人完成了多少小时工作”。这里面有很多限制：任务时长是估算的，输出 token 不等于有效工作，内部使用环境也和普通公司不一样。

但它至少说明一件事：OpenAI 自己已经不把 Codex 当“帮程序员补一句”的工具来衡量，而是在用“任务规模”和“工作流占比”来衡量。

这很关键。

指标变了，产品方向就会变。以前看补全率、接受率、延迟；以后可能看任务完成率、回滚率、测试通过率、review 修改量、每个成功任务的成本。

如果一个团队还在用“这玩意儿能不能帮我写一个函数”来评估 coding agent，就有点像用打字速度评估一个项目经理。

GitHub 的两个动作更接地气

相比 OpenAI 的宏观报告，GitHub 的动作更像工程团队会马上遇到的现实。

第一，Copilot code review 支持 AGENTS.md。

这个文件本质上是在告诉 AI：这个仓库里怎么做事。哪些命令要跑，哪些风格要遵守，哪些目录要小心，哪些改法不推荐。以前这些规则可能写在 README、贡献指南、团队聊天记录，甚至只存在老员工脑子里。

AI 要进工程流程，就必须把这些隐性规则显性化。

第二，Copilot 进入 premium requests / AI credits 体系。

这个动作不好听，但很真实。模型能力越强，调用成本越高。团队以后不会只问“AI 能不能做”，还会问：

• 这个任务值不值得用高级模型？
• 自动 review 每次都跑是否划算？
• coding agent 重试 5 次的成本谁承担？
• 免费额度耗尽后，团队怎么分配？

我觉得这是 AI 编程从玩具走向基础设施的标志之一。玩具时代大家只关心好不好玩；基础设施时代一定会算账。

可以直接拿走的一段仓库 AI 工作守则

如果你还没有 AGENTS.md，不用一开始就写得很宏大。先写一份能约束 AI 的“小宪法”就够了。

下面这段可以直接改成你自己仓库的版本。

# AGENTS.md## 项目边界- 先阅读 README、包管理文件、入口目录和最近相关的测试文件。- 默认只修改本次任务相关文件，不做顺手重构。- 不要改数据库 schema、权限、支付、数据迁移和发布脚本，除非任务明确要求。## 常用命令- 安装依赖：写清楚 npm / pnpm / uv / poetry 等实际命令。- 单元测试：写清楚最小测试命令。- 类型检查 / lint：写清楚合并前必须跑的命令。## 改动流程- 先给出改动计划，再动代码。- 一次只解决一个明确问题。- 改完必须说明：改了哪里、为什么改、跑了哪些检查、哪些没有验证。## 代码风格- 遵守现有命名、错误处理、日志和测试风格。- 新增逻辑优先补测试，不要为了通过测试删除断言。- 不确定时先提问，不要猜业务规则。

这段东西看起来很朴素，但它能把 AI 从“会写代码的人”往“懂这个仓库怎么做事的人”推一步。

我建议个人开发者先从这类短规则开始，不要急着搞复杂 agent 平台。因为很多失败不是模型不够聪明，而是它根本不知道你的项目边界在哪里。

这件事对普通开发者意味着什么

如果你是个人开发者，我建议不要急着把所有活都交给 agent。

现在最值得练的是三件事。

第一，写清楚任务边界。

不要只说“帮我修这个 bug”。要说：

“先读这三个文件，只改登录流程，不改数据库 schema；改完跑 auth 相关测试；如果测试跑不起来，说明原因，不要自行改测试配置。”

这类表达会越来越值钱。

第二，给仓库写 AI 工作守则。

不一定非要叫 AGENTS.md，但你需要有一份面向 AI 的工程说明：项目结构、常用命令、测试方式、不要碰的东西、提交前检查。以前这叫文档，现在它会变成 AI 的操作手册。

第三，学会验收 AI 的工作。

以后问题不是“AI 有没有写代码”，而是“它写的代码是不是可以被合并”。你要看 diff、测试、日志、边界条件、回滚风险。不会验收的人，用越强的 agent 越危险。

对团队来说，真正要建设的是“AI 可执行工程环境”

团队层面更麻烦。

一个 coding agent 真正好用，背后需要一套环境：

• 代码结构清楚；
• 测试能稳定跑；
• CI 不要三天两头假红；
• 文档不至于完全过期；
• 权限分层；
• 关键模块有 owner；
• 回滚路径明确；
• 代码 review 规则可见。

说得不好听一点：AI 会放大一个团队的工程卫生状况。

本来测试就乱、文档就烂、模块边界就糊，agent 进来不会自动变好，反而会更快地把混乱复制到更多地方。

所以我对 coding agent 的乐观，是有条件的。它不是来拯救烂工程的，它更像是奖励那些已经把工程流程整理得比较清楚的团队。

我现在的判断

我倾向于认为，AI 编程接下来一年最重要的竞争，不是“谁的模型多 2 分”，而是三件事：

第一，谁能拿到更深的工程上下文。

代码、issue、PR、设计文档、错误日志、部署记录、团队规范，这些上下文比单次 prompt 更重要。

第二，谁能把执行过程管住。

沙箱、权限、测试、审计、回滚，是 coding agent 进入团队的门票。

第三，谁能把成本讲清楚。

如果一个 agent 能省人一天，但花 2 美元，那很便宜；如果它为了修一个小 bug 反复调用高级模型，最后还要人类重写，那就不是提效，是绕远路。

所以，这轮美国大厂抢的不是“代码生成”这个单点，而是未来软件生产流程里的控制入口。

我不认为程序员会因为这件事立刻消失。但我觉得，程序员的工作重心会变：从亲手写每一行代码，逐渐转向定义任务、约束环境、审查结果、维护系统。

这听起来没那么科幻，但更像真实世界。

现在该怎么做

如果你现在就想行动，我建议分四档：

• 现在可以用：让 AI 写测试、解释代码、整理 issue、生成迁移计划、做低风险重构草案。
• 可以试，但别重投入：让 agent 自动修小 bug、自动补文档、自动做 PR review。
• 暂时观望：让 agent 独立处理跨模块核心逻辑、数据库迁移、权限系统、支付链路。
• 不建议跟风：在没有测试、没有文档、没有 review 的项目里，直接让 AI 大规模改代码。

我最想提醒的是：不要把 coding agent 当神，也不要把它当玩具。

它更像一个新来的执行同事。你不给它任务边界，它会猜；你不给它测试，它会自信；你不给它规则，它会照着互联网上的平均代码风格办事。

而平均，通常不是工程质量的朋友。

资料来源

• OpenAI：How agents are transforming work / Codex internal adoption datahttps://openai.com/index/how-agents-are-transforming-work/
• GitHub Changelog：Copilot code review: AGENTS.md support and UI improvementshttps://github.blog/changelog/2026-06-18-copilot-code-review-agents-md-support-and-ui-improvements/
• GitHub Docs：About premium requests / AI creditshttps://docs.github.com/en/copilot/managing-copilot/monitoring-usage-and-entitlements/about-premium-requests
• GitHub Docs：About GitHub Copilot cloud agent / usage costshttps://docs.github.com/copilot/concepts/agents/cloud-agent/about-cloud-agent
• GitHub Docs：Configuring runners for GitHub Copilot code reviewhttps://docs.github.com/en/copilot/how-tos/copilot-on-github/set-up-copilot/configure-runners
• Qwen：Qwen3-Coder official bloghttps://qwenlm.github.io/blog/qwen3-coder/
• Kimi K2：Open Agentic Intelligencehttps://moonshotai.github.io/Kimi-K2/
• YouTube：Codex Record & Replay 演示https://www.youtube.com/watch?v=7f4n6h1gzdA

本文由 AI 整理素材，鲍什修改定稿。