AI 编程智能体半年演化录:Claude Code、Cursor、Codex、Antigravity 深度对比

本文对比了Claude Code、Cursor、Codex和Antigravity半年来向标准化形态收敛的趋势，分析了各自工作流与价格差异，并展望了新秀Grok Build的冲击。

译自：Claude Code vs. Cursor vs. Codex vs. Antigravity — six months in^[1]
作者：Janakiram MSV

六个月前，智能体编程工具还处于形态之争。 到2026年6月初，这场争论基本宣告结束。

今年定义了这一品类的四款产品，在过去几个月里悄然达成共识，确定了这类工具的核心形态。

时钟从11月开始拨动。Google于2025年11月18日公开发布了Antigravity^[2]的公开预览版，同一天Gemini 3面世^[3]，这一发布将“智能体优先”的编程界面推化为了主流。Anthropic的Claude Code^[4]、OpenAI的Codex以及Anysphere的Cursor此前均已进入该领域。

在过去的半年里，看着这四款产品共同成长，比看任何单次发布都更能说明问题，因为最精彩的部分是在发布之后。不妨把它想象成智能手机最终定型为一块玻璃板：一旦大家接受了这种形态，竞争就转向了围绕它构建的平台。

Claude Code 依然贴近其初始定位，运行在终端中，并依托Anthropic的长上下文推理、压缩技术以及高度依赖人工确认的工作流。这使得它在处理大型代码库时表现强劲，因为智能体在修改代码前必须在大脑中保留大量上下文。希望在代码落地前阅读每一次修改的开发者会倾向于选择它。这种阻力是刻意设计的，因为在严肃的代码库中，最危险的时刻莫过于运行命令或修改文件之前的瞬间，而Claude Code恰好在这个关键点引入了人工把关。

Cursor 则走向了相反的方向，保持模型无关性（model-agnostic）。它运行在熟悉的VS Code界面内，允许你将Cursor^[5]指向你已经付费的任何前沿模型，因此团队不会被绑定到某一家厂商的发布日程上。更深层的优势在于它不需要迁移工作流，让开发者无需离开他们凭反射操作的文件、标签页、差异对比（diffs）和快捷键，即可加入智能体能力。同时，其Composer智能体现在可以处理多文件工作，而无需将开发者拉出编辑器。

Codex 走的是分发路线。因为对大多数用户来说，Codex^[6]是被打包在ChatGPT订阅方案中，而不是单独收费，所以它比该品类中的其他任何工具都更快地达到了规模化，即便目前繁重和商业化的使用正受到Codex特定额度和额度限制的约束。OpenAI报道称^[7]，在2026年4月中旬其周活开发者已超过300万，到5月下旬已超过400万，而真正的盈利来自于ChatGPT Business和Enterprise版在企业内部的推广。

Antigravity 偏离其初始路线最远。它最初是作为一个基于VS Code分支构建的AI原生IDE发布的，随后在2026年5月19日的Google I/O大会上重新发布^[8]为Antigravity 2.0——这是一个涵盖了独立桌面应用、命令行界面（CLI）、软件开发工具包（SDK）、Gemini API内部的托管智能体（Managed Agents）API以及面向Google Cloud客户的企业层的五端平台。

不妨把它想象成智能手机最终定型为一块玻璃板：一旦大家接受了这种形态，竞争就转向了围绕它构建的平台。

这次重构并不温和，移除了原有的IDE作为默认设置^[9]，并在 overnight 破坏了原有的配置。在此之前，2026年3月Google转向额度包模式并收紧配额，已经引发了一轮愤怒。结合Google的其他举措来看，真正的赌注是从本地编程智能体转向Google Cloud上的托管智能体运行环境，即在桌面客户端、CLI、Gemini API和企业平台中运行的同一套框架。

GitHub Copilot去哪了？

这四个名字中故意漏掉了一个。GitHub Copilot^[10]塑造了整个品类，它的编程智能体现在已经可以规划工作、修改分支并在附加企业控制的情况下发起拉取请求（pull request）。我将重点放在了今年推动“智能体优先”讨论的产品上，但Copilot同样值得关注，因为GitHub已经拥有了议题（issues）、拉取请求、代码评审（reviews）和Actions所在的生态，这在其智能体编写的代码流向合并之处时，构成了一种主场优势。

他们最终达成的设计蓝图

将这四款产品排在一起，它们之间的相似之处显而易见。它们正在向同一种模式收敛：终端或命令行界面、执行前的明确规划、审批关卡、通过模型上下文协议（Model Context Protocol，简称MCP）访问外部工具，以及某种形式的委派或并行智能体工作。在六个月内，四个具有截然不同文化的实验室几乎得出了相同的设计蓝图，这通常表明这种设计与其说是一种选择，不如说是一种必然发现。

在六个月内，四个具有截然不同文化的实验室几乎得出了相同的设计蓝图，这通常表明这种设计与其说是一种选择，不如说是一种必然发现。

让他们中的任何一个修复跨越三个文件的失败集成测试，其工作流看起来都大同小异：智能体读取仓库、提出计划、等待审批、修改代码、运行测试，并在你看着代码差异流过时进行汇报。这种相似性悄然改变了这类工具的定义：现在的编程智能体能够读取议题、修改分支、运行测试、调用工具并发起拉取请求，表现得像是一个拥有提交权限的初级团队成员，而不仅仅是自动补全工具。

大家公认的连接器是MCP，但仓库内部悄然形成的标准可能更为重要。AGENTS.md^[11]规范将仓库本身变成了智能体的入职指南，记录了如何运行测试、应遵循什么风格以及哪些地方不能碰。Codex、Cursor、Copilot和Windsurf都原生支持读取它。

OpenAI发起了这一规范；Google、Cursor和Sourcegraph也随之加入；自2025年12月起，它与MCP一起归于Linux基金会旗下的智能体AI基金会（Agentic AI Foundation）。尽管Claude Code仍在读取自己的CLAUDE.md，这种收敛尚未完全统一，但大方向正指向一个能够跨工具使用、并使智能体行为具备可移植性的统一指令文件。

这种收敛悄然降低了模型本身的重要性。在2025年的大部分时间里，宣传卖点都在于谁的模型编写的代码更好。截至2026年5月中旬，在SWE-bench Verified基准测试上，领先模型的分数差距已经非常微弱，而Cursor可以轻松运行其中任何一个。

当引擎不再是区分产品的核心时，差异就转移到了它周围的一切：运行框架、工作流、审批模式和分发渠道。我认为这是过去六个月里最重要的一次转变，也是为什么现在团队的选择取决于“契合度”，而不是模型上周在哪个榜单上夺冠的原因。

基准测试依然在衡量智能体能否解决孤立的任务，但在实际的仓库中，真正的难点在于如何让修改符合本地规范、通过持续集成（CI）并被人类评审员接受。因此，团队开始根据工作类型来分派任务，而不是盲目忠于某一款工具。

绑定（Lock-in）同样构建在这一层。一个围绕某种工具建立起评审习惯、技能、钩子（hooks）和子智能体模式的团队，不会轻易更换工具。Antigravity痛苦的CLI迁移过程向我们展示了，一旦工作流确立，会产生多么巨大的迁移阻力。

费用问题让它们走向分裂

价格是这四者不再相似的地方。首先需要理解的是，智能体的计费方式更像是计算任务（compute job），而不是按人头收费（seat-based），因为在交付可合并的更改之前，它需要读取大型仓库、启动沙箱、运行测试并循环进行重试。真正值得比较的数字是“每次接受更改的成本”，而不是每月的标价。因为一旦团队整天运行智能体，“入门便宜”在规模化后很少能保持低成本。

智能体的计费方式更像是计算任务，而不是按人头收费……真正值得比较的数字是每次接受更改的成本，而不是每月的标价。

Codex是一个特例，因为它没有单独的收费项目，而是绑定在ChatGPT订阅方案中，这推动了它的快速增长，尽管更繁重的工作会通过Codex专用额度进行计量。截至2026年6月，Cursor Pro和Claude Code的入门级费用都在20美元左右，并额外收取基于用量的费用；而Anthropic的Max方案则面向重度用户，价格要高得多。

Antigravity目前仍保留了预览版的免费访问，但Google在配额和方案上的调整（包括在I/O大会前后宣布的新推每月100美元的AI Ultra级别）已经表明，一旦智能体的工作负载变得昂贵，免费额度会变得多么不稳定。

工具	核心定位	优势场景
Claude Code	原生终端，审批优先	深度推理和大型代码库工作，适合想要审阅每一次代码差异（diff）的团队
Cursor	模型无关的IDE	习惯在编辑器内工作的团队，希望自主选择模型并避免厂商锁定
Codex	捆绑于ChatGPT中	快速触达及企业级推广，受益于无额外收费
Antigravity	多端平台	想要托管智能体的Google Cloud和Android开发者，但伴随预览版风险

任何团队都不应将该表格视为最终结论。我交流过的大多数团队都是并排运行其中两款工具：一款在终端中用于严肃的重构，另一款在编辑器中用于日常修改。陷阱在于，这四款工具在演示时看起来几乎一模一样，而真正会让你踩坑的差异会在以后显现——比如代码在哪里运行、智能体能触碰什么，以及在一周的实际工作结束后会产生多少成本。在做决定之前，这些层面比发布幻灯片上的SWE-bench数据更值得深挖。

下一个竞争者已经到来

那种认为Grok Build是未来几周值得关注的新生事物的说法需要稍作修正，因为xAI已经付诸行动。它已于2026年5月中旬作为最高级别SuperGrok的早期测试版推出，xAI在5月25日发布^[12]了Grok Build的公告，向所有SuperGrok和X Premium Plus订阅用户开放了访问权限。

该工具是一个运行在终端的原生CLI，由grok-build-0.1A model模型提供支持。xAI称该模型是专门针对智能体编程进行训练的，其在SWE-bench上的得分据报道约为70.8%，这在早期的第三方评测文章中得到了证实。

两个设计选择尤为突出。Grok Build可以并行运行多达八个子智能体，每个子智能体都隔离在独立的Git工作区（worktree）中，这是该品类中最大胆的架构尝试。xAI还称其为“本地优先”，源代码和凭据保留在本地机器上，而不会在会话期间发送到xAI的服务器，这非常吸引那些处于强监管行业中的团队，尽管其合规文件目前比其营销宣传要单薄得多。

六个月的收敛已经确定了智能体编程工具的形态，并将下一阶段的竞争转向了运行框架、价格以及团队围绕某款产品建立的习惯之争。

本地执行并非本地推理，因此真正关键的在于，为了接入模型，有哪些仓库上下文仍被使用。目前缺失的关键拼图是“竞技场模式”（Arena Mode）——该模式将生成几个候选输出并让你选择最佳方案，这一模式已经出现在代码痕迹中，但尚未在测试版中上线。

发布已经完成，因此未来几周的真正考验在于留存率，即Grok Build能否让开发者在第一周过后继续留在终端中，竞技场模式能否顺利推出并在实践中缩小基准测试差距，以及其激进的价格能否将付费测试人员从现有的主导工具中拉拢过来。

六个月的收敛已经确定了智能体编程工具的形态，并将下一阶段的竞争转向了运行框架、价格以及团队围绕某款产品建立的习惯之争。现在，第五个终端智能体已经带着在X Premium Plus内部庞大的既有用户群和一位愿意烧钱的老板加入了这场角逐，这足以让人们关注现有巨头们将如何应对。

引用链接

[1] Claude Code vs. Cursor vs. Codex vs. Antigravity — six months in:https://thenewstack.io/claude-code-vs-cursor-vs-codex-vs-antigravity-2026/[2]Antigravity:https://antigravity.google/blog/introducing-google-antigravity-2-0[3]面世:https://thenewstack.io/antigravity-is-googles-new-agentic-development-platform/[4]Claude Code:https://claude.com/product/claude-code[5]Cursor:https://cursor.com[6]Codex:https://openai.com/codex[7]报道称:https://thenewstack.io/openai-codex-chatgpt-mobile/[8]重新发布:https://antigravity.google/blog/introducing-google-antigravity-2-0[9]移除了原有的IDE作为默认设置:https://thenewstack.io/ide-vs-desktop-agent/[10]Copilot:https://github.com/features/copilot[11]`AGENTS.md`:https://agents.md[12]发布:https://x.ai/news/grok-build-cli