最早AI不敢进场的人,开始一次打三个

2022 年初，有四个年轻的程序员，脑子里冒出个念头：要做一个 AI 写代码的工具。

他们一查市场，发现已经有好几十家新创在干这事，大公司也在搞，连那些当时还不怎么起眼、但现在看起来超猛的 AI 实验室也插了一脚。

结论很现实：位置被人占完了，别人早搞定了。

所以他们先去做别的项目了。

故事一开始其实挺「不敢入场」的。但到了 2022 年底，这四个人发现自己实在忍不住，市面上根本没有他们自己想用的那种工具。于是他们干了件很多内向开发者会干的事：躲进小房间，关起门来，穿着内裤写了两个星期代码，搞出一个原型。

那是 Cursor 的起点。

快转到 2026 年 6 月中旬，Cursor 在第一届 Compile 开发者大会上扔出了三个发布（注：Compile 26 实际在 6 月 16-17 日举行，本文引用的逐字稿来自 6 月 22 日上传的 YouTube 影片）：Cursor Mobile、Origin，一个 agent-native 的 Git 平台、还有一款正在训练中、规模对标 OpenAI 和 GPT 的从零训练模型。与此同时，SpaceX 以 600 亿美元估值收购了 Cursor 的母公司 Anysphere。Michael Truell 在台上是这幺说的：这件事「比合作多一点」。

从不敢入场，到同时跟 GitHub 抢地盘、跟 OpenAI 对标模型、跟 SpaceX 绑在一起。这个跨度背后有一条很清楚的线 🧩

被逼出来的模型之路

先说模型的事。

很多人看 Cursor 做自研模型，觉得是融了钱就膨胀。Michael Truell 在台上讲的故事，方向完全不一样。

Cursor 最早连模型公司都不是。2023 年初那版 Cursor，代码一行不剩，萤幕上的像素也全部换过。他们一开始就是套壳：把第三方 API 模型包进一个好用的 IDE 里。

然后问题来了。

Michael 在台上说了一个时间点：他们开始做模型，是 2023 年「18 个 beta 测试者跑了」之后。产品不够好，用户不买帐，不往下走就没路了 🔻

2023 到 2024 年，他们从 Tab 补全模型做起。Michael 用的词是「sneakily」，偷偷摸摸地。这些 Tab 模型后来成了那两年全世界写代码最多的模型之一。

2024 到 2025 年，agent 原型。做法很实用：API 模型哪里掉链子，就在那个点上做一个小 surrogate 模型去补。工具调用不行就专门训工具调用，代码搜索不行就训搜索。没什幺宏大路线，哪里漏水补哪里。

再往后才是 Composer 系列。Composer 1，2025 年 11 月，开源基线上做 RL。Composer 1.5，把 RL 规模加大。Composer 2 做了两件重事：继续预训练，在开源模型上再灌 tens of trillions of tokens；同时上线了即时 RL，每五个小时根据用户的真实反馈更新一次模型。

这里面有个插曲。Composer 2 的底层模型后来被确认是 Moonshot AI 的 Kimi K2.5，1.04T 参数的开源 MoE。开发者社群当场炸了：你用第三方的基础模型，好歹先说一声吧。但换个角度想，这件事可能就是 Cursor 决定必须从零训练的真正触发点。被骂套壳骂到模型层了，不从头来过没有第二条路。

到 Composer 2.5，还是在 Kimi K2.5 上面继续训，但引入了 Text-Feedback Directed RL。以前只能看最终结果打分，现在可以在长 rollout 的半路上精确告诉模型：这一步错了。

几个数字：

模型	SWE-bench Multilingual	CursorBench v3.1	每次任务成本
Claude Opus 4.7	80.5%	64.8%	~$4.10
GPT-5.5	77.8%	59.2%	~$4.82
Composer 2.5	79.8%	63.2%	~$0.07

跟 Claude Opus 4.7 的差距在一到两个百分点内。但每次任务的成本是 $0.07，Opus 是 $4.10，GPT-5.5 是 $4.82。

差了大约 60 倍。

Michael 在台上讲这件事的时候很诚实：这个性价比的很大一部分原因，是他们之前用的 GPU 太少了。「Composer 从 1 到 2.5，全部是在一组跟 Frontier Labs 比起来非常小的 GPU 上训练的。」「能不能在更多 GPU 上跑更多小时，这一个条件就卡住了所有事情。」

所以那个正在训的、用 10 到 20 倍历史最大算力的新模型，瓶颈终于解了 🚀

三个发布，看成一件事

如果分开看，Mobile 就是个手机入口。Origin 是跟 GitHub 抢地盘。新模型是秀肌肉。

放在一起，事情不一样了。Cursor 在拼一套开发者作业系统。

Mobile 和 Cloud Agent

Kevin Niparko 在台上讲得很白：cloud agent 是 24 小时不睡觉的同事，不是偶尔叫一下的帮手。有自己的开发环境，自己 clone 仓库、装依赖、跑测试、截图。你在见客户、在跑步、半夜躺在床上想到个东西，需要有个入口让 agent 立刻动起来。

Cursor Mobile 就是这个入口。手机上瞥一眼，看哪些 agent 在忙、哪个卡住了、看截图、圈出要改的地方、丢一句话。

还有 automations。Amplitude 在后台跑了一套定制 migration agent，把 20000 个 React 组件实例全部换成 Tailwind，全在背景自己跑。上线几个月，总共执行了 600 万次 automation。

从「你叫 agent 干活」到「agent 自己跑、甚至反过来 ping 你」，这个切换正在发生

Origin：Git 平台，但是 agent 是原住民

Tomas Reimers 是通过 Graphite 收购进来的。Graphite 之前服务 Shopify、Snowflake、Notion、Figma，专做 code review 和 merge 加速。

他们看到一件事：这些公司大规模上 AI 之后，原来的开发者工具开始扛不住了。一个开发者从一天写几百行变成一天产出几千行，commit 和 PR 的量级变了，Git 基础设施没跟上。

Origin 的设计从三个方向解决 🔧

• Scale：新 Git 架构。早期负载测试模拟了几千个 agent 同时读写同一个 repo
• Extensible：API、MCP、第三方 app 平台。数据你自己控制
• Keep code moving：用 Cursor 的智能自动解 merge conflict、修 CI 失败、处理 review 评论。超过一半的 review 时间里代码都是 moving 的状态

Origin 做的事，是从零设计一个 Git 平台，agent 从一开始就在，不是事后才加上去的。

新模型：赌在算力上

上面这些东西，Mobile 的随时接入，Origin 的 agent 自治协作，cloud agent 的 24/7 运行，全部卡在一个瓶颈上：得有一个够聪明又够便宜的模型垫在下面。

靠第三方 API 走不通。API 模型本身够好，但你控制不了成本结构、推理速度、还有模型行为的 fine-tune。Michael 在台上说了一句话，表面讲的是 SDK 和插件，拿到模型层一样成立：「一个工具对你的工作这幺核心，对团队这幺核心，你需要能改它，控制它的所有方面。」

新模型跟之前所有 Composer 有三点不同：

• 规模：跟 OpenAI 和 GPT 同级
• 起点：自己从头来，不靠开源权重继续训
• 范围：Michael 在台上提了好几次，瓶颈已经从写代码转移到一个好工程师能做的一切了。用工具、长期规划、实际去测软件、点按钮

它瞄准的是一个通用模型，程序开发只是起跑线

一个很妙的时间点

Compile 26 的时间踩得很准 🕐

Gartner 刚出了史上第一份企业 AI 编程 agent 的 Magic Quadrant。Leaders 四家：Anthropic、Cursor、GitHub、OpenAI。但 AWS 和 Google 被从 Leader 降到了 Challenger。这个市场的剧本在重写：不再是谁有云谁赢，AI 原生公司在吃掉传统巨头的盘子。

同一时间，价格战已经打到见骨。DeepSeek V3.2 的价格是 Claude Opus 的 1/90。Google Gemini 定价是 Claude 的 1/10。OpenAI Codex 免费了两个月，补贴金额外界估超过四亿美元。Devin 从月费 $500 直接摔到 $20，外加按任务计费。

在这种环境里，流行说法是「性能在收敛，战争从实验室移到市场」。Cursor 的押注刚好相反。

他们赌的是性能还没到顶。

那个从零训练的新模型就是证据。从头来，不是继续训。Michael 的原话是「get to Frontier and hopefully soon leapfrog」，他要的是跳过去，不是追赶。

但他面对的对手不弱。Claude Code 在企业市场拿 54% 份额，SWE-bench Verified 88.6%，开发者 NPS 高达 54。OpenAI Codex 开源、Rust 重写、Terminal-Bench 2.1 拿 83.4% 最高分。Copilot 虽然份额从 67% 滑到 51%，470 万付费用户的基数还是最大的。

Cursor 的牌面不靠单点最强。它靠面宽：IDE、模型、Git 平台、Mobile，四个都有。面宽本身是一种深度

SpaceX 这个变数

收购的细节没公开太多。Michael 在台上用的说法是「比合作多一点」。能确认两件事：

• Colossus 2 的算力，百万 H100 等效 GPU，是新模型 10 到 20 倍算力增幅的来源
• SpaceX 对 AI 程序开发能力有直接战略需求

有趣的是收购方的身份。SpaceX 不是传统科技巨头，它需要把物理世界跟软件世界打通的基础设施。Cursor 的基因，从底层模型到上层 UI 全部自己控，刚好对上这个需求。

拉远看：OpenAI 有微软的云，Anthropic 有亚马逊的云，Google 同时做模型和云。Cursor 现在有 SpaceX 的算力。这早就不是「套壳工具选哪家 API」的层级了。

但收购也带来现实问题。全股票交易，$600 亿估值用的是 SpaceX 股票定价。SpaceX IPO 后市值一度蒸发约 $6200 亿，Cursor 的命运有一块就绑在那条曲线上。更麻烦的是数据。Cursor 最有名的「零数据保留」政策在新东家手下还能不能成立，已经有 CIO 在追问。InfoWorld 在收购后专门发了一篇分析，标题就是：CIO 应该担心吗。

风险

乐观的部分说完了。该说不那幺好的部分。

执行。 从零训练一个 GPT 同级的模型，跟拿开源权重做 RL 微调，完全是两种工程。Composer 系列跑通了不代表这一步能成。Michael 说「deep into training，几周内发布」的时候，这句话本身就说明了状态：在训了，但还没训完。

竞争窗口。 Claude Code 的 54% 企业份额是真金白银的壁垒。OpenAI Codex 开源加 Rust 重写加 Terminal-Bench 最高分，三件事同时发生。这两家不会等。

定位。 IDE、模型、Git 平台、Mobile，四条线同时拉。很多公司死掉的原因，是线太多，不是某一条做不好。Origin 还直接撞上 GitHub，这件事不会安静收场。另外，Composer 2.5 的 $0.07 定价是给外部的数字，内部推论成本是另一回事。压价抢市场可以，能不能持续，要看新模型真正的效率。

信任。 Cursor 被骂过套壳。从零训练是一次重新定义自己的机会，也是一次很大的赌。如果新模型没达标，那个不敢入场的故事开头会换一种方式被重新读。

用别人的模型，上限是别人的 API。用自己的模型，下限是自己训练的结果

所以呢

回到开头。四个不敢入场的人，花两周写出第一版，前两个用户直接跑了。

这个开头有意思的地方：它解释了 Cursor 到现在为止的所有选择。他们永远在补自己觉得不够的地方。

产品不好用就自己建模型。模型被算力卡住就找 SpaceX。功能用着不爽就整块推倒，第一版代码一行不留。编辑器和 agent 体验有裂缝就重构整个 UI。Git 基础设施扛不住 agent 的产出量就从零写一个新的 Git 平台。

战略这词太正式了。就是惯性 🔄

Michael 在结尾说了一段话，大概是最能概括这家公司的东西：「这家公司，不管好坏，我觉得是好的，从头到尾都是关于开发者的。我们就这幺开始的，在乎的就是这个。这里的人从第一天就想给自己造一个有用的工具。」

现在这个有用的工具正在长成一个作业系统级别的东西。有入口、有协作、有算力。有模型、有平台、有生态。

一帮当初不敢入场的程序员，现在选了一条最难的路：同时跟 GitHub、OpenAI、Anthropic 开战。

能不能赢，不知道。

但至少，Cursor 已经不是在跟 IDE 竞品打了。

附录

主要来源

• Cursor Compile 26 Opening Keynote（Michael Truell, Kevin Niparko, Tomas Reimers），2026-06-22
• Cursor Blog: Composer 2
• Cursor Blog: Composer 2.5
• Cursor Blog: Real-Time RL for Composer
• Artificial Analysis: Cursor Composer 2.5 Coding Agent Index
• Gartner 2026 Enterprise AI Coding Agents Market Guide
• CB Insights: Coding AI Market Share
• The Decoder: Cursor Compile 26 Announcements

资料限制说明

• 新前沿模型的具体参数规模和架构细节尚未公开，本文描述基于 Michael Truell 台上口头宣布的内容
• SpaceX 收购细节多为公开报导推断，Anysphere/Cursor 未发布官方交易条款
• 市场份额数据来自不同调查机构和方法论，横向对比存在抽样偏差 [待验证]