乐于分享
好东西不私藏

三款AI编程工具同月发布,Agent并行时代正式开启

三款AI编程工具同月发布,Agent并行时代正式开启

三款AI编程工具同月发布,Agent并行时代正式开启

4月,Cursor 3、TRAE SOLO、Claude Code三款重量级工具集中发布,AI编程从”一个助手”进化到”多个Agent协作”的新阶段。

Cursor 3的玻璃界面,好看但好用吗

4月,Cursor 3悄然上线。最直观的变化是全新的Glass界面——半透明、带模糊效果,视觉上确实比之前清爽不少。

但界面只是门面,里面的变化更实质。Agent Workspace现在支持多Agent并行:前端、后端、测试可以各跑各的,不用互相等待。对于稍复杂的全栈任务,这个设计能省下不少时间。

Composer 2换成了基于Kimi K2.5架构的自研模型。用国产模型架构来做代码生成,Cursor算是头一家。效果如何,社区反馈还在收集中。

Cursor 3 Agent Workspace多Agent并行编程

TRAE SOLO全免费,字节这次动真格了

字节在同一时间段推出TRAE SOLO,核心卖点是端到端自动化:PRD → 架构 → 编码 → 测试 → 部署,整个闭环它一个人包了。

同类工具里,GitHub Copilot按月收费,Cursor有免费额度但有限制,Claude Code按Token计费。TRAE SOLO把所有核心功能免费开放,这个打法在AI编程工具里相当少见。

免费能不能持续、代码质量能不能跟上,现在下结论还早。但它至少把”AI编程工具该不该收费”这个问题,重新摆到了桌面上。

Claude Code正式GA,百万Token不再加钱

Anthropic在4月把Claude Code推进了正式可用(GA)阶段。最实用的变化:100万Token上下文,Max计划用户默认就有,不再单独收费。

处理大型代码库——比如几万行代码的遗留项目——这个上下文窗口的意义很大。以前要分段读取,现在可以一次性装进去。

评分方面,Claude Opus 4.7在SWE-bench上80.9%还是目前的最高分。GPT-5.5在Terminal-Bench 2.0上82.7%领先,但SWE-bench只有58.6%。两个模型各有所长,还没到一边倒的时候。

GPT-5.5发布,Terminal-Bench新王

4月23日,OpenAI发布GPT-5.5(代号Spud),面向ChatGPT和Codex付费用户推出。

重点看Terminal-Bench 2.0的测试成绩——GPT-5.5拿到82.7%,目前公开结果里最高的。这个基准测的是Agent在真实终端环境里完成任务的能力,跟日常开发场景比较接近。

模型 Terminal-Bench 2.0 SWE-bench 强项
GPT-5.5 82.7% 58.6% Agent工作流
Claude Opus 4.7 69.4% 80.9% 代码工程
Gemini 3.1 Pro 68.5% 未公开 科学推理

OpenAI同步在推进”AI超级应用”战略,把ChatGPT从对话工具往一站式工作台方向扩。Workspace Agents已在4月22日推出,面向团队重复工作流。

GPT-5.5 Terminal-Bench排行榜

编程模型排行:GPT-5.5、Claude、Gemini三足鼎立

5月最新编程模型排行,前三名没有悬念,但各自治领域越来越清晰。

GPT-5.5在Agent工作流方向一骑绝尘,Claude Opus 4.7守住代码工程的基本盘,Gemini 3.1 Pro在科学推理和多模态上领先。国产模型里,豆包Seed 2.0 Pro进入全球前五,DeepSeek V4 Flash的性价比仍然很难被超越。

选模型这件事,从”哪个最强”变成了”哪个最合适”。你的场景是写业务代码、做数据分析、还是搞科研?答案不同,选的模型也不一样。

来源:CSDN、SegmentFault、The AI Track(2026年4月-5月)

>

—— 科技智趣坊