这周AI领域的信息量很大,但最值得关注的不是单条新闻,而是三条主线同时发生变动:算力格局、资本格局、Agent产品化。它们指向同一个趋势——AI正在从"对话"变成"系统"。
算力格局变了:xAI解散,22万张GPU归了Claude
5月7日,马斯克确认解散xAI,将其并入SpaceX新子部门SpaceXAI。与此同时,SpaceX与Anthropic达成算力合作协议:原本属于xAI的Colossus 1超算——超过22万张英伟达GPU——全部用于提升Claude的代码生成能力。Anthropic获得超过300兆瓦的计算能力,并计划与SpaceX合作开发轨道AI算力体系。
对开发者来说,最直接的影响是Anthropic同日宣布解除Claude Code的用量限制:每五小时速率限制翻倍,取消高峰时段削减,Opus模型API速率限制也大幅提高。过去几个月因算力紧张被限流的开发者,现在可以正常使用了。
这件事的戏剧性在于,xAI过去半年一直在用"全球最强超算"的声量和OpenAI、Anthropic对打,一周后这个超算全部归了对手。对Anthropic而言,算力缺口被补上;对马斯克而言,xAI并入SpaceX有助于集中管理火箭、卫星、AI基础设施,并把监管与诉讼风险转移到SpaceX更庞大的公司治理边界内。
资本格局变了:DeepSeek 500亿,Anthropic 3400亿
DeepSeek启动首轮外部融资,目标最高500亿元人民币。据The Information报道,梁文锋个人出资最高达200亿元,占本轮40%。如果落地,这将是中国大模型公司有史以来最大的一轮融资。短短3周内,DeepSeek估值从约100亿美元飙到约500亿美元。
这家公司过去最鲜明的标签是"不融资、不商业化、不路演"。转向的原因很现实:前沿模型对算力的需求持续推高,顶级研究员流失,产品化压力加大。DeepSeek V4.1已定在6月发布,将支持图像和音频多模态处理,同时加强对MCP协议的支持。
另一边,Anthropic被曝拟融资3400亿元,估值有望反超OpenAI。再加上与SpaceX的算力协议和之前对谷歌云2000亿美元的五年支出承诺,Anthropic正在用"锁定未来算力"的方式建立自己的壁垒。
Agent正在从"能跑"变成"能用"
Anthropic在Code with Claude开发者大会上发布了三项Agent核心升级。第一项叫Dreaming,让AI在两次工作间隙自动回顾历史会话、整理记忆、发现规律——类似人脑的REM睡眠。第二项Outcomes是自动评分系统,开发者可以定义交付标准,系统分配独立评估器对Agent输出打分,任务成功率最高提升10个百分点。第三项是多智能体编排,一个主Agent把复杂任务拆给多个专家Agent并行处理。
法律AI公司Harvey用上这套组合拳后,任务完成率飙升约6倍。早期客户的验证表明,Agent的问题已经不是"能不能跑",而是"能不能稳定交付"。
快手也在同一天释放了类似的信号。KroWork允许用户用自然语言描述需求,生成一个本地桌面应用,固化后反复使用且不消耗token。第一次生成需要调用大模型,之后本地运行。 stock分析台、热点追踪器、论文追踪分析器等场景已经能跑通。它的价值不在于技术突破,而在于把"重复性工作流"从聊天框里解放出来,变成一个确定性的桌面工具。
Vercel开源的Open Agents走的则是另一条路:后台持久化运行。Agent在隔离沙箱里执行代码,支持暂停、休眠与恢复,用户关掉浏览器后它还能继续干活。这三款产品——KroWork(固化成应用)、Vercel Open Agents(后台运行)、Claude托管Agent(自我进化)——从不同方向解决同一个问题:Agent不能只是每次打开聊天框重新教一遍的实习生。
模型层:免费、语音、低成本
OpenAI在5月6日把GPT-5.5 Instant设为ChatGPT默认模型,所有人免费用。相比前代,幻觉率下降52.5%,数学AIME 2025成绩从65.4%提升到81.2%,回复字数减少约30%。同步上线的"记忆来源"功能可以显示ChatGPT引用了哪些历史聊天记录来生成回复,用户可以删改过时或错误的信息。
5月7日,OpenAI还发布了三款语音AI模型:GPT-Realtime-2(搭载GPT-5级别推理能力的实时语音模型)、GPT-Realtime-Translate(支持70多种语言输入、13种语言输出的同声传译)、GPT-Realtime-Whisper(低延迟转写)。房产平台Zillow测试发现,用GPT-Realtime-2构建的语音助手,通话成功率从69%提升到95%。
百度文心5.1在5月9日上线,总参数压缩到前代的约1/3,激活参数压缩到约1/2,预训练算力成本约为同规模业界模型的6%。在LMArena排行榜中全球总排名第14,搜索能力位居国内模型首位。它的意义不在于某项能力的跃升,而是验证了"低成本追赶"路径是否可行——在知识推理和创意写作上进入同量级第一梯队,但在编程、表格操作和纯数学推理上与头部模型仍有差距。
Grok 4.3也在本周低调上线,API输入价格降低约40%,输出价格降低约60%,输出速度约196 Tokens/s。Artificial Analysis的Intelligence Index给它打到53分,在xAI自家模型线中已是最强一档,但仍落后于GPT-5.5(60分)和Claude Opus 4.7(57分)。它的定位更像一款高性价比工作型模型,而非最强模型。
一个值得警惕的信号
本周还有一条容易被忽略的消息:SWE-Bench的创建者联合Meta FAIR、斯坦福、哈佛等机构发布了ProgramBench,测试大模型能否从零重建一个真实软件项目。结果是Claude Opus 4.7、GPT-5.4、Gemini 3.1 Pro等几乎所有最强模型,完成率都是0%。
即便放宽到"接近完成"的标准,Claude Opus 4.7也只有3%的任务达标。研究人员发现,模型极度倾向于生成单体化代码——大量逻辑塞进单文件,目录结构极浅,模块拆分极少。这和优秀人类工程师的习惯几乎完全相反。
这个benchmar暴露的核心问题是:AI擅长局部代码生成,但不擅长全局系统规划。真实的软件工程从来都不是写一个函数,而是如何做出一个能被维护、被扩展、被团队协作的工程系统。
OpenAI后训练工程师翁家翌在同一周提出了一种可能的解决方向:Heuristic Learning。不训练神经网络,而是让coding agent持续维护一套手写规则系统,通过看失败、改代码、加测试、跑回放来迭代。在Atari Breakout上打到理论最高分,在机器人控制上跑出了媲美Deep RL的成绩。他认为这可能是继Pretrain、RLHF、Large-scale RL之后的下一个范式——"凡是可以被持续迭代的,都开始能被解决。"
而Karpathy在同一周的一场访谈中,把这个问题换了一个角度表述。他从Vibe Coding(让所有人都能做软件)推进到Agentic Engineering(让软件质量有人负责),核心判断是:Agent不是神谕,是实习生——需要清晰的任务、边界、checklist和审查。当Agent能写代码、能跑流程、能交付结果时,工程师的角色从执行者变成管理者。
收束
放在一起看,这周的信息指向一个判断:Agent的能力正在快速成熟,但它的成熟方式不是"变得和人一样聪明",而是"变得可以嵌入系统、持续运行、交付确定性"。算力、资本、产品三条线同时加速,意味着下半年我们可能会看到更多Agent从demo走向实际工作流。
真正值得继续跟踪的,不是某一家公司的融资额或某一款模型的跑分,而是"Agent从对话走向系统"这个趋势,在真实企业环境里能落地到什么程度。ProgramBench的0%完成率提醒我们,软件工程这件事,AI还有很长的路要走。
夜雨聆风