AI技术周刊(2026.05.10) AI从对话走向系统:算力、资本与Agent产品化的一周

这周AI领域的信息量很大，但最值得关注的不是单条新闻，而是三条主线同时发生变动：算力格局、资本格局、Agent产品化。它们指向同一个趋势——AI正在从"对话"变成"系统"。

算力格局变了：xAI解散，22万张GPU归了Claude

5月7日，马斯克确认解散xAI，将其并入SpaceX新子部门SpaceXAI。与此同时，SpaceX与Anthropic达成算力合作协议：原本属于xAI的Colossus 1超算——超过22万张英伟达GPU——全部用于提升Claude的代码生成能力。Anthropic获得超过300兆瓦的计算能力，并计划与SpaceX合作开发轨道AI算力体系。

对开发者来说，最直接的影响是Anthropic同日宣布解除Claude Code的用量限制：每五小时速率限制翻倍，取消高峰时段削减，Opus模型API速率限制也大幅提高。过去几个月因算力紧张被限流的开发者，现在可以正常使用了。

这件事的戏剧性在于，xAI过去半年一直在用"全球最强超算"的声量和OpenAI、Anthropic对打，一周后这个超算全部归了对手。对Anthropic而言，算力缺口被补上；对马斯克而言，xAI并入SpaceX有助于集中管理火箭、卫星、AI基础设施，并把监管与诉讼风险转移到SpaceX更庞大的公司治理边界内。

资本格局变了：DeepSeek 500亿，Anthropic 3400亿

DeepSeek启动首轮外部融资，目标最高500亿元人民币。据The Information报道，梁文锋个人出资最高达200亿元，占本轮40%。如果落地，这将是中国大模型公司有史以来最大的一轮融资。短短3周内，DeepSeek估值从约100亿美元飙到约500亿美元。

这家公司过去最鲜明的标签是"不融资、不商业化、不路演"。转向的原因很现实：前沿模型对算力的需求持续推高，顶级研究员流失，产品化压力加大。DeepSeek V4.1已定在6月发布，将支持图像和音频多模态处理，同时加强对MCP协议的支持。

另一边，Anthropic被曝拟融资3400亿元，估值有望反超OpenAI。再加上与SpaceX的算力协议和之前对谷歌云2000亿美元的五年支出承诺，Anthropic正在用"锁定未来算力"的方式建立自己的壁垒。

Agent正在从"能跑"变成"能用"

Anthropic在Code with Claude开发者大会上发布了三项Agent核心升级。第一项叫Dreaming，让AI在两次工作间隙自动回顾历史会话、整理记忆、发现规律——类似人脑的REM睡眠。第二项Outcomes是自动评分系统，开发者可以定义交付标准，系统分配独立评估器对Agent输出打分，任务成功率最高提升10个百分点。第三项是多智能体编排，一个主Agent把复杂任务拆给多个专家Agent并行处理。

法律AI公司Harvey用上这套组合拳后，任务完成率飙升约6倍。早期客户的验证表明，Agent的问题已经不是"能不能跑"，而是"能不能稳定交付"。

快手也在同一天释放了类似的信号。KroWork允许用户用自然语言描述需求，生成一个本地桌面应用，固化后反复使用且不消耗token。第一次生成需要调用大模型，之后本地运行。 stock分析台、热点追踪器、论文追踪分析器等场景已经能跑通。它的价值不在于技术突破，而在于把"重复性工作流"从聊天框里解放出来，变成一个确定性的桌面工具。

Vercel开源的Open Agents走的则是另一条路：后台持久化运行。Agent在隔离沙箱里执行代码，支持暂停、休眠与恢复，用户关掉浏览器后它还能继续干活。这三款产品——KroWork（固化成应用）、Vercel Open Agents（后台运行）、Claude托管Agent（自我进化）——从不同方向解决同一个问题：Agent不能只是每次打开聊天框重新教一遍的实习生。

模型层：免费、语音、低成本

OpenAI在5月6日把GPT-5.5 Instant设为ChatGPT默认模型，所有人免费用。相比前代，幻觉率下降52.5%，数学AIME 2025成绩从65.4%提升到81.2%，回复字数减少约30%。同步上线的"记忆来源"功能可以显示ChatGPT引用了哪些历史聊天记录来生成回复，用户可以删改过时或错误的信息。

5月7日，OpenAI还发布了三款语音AI模型：GPT-Realtime-2（搭载GPT-5级别推理能力的实时语音模型）、GPT-Realtime-Translate（支持70多种语言输入、13种语言输出的同声传译）、GPT-Realtime-Whisper（低延迟转写）。房产平台Zillow测试发现，用GPT-Realtime-2构建的语音助手，通话成功率从69%提升到95%。

百度文心5.1在5月9日上线，总参数压缩到前代的约1/3，激活参数压缩到约1/2，预训练算力成本约为同规模业界模型的6%。在LMArena排行榜中全球总排名第14，搜索能力位居国内模型首位。它的意义不在于某项能力的跃升，而是验证了"低成本追赶"路径是否可行——在知识推理和创意写作上进入同量级第一梯队，但在编程、表格操作和纯数学推理上与头部模型仍有差距。

Grok 4.3也在本周低调上线，API输入价格降低约40%，输出价格降低约60%，输出速度约196 Tokens/s。Artificial Analysis的Intelligence Index给它打到53分，在xAI自家模型线中已是最强一档，但仍落后于GPT-5.5（60分）和Claude Opus 4.7（57分）。它的定位更像一款高性价比工作型模型，而非最强模型。

一个值得警惕的信号

本周还有一条容易被忽略的消息：SWE-Bench的创建者联合Meta FAIR、斯坦福、哈佛等机构发布了ProgramBench，测试大模型能否从零重建一个真实软件项目。结果是Claude Opus 4.7、GPT-5.4、Gemini 3.1 Pro等几乎所有最强模型，完成率都是0%。

即便放宽到"接近完成"的标准，Claude Opus 4.7也只有3%的任务达标。研究人员发现，模型极度倾向于生成单体化代码——大量逻辑塞进单文件，目录结构极浅，模块拆分极少。这和优秀人类工程师的习惯几乎完全相反。

这个benchmar暴露的核心问题是：AI擅长局部代码生成，但不擅长全局系统规划。真实的软件工程从来都不是写一个函数，而是如何做出一个能被维护、被扩展、被团队协作的工程系统。

OpenAI后训练工程师翁家翌在同一周提出了一种可能的解决方向：Heuristic Learning。不训练神经网络，而是让coding agent持续维护一套手写规则系统，通过看失败、改代码、加测试、跑回放来迭代。在Atari Breakout上打到理论最高分，在机器人控制上跑出了媲美Deep RL的成绩。他认为这可能是继Pretrain、RLHF、Large-scale RL之后的下一个范式——"凡是可以被持续迭代的，都开始能被解决。"

而Karpathy在同一周的一场访谈中，把这个问题换了一个角度表述。他从Vibe Coding（让所有人都能做软件）推进到Agentic Engineering（让软件质量有人负责），核心判断是：Agent不是神谕，是实习生——需要清晰的任务、边界、checklist和审查。当Agent能写代码、能跑流程、能交付结果时，工程师的角色从执行者变成管理者。

收束

放在一起看，这周的信息指向一个判断：Agent的能力正在快速成熟，但它的成熟方式不是"变得和人一样聪明"，而是"变得可以嵌入系统、持续运行、交付确定性"。算力、资本、产品三条线同时加速，意味着下半年我们可能会看到更多Agent从demo走向实际工作流。

真正值得继续跟踪的，不是某一家公司的融资额或某一款模型的跑分，而是"Agent从对话走向系统"这个趋势，在真实企业环境里能落地到什么程度。ProgramBench的0%完成率提醒我们，软件工程这件事，AI还有很长的路要走。