AI 日报|Anthropic 万亿估值在望,Claude 能调 100 个 Agent 帮你干活了

AI 日报｜Anthropic 万亿估值在望，Claude 能调 100 个 Agent 帮你干活了

今天 AI 圈最炸裂的事，都跟 Anthropic 有关。

一边是 Claude Opus 4.8 时隔 43 天就发了新版，直接甩出"动态工作流"——单次任务可以调度几百个子 Agent 并行干活。另一边，650 亿美元 H 轮融资到账，估值 9650 亿，离万亿就差临门一脚。

这两件事放一起看，信号很明确：Anthropic 不只是在做更好的模型，而是在赌 Agent 时代的基础设施。

核心事件

1. Claude Opus 4.8：不卷跑卷，卷"敢说不知道"

Opus 4.8 这次的升级思路很有意思——不追求参数爆炸，而是解决开发者最头疼的"胡说八道"问题。

新模型更愿意承认自己不确定，对没把握的信息会主动标注风险，忽略代码缺陷的概率降到了前代的四分之一。在 Terminal-Bench 2.1 上拿了 74.2%，比 4.7 高了 8.4%；SWE-Bench Pro 也涨了近 5%。

但真正的大招是 Dynamic Workflows。Claude 现在能像项目经理一样，把复杂任务拆给几百个子 Agent 并行处理——自动规划、分配、执行、验证、汇总，全程不用人盯。这对大型代码迁移、数据处理之类的场景是质变。

代价呢？高强度推理模式下效果拉满，但一旦降到普通档位，编码得分从 63 直接掉到 42。换句话说，想让 Claude 真正"封神"，你得舍得烧 Token。

另外，Anthropic 还预告了 Claude Mythos，几周内开放。从 4.7 到 4.8 只隔 43 天，再到 Mythos 只隔几周——这个发版节奏本身就在说明一些事情。

2. Anthropic 650 亿融资，估值逼近万亿

H 轮 650 亿美元，投后估值 9650 亿。Sequoia、红杉、Altimeter、Dragoneer 领投。

更值得关注的数字：本月年化营收已突破 470 亿美元。而且 Claude 现在是唯一同时上线 AWS、Google Cloud 和 Azure 的前沿模型，背后还有跟亚马逊签的 5GW 算力协议和跟谷歌、博通的下一代 TPU 协议。

Sequoia 合伙人说了一句值得细品的话：企业正在用 Claude 处理复杂工作流，Claude 由此在学习企业的真实运作方式——上下文、流程、判断力。这轮融资的意义不只是钱，更是 Claude 在企业级应用中的深度嵌入。

3. DeepSeek 月吞 17 万亿 Tokens，国产算力最关键一战

打开 OpenRouter 最新月榜，DeepSeek 的存在感强到离谱：V4 Flash 月调用 9.13T tokens 排第 1，V4 Pro 3.89T 排第 9，V3.2 4.07T 排第 8。三个模型合计超过 17 万亿 tokens。

但更关键的变化是：Token 消耗的绝对主力已经从聊天机器人让位给了 Agent 系统。排名前两位的应用 Hermes Agent 和 OpenClaw，月调用量分别达到 10.8T 和 6.25T tokens。

这种"万亿级"的高强度并发，把底层基础设施的每个短板都无限放大了。MoE 架构的通信瓶颈、百万级上下文的内存压力、低精度量化的可靠性——头部模型撞上了同一堵墙。

昇腾的回应是三个大招：MegaMoE 通算融合算子（Prefill 性能提升 20%-30%）、KVCache 池化方案（Prefill 提升 4 倍以上）、硬件原生 MXFP 支撑。DeepSeek V4 开源首日就在昇腾上跑起来了，不是因为削足适履，而是因为这堵墙所有人都会撞上。

其他值得关注的事

苹果 iOS 27：Siri 要上岛了

古尔曼爆料，iOS 27 将对 Siri 进行大改造。Siri 会变成一个独立的聊天 App，界面类似 ChatGPT，入驻灵动岛，支持语音和下滑搜索两种交互方式。更狠的是，苹果打算让 Siri 接入 ChatGPT、Gemini、Claude 等多种 AI 模型——用户可以自己选。

腾讯「代号 Craft」：用自然语言做游戏

腾讯在游戏发布会上首发了 AI 游戏创作平台「代号 Craft」。用自然语言输入创意，AI 自动生成可运行的 2D/3D 游戏。平台内置全链路 AIGC 工具——角色立绘、3D 模型、骨骼动画、场景、音效全包，还免费开放上万种预制美术资产。设计思路是"下限够低、上限够高"：零基础小白有策划知识库帮你理清需求，专业开发者可以做工业级精调。

面壁智能开源周：5 天 5 项技术亮剑

面壁智能联合 OpenBMB 连续发布了五项端侧 AI 技术：1.58-bit 低比特训练大模型 BitCPM-CANN、性能超越两倍参数模型的 MiniCPM5-1B、AI 自主编写且比英伟达 Megatron 更快的训练框架 ForgeTrain、智能体操作系统 PilotDeck，以及核心数据集 UltraData。MiniCPM5-1B 在部分任务上已经超越 GPT-4o 某些版本——端侧模型正在以惊人的速度"吞噬"云端模型的能力领地。

联想百应 AI 主机：Token 按量计费该翻篇了

联想发布了三款 AI 边缘设备：mini 100（面向一人公司，Token 成本降 70%-95%）、300（本地跑 35B 多模态模型）、Pro 700（支持 122B 模型与多机集联）。核心逻辑是把推理能力放在本地，一次性投入后算力成本固定，数据也在本地不出门。对那些被 Token 账单吓到不敢放开用 Agent 的人来说，这算是一个务实的解法。

MiniMax M3 即将发布

创始人张佳源宣布 M3 模型即将发布，特别邀请中文开源社区贡献者加入飞书群抢先评测。需要有开源项目贡献经验。

OpenAI Auto Review：用 AI 监督 AI

OpenAI 推出 Auto Review 功能——用一个 AI Agent 实时监督主 Agent 的每个动作，防止做出有害行为。这解锁了一个新用法：让 Agent 整夜处理敏感数据，不用人盯。

Google AI Threat Defense

Google 推出 AI 驱动的网络安全解决方案，用 Wiz 平台做安全扫描，Gemini 做持续深度扫描，CodeMender 做软件修复。AI 攻击越来越多，用 AI 防 AI 正在成为标配。

一个观察

今天最有意思的一个细节：Opus 4.8 的桌面端被骂得很惨。Chat、Code、Cowork 三个标签页的设计被批"混乱不堪"，导致很多人虽然觉得模型强，但日常还是用 GPT-5.5。

这说明一个事：在 Agent 时代，模型能力的天花板确实在不断抬高，但"用起来顺手"这件事反而变得更重要了。当你的模型要调度几百个子 Agent、处理十几万行代码的时候，交互设计的好坏直接决定了用户愿不愿意把复杂任务交给你。

Anthropic 拿到了万亿估值和最强模型，但桌面端的短板可能比跑分上的短板更致命。