AI 日报|Anthropic 万亿估值在望,Claude 能调 100 个 Agent 帮你干活了
今天 AI 圈最炸裂的事,都跟 Anthropic 有关。
一边是 Claude Opus 4.8 时隔 43 天就发了新版,直接甩出"动态工作流"——单次任务可以调度几百个子 Agent 并行干活。另一边,650 亿美元 H 轮融资到账,估值 9650 亿,离万亿就差临门一脚。
这两件事放一起看,信号很明确:Anthropic 不只是在做更好的模型,而是在赌 Agent 时代的基础设施。
核心事件
1. Claude Opus 4.8:不卷跑卷,卷"敢说不知道"
Opus 4.8 这次的升级思路很有意思——不追求参数爆炸,而是解决开发者最头疼的"胡说八道"问题。
新模型更愿意承认自己不确定,对没把握的信息会主动标注风险,忽略代码缺陷的概率降到了前代的四分之一。在 Terminal-Bench 2.1 上拿了 74.2%,比 4.7 高了 8.4%;SWE-Bench Pro 也涨了近 5%。
但真正的大招是 Dynamic Workflows。Claude 现在能像项目经理一样,把复杂任务拆给几百个子 Agent 并行处理——自动规划、分配、执行、验证、汇总,全程不用人盯。这对大型代码迁移、数据处理之类的场景是质变。
代价呢?高强度推理模式下效果拉满,但一旦降到普通档位,编码得分从 63 直接掉到 42。换句话说,想让 Claude 真正"封神",你得舍得烧 Token。
另外,Anthropic 还预告了 Claude Mythos,几周内开放。从 4.7 到 4.8 只隔 43 天,再到 Mythos 只隔几周——这个发版节奏本身就在说明一些事情。
2. Anthropic 650 亿融资,估值逼近万亿
H 轮 650 亿美元,投后估值 9650 亿。Sequoia、红杉、Altimeter、Dragoneer 领投。
更值得关注的数字:本月年化营收已突破 470 亿美元。而且 Claude 现在是唯一同时上线 AWS、Google Cloud 和 Azure 的前沿模型,背后还有跟亚马逊签的 5GW 算力协议和跟谷歌、博通的下一代 TPU 协议。
Sequoia 合伙人说了一句值得细品的话:企业正在用 Claude 处理复杂工作流,Claude 由此在学习企业的真实运作方式——上下文、流程、判断力。这轮融资的意义不只是钱,更是 Claude 在企业级应用中的深度嵌入。
3. DeepSeek 月吞 17 万亿 Tokens,国产算力最关键一战
打开 OpenRouter 最新月榜,DeepSeek 的存在感强到离谱:V4 Flash 月调用 9.13T tokens 排第 1,V4 Pro 3.89T 排第 9,V3.2 4.07T 排第 8。三个模型合计超过 17 万亿 tokens。
但更关键的变化是:Token 消耗的绝对主力已经从聊天机器人让位给了 Agent 系统。排名前两位的应用 Hermes Agent 和 OpenClaw,月调用量分别达到 10.8T 和 6.25T tokens。
这种"万亿级"的高强度并发,把底层基础设施的每个短板都无限放大了。MoE 架构的通信瓶颈、百万级上下文的内存压力、低精度量化的可靠性——头部模型撞上了同一堵墙。
昇腾的回应是三个大招:MegaMoE 通算融合算子(Prefill 性能提升 20%-30%)、KVCache 池化方案(Prefill 提升 4 倍以上)、硬件原生 MXFP 支撑。DeepSeek V4 开源首日就在昇腾上跑起来了,不是因为削足适履,而是因为这堵墙所有人都会撞上。
其他值得关注的事
苹果 iOS 27:Siri 要上岛了
古尔曼爆料,iOS 27 将对 Siri 进行大改造。Siri 会变成一个独立的聊天 App,界面类似 ChatGPT,入驻灵动岛,支持语音和下滑搜索两种交互方式。更狠的是,苹果打算让 Siri 接入 ChatGPT、Gemini、Claude 等多种 AI 模型——用户可以自己选。
腾讯「代号 Craft」:用自然语言做游戏
腾讯在游戏发布会上首发了 AI 游戏创作平台「代号 Craft」。用自然语言输入创意,AI 自动生成可运行的 2D/3D 游戏。平台内置全链路 AIGC 工具——角色立绘、3D 模型、骨骼动画、场景、音效全包,还免费开放上万种预制美术资产。设计思路是"下限够低、上限够高":零基础小白有策划知识库帮你理清需求,专业开发者可以做工业级精调。
面壁智能开源周:5 天 5 项技术亮剑
面壁智能联合 OpenBMB 连续发布了五项端侧 AI 技术:1.58-bit 低比特训练大模型 BitCPM-CANN、性能超越两倍参数模型的 MiniCPM5-1B、AI 自主编写且比英伟达 Megatron 更快的训练框架 ForgeTrain、智能体操作系统 PilotDeck,以及核心数据集 UltraData。MiniCPM5-1B 在部分任务上已经超越 GPT-4o 某些版本——端侧模型正在以惊人的速度"吞噬"云端模型的能力领地。
联想百应 AI 主机:Token 按量计费该翻篇了
联想发布了三款 AI 边缘设备:mini 100(面向一人公司,Token 成本降 70%-95%)、300(本地跑 35B 多模态模型)、Pro 700(支持 122B 模型与多机集联)。核心逻辑是把推理能力放在本地,一次性投入后算力成本固定,数据也在本地不出门。对那些被 Token 账单吓到不敢放开用 Agent 的人来说,这算是一个务实的解法。
MiniMax M3 即将发布
创始人张佳源宣布 M3 模型即将发布,特别邀请中文开源社区贡献者加入飞书群抢先评测。需要有开源项目贡献经验。
OpenAI Auto Review:用 AI 监督 AI
OpenAI 推出 Auto Review 功能——用一个 AI Agent 实时监督主 Agent 的每个动作,防止做出有害行为。这解锁了一个新用法:让 Agent 整夜处理敏感数据,不用人盯。
Google AI Threat Defense
Google 推出 AI 驱动的网络安全解决方案,用 Wiz 平台做安全扫描,Gemini 做持续深度扫描,CodeMender 做软件修复。AI 攻击越来越多,用 AI 防 AI 正在成为标配。
一个观察
今天最有意思的一个细节:Opus 4.8 的桌面端被骂得很惨。Chat、Code、Cowork 三个标签页的设计被批"混乱不堪",导致很多人虽然觉得模型强,但日常还是用 GPT-5.5。
这说明一个事:在 Agent 时代,模型能力的天花板确实在不断抬高,但"用起来顺手"这件事反而变得更重要了。当你的模型要调度几百个子 Agent、处理十几万行代码的时候,交互设计的好坏直接决定了用户愿不愿意把复杂任务交给你。
Anthropic 拿到了万亿估值和最强模型,但桌面端的短板可能比跑分上的短板更致命。
夜雨聆风