05·29 - AI 午报:Anthropic 完成 650 亿美元融资估值近万亿,Opus 4.8 同步发布
今日 AI 动态与开发生态速览
概览
Anthropic 与 Claude 生态
#1 Anthropic 完成 650 亿美元 H 轮融资,估值突破 9650 亿美元 #2 Claude Opus 4.8 发布,Agent 能力大幅提升,Fast 模式降价三分之二 #3 Claude Code 推出 Dynamic Workflows,支持数百 subagent 并行编排
模型与开源
#4 阶跃星辰开源 Step 3.7 Flash 多模态推理模型,Apache 2.0 协议 #5 Liquid AI 发布 LFM2.5-8B-A1B 设备端模型,支持 CPU/GPU 推理 #6 IBM Granite 4.1 回归纯 Transformer 架构,引发社区讨论
Agent 与工具
#7 Firecrawl 发布 Monitoring 网页变更监控功能,减少 90% token 消耗 #8 OpenClaw 更新 v2026.5.27,包体积缩小 59%,冷启动提速 2.9 倍 #9 Perplexity AI 助手 Computer 集成 Microsoft 365 办公套件
基础设施与推理
#10 NVIDIA Blackwell 在 STAC-AI 金融推理基准中创下新纪录 #11 阶跃星辰模型获 Day-0 vLLM 和 SGLang 支持 #12 llama.cpp b9387 优化 AMD ROCm 后端,引入 MFMA 指令支持
研究与基准
#13 新基准 The Singularity Gate 测试 AI 预测科学发现能力 #14 Meta AI 发布 ATLAS 自动化形式化验证项目 #15 Aleph Prover 形式化验证 OpenAI 对 Erdős 问题的反证
Anthropic 与 Claude 生态
#1 Anthropic 完成 650 亿美元 H 轮融资,估值突破 9650 亿美元
Anthropic 宣布完成 650 亿美元 H 轮融资,投后估值达 9650 亿美元。 本轮融资由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia Capital 领投,Capital Group、Coatue、D1 Capital Partners、GIC、ICONIQ、XN 联合领投。Blackstone、Fidelity、Temasek、DST Global 等跟投。
本轮融资涵盖超大规模计算厂商早前承诺的 150 亿美元投资,亚马逊出资 50 亿美元。战略基础设施合作伙伴 Micron、Samsung、SK hynix 亦参与本轮。
Anthropic 本月经常性收入已突破 470 亿美元。资金将投入安全与可解释性研究,并扩大算力以满足 Claude 的运行需求。公司近期签署的算力协议包括亚马逊 5GW 新容量、Google/Broadcom 5GW 下一代 TPU 容量,以及 SpaceX Colossus 1 和 2 的 GPU 容量。
Claude 已成为首个在 AWS、Google Cloud 和 Microsoft Azure 三大云平台同步提供的前沿模型。
来源:Anthropic Blog · 2026-05-29原文:https://www.anthropic.com/news/series-h
#2 Claude Opus 4.8 发布,编码与 Agent 能力全面提升,Fast 模式降价三分之二
5 月 28 日,Anthropic 发布 Claude Opus 4.8,显著提升编码、Agent 任务与长时运行一致性,API 常规定价不变。 官方评测显示,代码缺陷漏过率降至前代的四分之一。
官方同步披露了多项基准结果。表格显示,Opus 4.8 在 SWE-Bench Pro、Humanity's Last Exam、OSWorld-Verified、GDPval-AA、Finance Agent v2 上高于对照模型;Terminal-Bench 2.1 一项则由 GPT-5.5 领先。下表仅整理官方图片中的指标。
本次更新还同步带来几项 Agent 相关能力。努力程度控制提供 low、medium、high、extra、max 五档,claude.ai 和 API 均可使用;Claude Code 中的 Dynamic Workflows 支持并行运行数百个 subagent;Messages API 也开始支持中段指令更新,可在 agent 运行过程中调整指令,且不破坏 prompt cache。
Anthropic 还强调了模型诚实性的改善:Opus 4.8 对代码缺陷视而不见的概率降低约四倍,更倾向于主动承认不确定性。对齐评估显示亲社会特质达新高,未对齐行为发生率远低于 Opus 4.7。
早期客户反馈集中在代码判断、端到端 Agent 和多模态推理上。Anthropic 内部认为模型判断力更敏锐,会主动发现错误并 push back;Augment Code 称其在 Super-Agent 基准上成为唯一完成所有端到端 case 的模型;Cursor 表示其在 CursorBench 所有努力等级下均超越前代;Casetext 的 Legal Agent 首次突破 10% 门槛;Cognition 的 Devin 工具调用更干净,修复了 4.7 的 comment 冗余问题;Databricks 的 Genie 则实现 token 成本降低 61%,PDF 和图表多模态推理能力也有所增强。
此外,Anthropic 计划在未来几周内向所有客户推出 Mythos 级别模型。
来源:Anthropic Blog · 2026-05-29原文:https://www.anthropic.com/news/claude-opus-4-8


#3 Claude Code 推出 Dynamic Workflows,支持数百 subagent 并行编排
Anthropic 发布 Claude Code v2.1.154,推出研究预览版 Dynamic Workflows 功能。 该功能可自动生成 JavaScript 编排脚本,调度最多 16 个并发 subagent、单次运行上限 1000 个 agent,中间结果保存在脚本变量中而非占用上下文窗口,运行中断后可在同一会话内恢复。
在能力展示上,Claude Code 搭配 Opus 4.8 现已可完成从 kickoff 到 merge 的代码库级迁移,跨越数十万行代码,并以现有测试套件作为验收标准。
该功能面向 Max、Team 套餐及 API 用户默认开启,Enterprise 套餐默认关闭。官方同时提示,单次运行的 token 消耗会远高于普通会话。
来源:Claude Blog · 2026-05-29原文:https://claude.com/blog/introducing-dynamic-workflows-in-claude-code
模型与开源
#4 阶跃星辰开源 Step 3.7 Flash 多模态推理模型,Apache 2.0 协议
阶跃星辰在 2026 年 5 月 29 日发布并开源了 Step 3.7 Flash 多模态推理模型。 模型采用 196B 语言骨干加 1.8B 视觉编码器的稀疏 MoE 架构,每个 token 仅激活约 11B 参数,支持 256K 上下文窗口,提供低、中、高三档推理强度。
在基准测试中,Step 3.7 Flash 在 ClawEval-1.1 和 SimpleVQA(Search)上均取得同期第一,SWE-Bench Pro 得分 56.3,位列同期第二。模型提供的 Advisor Mode 成本约为 Claude Opus 4.6 的九分之一,编码性能达到后者约 97%。
权重以 Apache 2.0 协议开源,可用格式覆盖 BF16、FP8、NVFP4、GGUF 等,并已接入 StepFun API、OpenRouter 与 NVIDIA NIM。
来源:StepFun Blog · 2026-05-29原文:https://static.stepfun.com/blog/step-3.7-flash
#5 Liquid AI 发布 LFM2.5-8B-A1B 设备端模型,支持 CPU/GPU 推理
Liquid AI 推出面向端侧设备的 LFM2.5-8B-A1B 混合模型。 该模型基于 LFM2 架构,通过扩展预训练与强化学习,在指令遵循和智能体任务上的表现已能媲美规模更大的稠密模型和 MoE 模型。
Liquid AI 称,该模型具备同尺寸级别中最快的推理吞吐量,支持 CPU 和 GPU 推理。生态适配方面,LFM2.5-8B-A1B 首发兼容 llama.cpp、MLX、vLLM 和 SGLang,并已提供 GGUF 格式,可在低配置设备上运行。
来源:Hugging Face · 2026-05-29原文:https://huggingface.co/LiquidAI/LFM2.5-8B-A1B
#6 IBM Granite 4.1 回归纯 Transformer 架构,引发社区讨论
IBM 在 Granite 4.1 中将架构从 Granite 4 的混合 Mamba-Attention 切换回纯 Transformer,引发社区讨论。
用户实测对比
IBM 称纯 Transformer 更便于微调,但社区质疑这一选择牺牲了长上下文和推理效率,尤其不利于文档摘要等基础任务。
来源:Reddit r/LocalLLaMA · 2026-05-29原文:https://www.reddit.com/r/LocalLLaMA/comments/1tqas55/granite_41_architecture_changes
Agent 与工具
#7 Firecrawl 发布 Monitoring 网页变更监控功能,减少 90% token 消耗
Firecrawl 正式推出 Monitoring 网页变更监控功能,用户可以通过 URL 搭配自然语言描述来设定监控目标。无论是跟踪页面中特定元素的更新,还是感知整页内容变化,都可以用一句描述完成配置。
Monitoring 只在页面实际发生变化时触发通知。平台会通过 webhook 或邮件发送变更前后的差异对比,并生成可长期访问的永久链接。更关键的是,系统只提取真正改动的部分,而不是每次都把整个页面交给大语言模型处理,最高可将 LLM token 消耗削减 90%。
该功能主要面向 Agent 场景,目标是减少重复抓取和全量回传带来的计算开销。在自动化代理需要持续核对网页信息的流程中,这一机制能让监控更轻量,也更聚焦。
来源:Firecrawl Blog · 2026-05-29原文:https://x.com/firecrawl/status/2060042535003701523
#8 OpenClaw 更新 v2026.5.27,包体积缩小 59%,冷启动提速 2.9 倍
OpenClaw 发布 v2026.5.27 版本,重点放在性能、安全和插件能力上。官方数据显示,冷启动 Agent 轮次稳定提速 2.9 倍至 3.4 秒,安装包体积缩减 59%,降至 17.8 MB。
这次更新收紧了运行时安全策略,可提前阻止不安全的 Node 环境覆盖;Codex 内存稳定性和 hook relay 重启恢复能力也得到增强。功能侧,Pixverse 视频生成、OpenAI 兼容嵌入等能力被引入核心或插件体系,扩展了可用工具集。
OpenClaw 同时公开了包含完整测试证据的发布仓库,方便用户和开发者核对性能、安全与稳定性改动。
来源:OpenClaw Blog · 2026-05-29原文:https://openclaw.ai/blog/lighter-core-sharper-claws
#9 Perplexity AI 助手 Computer 集成 Microsoft 365 办公套件
Perplexity AI 宣布其 AI 助手 Computer 正式集成 Microsoft 365 办公套件,插件已上架微软应用商店。用户现在可以在 Word、Excel、PowerPoint、Outlook 和 Teams 中直接调用 Computer,完成文档起草、数据分析和联网搜索等任务,减少在标签页之间切换和复制粘贴的操作。
这项集成还加入了自动模型调度机制。系统会根据任务类型和复杂度分配合适的模型,以平衡效率与准确性。Computer 同时支持接入企业内部 SharePoint 及其他第三方工具,让用户在常用办公环境中直接检索、整合组织内部信息。
来源:Perplexity Hub · 2026-05-29原文:https://www.perplexity.ai/hub/products/integrations/microsoft
基础设施与推理
#10 NVIDIA Blackwell 在 STAC-AI 金融推理基准中创下新纪录
NVIDIA Blackwell GPU 在金融行业标准基准测试 STAC-AI 中刷新大语言模型推理纪录。
NVIDIA 公开的测试图表显示,Blackwell 在金融场景的 LLM 推理中展现出吞吐优势。单卡 B200 在 Llama8B+EDGAR4、Llama8B+EDGAR5、Llama70B+EDGAR4、Llama70B+EDGAR5 四组任务上,每 GPU 性能分别达到 GH200 的约 1.5 倍、1.8 倍、2.8 倍和 2.25 倍,柱内数值为各配置的 RPS。另一组对比图同时列出 inter-word latency 与 reaction time。


来源:NVIDIA Blog · 2026-05-29原文:https://developer.nvidia.com/blog/nvidia-blackwell-sets-stac-ai-record-for-llm-inference-in-finance
#11 阶跃星辰模型获 Day-0 vLLM 和 SGLang 支持
阶跃星辰模型上线即获 vLLM 与 SGLang 推理框架 Day-0 支持。
新模型发布当日即可通过 vLLM 与 SGLang 等高性能推理引擎直接部署和推理,无需等待适配。两者均为业界广泛使用的 LLM 推理引擎,支持动态批处理、前缀缓存等优化。
来源:StepFun X · 2026-05-29原文:https://x.com/i/web/status/2060157306961297861
#12 llama.cpp b9387 优化 AMD ROCm 后端,引入 MFMA 指令支持
llama.cpp 发布 b9387 版本,重点优化 AMD ROCm 后端,并引入 MFMA(Matrix Fused Multiply-Add)指令支持。
这项更新仅适用于基于 AMD CDNA 架构的 MI100、MI200、MI300 系列数据中心 GPU,消费级 Radeon 显卡不在此列。
社区测试已启动,性能提升的具体数据暂未公布。
来源:Reddit r/LocalLLaMA · 2026-05-29原文:https://www.reddit.com/r/LocalLLaMA/comments/1tqngml/llamacpp_b9387_significant_amdrocm_pp_update
研究与基准
#13 新基准 The Singularity Gate 测试 AI 预测科学发现能力
社区研究者发布新基准 The Singularity Gate,评估前沿 AI 在训练截止日期后预测范式突破性科学发现的能力。
测试结果显示,Claude Opus 4.7 以 17.75% 的成绩领先,GPT-5.5 得分为 16.08%,所有模型的完全正确率均为 0%。该基准被视为实现自主 AI 驱动科学发现的必要非充分条件。
来源:Reddit r/singularity · 2026-05-29原文:https://www.reddit.com/r/singularity/comments/1tq8vrx/the_singularity_gate_new_benchmark_for_ai
#14 Meta AI 发布 ATLAS 自动化形式化验证项目
Meta AI 发布 ATLAS,为迄今最大规模的自动化形式化验证项目之一。
ATLAS 能够将数学定理和程序逻辑自动转化为机器可验证的证明,以此增强 AI 系统安全性与可靠性。该项目由 Meta AI 的 Charles Arnal 团队主导,目前仅通过社交媒体对外宣布,技术细节、数据集规模及性能指标均未公开。
来源:Meta AI X · 2026-05-29原文:https://x.com/i/web/status/2060090463701365200
#15 Aleph Prover 形式化验证 OpenAI 对 Erdős 问题的反证
Aleph Prover 宣布,已完成对 OpenAI 就 Paul Erdős 平面单位问题所给反证的形式化验证。
该团队即将发布形式化证明,为数学定理的机器验证树立新标杆,AI 辅助证明在严谨性上迈出关键一步,但具体细节尚未公开。
来源:X · 2026-05-29原文:https://x.com/i/web/status/2060101758165123472
本文由AI辅助生成,可能存在幻觉
夜雨聆风