05·29 - AI 午报:Anthropic 完成 650 亿美元融资估值近万亿,Opus 4.8 同步发布

05·29 - AI 午报：Anthropic 完成 650 亿美元融资估值近万亿，Opus 4.8 同步发布

今日 AI 动态与开发生态速览

概览

Anthropic 与 Claude 生态

#1 Anthropic 完成 650 亿美元 H 轮融资，估值突破 9650 亿美元
#2 Claude Opus 4.8 发布，Agent 能力大幅提升，Fast 模式降价三分之二
#3 Claude Code 推出 Dynamic Workflows，支持数百 subagent 并行编排

模型与开源

#4 阶跃星辰开源 Step 3.7 Flash 多模态推理模型，Apache 2.0 协议
#5 Liquid AI 发布 LFM2.5-8B-A1B 设备端模型，支持 CPU/GPU 推理
#6 IBM Granite 4.1 回归纯 Transformer 架构，引发社区讨论

Agent 与工具

#7 Firecrawl 发布 Monitoring 网页变更监控功能，减少 90% token 消耗
#8 OpenClaw 更新 v2026.5.27，包体积缩小 59%，冷启动提速 2.9 倍
#9 Perplexity AI 助手 Computer 集成 Microsoft 365 办公套件

基础设施与推理

#10 NVIDIA Blackwell 在 STAC-AI 金融推理基准中创下新纪录
#11 阶跃星辰模型获 Day-0 vLLM 和 SGLang 支持
#12 llama.cpp b9387 优化 AMD ROCm 后端，引入 MFMA 指令支持

研究与基准

#13 新基准 The Singularity Gate 测试 AI 预测科学发现能力
#14 Meta AI 发布 ATLAS 自动化形式化验证项目
#15 Aleph Prover 形式化验证 OpenAI 对 Erdős 问题的反证

Anthropic 与 Claude 生态

#1 Anthropic 完成 650 亿美元 H 轮融资，估值突破 9650 亿美元

Anthropic 宣布完成 650 亿美元 H 轮融资，投后估值达 9650 亿美元。 本轮融资由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia Capital 领投，Capital Group、Coatue、D1 Capital Partners、GIC、ICONIQ、XN 联合领投。Blackstone、Fidelity、Temasek、DST Global 等跟投。

本轮融资涵盖超大规模计算厂商早前承诺的 150 亿美元投资，亚马逊出资 50 亿美元。战略基础设施合作伙伴 Micron、Samsung、SK hynix 亦参与本轮。

Anthropic 本月经常性收入已突破 470 亿美元。资金将投入安全与可解释性研究，并扩大算力以满足 Claude 的运行需求。公司近期签署的算力协议包括亚马逊 5GW 新容量、Google/Broadcom 5GW 下一代 TPU 容量，以及 SpaceX Colossus 1 和 2 的 GPU 容量。

Claude 已成为首个在 AWS、Google Cloud 和 Microsoft Azure 三大云平台同步提供的前沿模型。

来源：Anthropic Blog · 2026-05-29原文：https://www.anthropic.com/news/series-h

#2 Claude Opus 4.8 发布，编码与 Agent 能力全面提升，Fast 模式降价三分之二

5 月 28 日，Anthropic 发布 Claude Opus 4.8，显著提升编码、Agent 任务与长时运行一致性，API 常规定价不变。 官方评测显示，代码缺陷漏过率降至前代的四分之一。

官方同步披露了多项基准结果。表格显示，Opus 4.8 在 SWE-Bench Pro、Humanity's Last Exam、OSWorld-Verified、GDPval-AA、Finance Agent v2 上高于对照模型；Terminal-Bench 2.1 一项则由 GPT-5.5 领先。下表仅整理官方图片中的指标。

评测方向	Benchmark	Opus 4.8	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
Agentic coding	SWE-Bench Pro	69.2%	64.3%	58.6%	54.2%
Agentic terminal coding	Terminal-Bench 2.1	74.6%	66.1%	78.2%	70.3%
Multidisciplinary reasoning	Humanity's Last Exam（无工具）	49.8%	46.9%	41.4%	44.4%
Multidisciplinary reasoning	Humanity's Last Exam（有工具）	57.9%	54.7%	52.2%	51.4%
Agentic computer use	OSWorld-Verified	83.4%	82.8%	78.7%	76.2%
Knowledge work	GDPval-AA	1890	1753	1769	1314
Agentic financial analysis	Finance Agent v2	53.9%	51.5%	51.8%	43.0%

定价方面，Opus 4.8 的常规定价维持不变，输入 $5/百万 token，输出 $25/百万 token；Fast 模式降价三分之二，调整后输入 $10/百万 token、输出 $50/百万 token，此前为 $30/$150，同时速度提升约 2.5 倍。

本次更新还同步带来几项 Agent 相关能力。努力程度控制提供 low、medium、high、extra、max 五档，claude.ai 和 API 均可使用；Claude Code 中的 Dynamic Workflows 支持并行运行数百个 subagent；Messages API 也开始支持中段指令更新，可在 agent 运行过程中调整指令，且不破坏 prompt cache。

Anthropic 还强调了模型诚实性的改善：Opus 4.8 对代码缺陷视而不见的概率降低约四倍，更倾向于主动承认不确定性。对齐评估显示亲社会特质达新高，未对齐行为发生率远低于 Opus 4.7。

早期客户反馈集中在代码判断、端到端 Agent 和多模态推理上。Anthropic 内部认为模型判断力更敏锐，会主动发现错误并 push back；Augment Code 称其在 Super-Agent 基准上成为唯一完成所有端到端 case 的模型；Cursor 表示其在 CursorBench 所有努力等级下均超越前代；Casetext 的 Legal Agent 首次突破 10% 门槛；Cognition 的 Devin 工具调用更干净，修复了 4.7 的 comment 冗余问题；Databricks 的 Genie 则实现 token 成本降低 61%，PDF 和图表多模态推理能力也有所增强。

此外，Anthropic 计划在未来几周内向所有客户推出 Mythos 级别模型。

来源：Anthropic Blog · 2026-05-29原文：https://www.anthropic.com/news/claude-opus-4-8

#3 Claude Code 推出 Dynamic Workflows，支持数百 subagent 并行编排

Anthropic 发布 Claude Code v2.1.154，推出研究预览版 Dynamic Workflows 功能。 该功能可自动生成 JavaScript 编排脚本，调度最多 16 个并发 subagent、单次运行上限 1000 个 agent，中间结果保存在脚本变量中而非占用上下文窗口，运行中断后可在同一会话内恢复。

在能力展示上，Claude Code 搭配 Opus 4.8 现已可完成从 kickoff 到 merge 的代码库级迁移，跨越数十万行代码，并以现有测试套件作为验收标准。

该功能面向 Max、Team 套餐及 API 用户默认开启，Enterprise 套餐默认关闭。官方同时提示，单次运行的 token 消耗会远高于普通会话。

来源：Claude Blog · 2026-05-29原文：https://claude.com/blog/introducing-dynamic-workflows-in-claude-code

模型与开源

#4 阶跃星辰开源 Step 3.7 Flash 多模态推理模型，Apache 2.0 协议

阶跃星辰在 2026 年 5 月 29 日发布并开源了 Step 3.7 Flash 多模态推理模型。 模型采用 196B 语言骨干加 1.8B 视觉编码器的稀疏 MoE 架构，每个 token 仅激活约 11B 参数，支持 256K 上下文窗口，提供低、中、高三档推理强度。

在基准测试中，Step 3.7 Flash 在 ClawEval-1.1 和 SimpleVQA（Search）上均取得同期第一，SWE-Bench Pro 得分 56.3，位列同期第二。模型提供的 Advisor Mode 成本约为 Claude Opus 4.6 的九分之一，编码性能达到后者约 97%。

权重以 Apache 2.0 协议开源，可用格式覆盖 BF16、FP8、NVFP4、GGUF 等，并已接入 StepFun API、OpenRouter 与 NVIDIA NIM。

来源：StepFun Blog · 2026-05-29原文：https://static.stepfun.com/blog/step-3.7-flash

#5 Liquid AI 发布 LFM2.5-8B-A1B 设备端模型，支持 CPU/GPU 推理

Liquid AI 推出面向端侧设备的 LFM2.5-8B-A1B 混合模型。 该模型基于 LFM2 架构，通过扩展预训练与强化学习，在指令遵循和智能体任务上的表现已能媲美规模更大的稠密模型和 MoE 模型。

Liquid AI 称，该模型具备同尺寸级别中最快的推理吞吐量，支持 CPU 和 GPU 推理。生态适配方面，LFM2.5-8B-A1B 首发兼容 llama.cpp、MLX、vLLM 和 SGLang，并已提供 GGUF 格式，可在低配置设备上运行。

来源：Hugging Face · 2026-05-29原文：https://huggingface.co/LiquidAI/LFM2.5-8B-A1B

#6 IBM Granite 4.1 回归纯 Transformer 架构，引发社区讨论

IBM 在 Granite 4.1 中将架构从 Granite 4 的混合 Mamba-Attention 切换回纯 Transformer，引发社区讨论。

用户实测对比

指标	Granite 4 (7B MoE)	Granite 4.1 (8B Dense)
上下文长度	128K	~14K
输入吞吐	~1000 tokens/s	~300 tokens/s
生成吞吐	~40 tokens/s	~15 tokens/s
VRAM 需求	8GB	8GB

IBM 称纯 Transformer 更便于微调，但社区质疑这一选择牺牲了长上下文和推理效率，尤其不利于文档摘要等基础任务。

来源：Reddit r/LocalLLaMA · 2026-05-29原文：https://www.reddit.com/r/LocalLLaMA/comments/1tqas55/granite_41_architecture_changes

Agent 与工具

#7 Firecrawl 发布 Monitoring 网页变更监控功能，减少 90% token 消耗

Firecrawl 正式推出 Monitoring 网页变更监控功能，用户可以通过 URL 搭配自然语言描述来设定监控目标。无论是跟踪页面中特定元素的更新，还是感知整页内容变化，都可以用一句描述完成配置。

Monitoring 只在页面实际发生变化时触发通知。平台会通过 webhook 或邮件发送变更前后的差异对比，并生成可长期访问的永久链接。更关键的是，系统只提取真正改动的部分，而不是每次都把整个页面交给大语言模型处理，最高可将 LLM token 消耗削减 90%。

该功能主要面向 Agent 场景，目标是减少重复抓取和全量回传带来的计算开销。在自动化代理需要持续核对网页信息的流程中，这一机制能让监控更轻量，也更聚焦。

来源：Firecrawl Blog · 2026-05-29原文：https://x.com/firecrawl/status/2060042535003701523

#8 OpenClaw 更新 v2026.5.27，包体积缩小 59%，冷启动提速 2.9 倍

OpenClaw 发布 v2026.5.27 版本，重点放在性能、安全和插件能力上。官方数据显示，冷启动 Agent 轮次稳定提速 2.9 倍至 3.4 秒，安装包体积缩减 59%，降至 17.8 MB。

这次更新收紧了运行时安全策略，可提前阻止不安全的 Node 环境覆盖；Codex 内存稳定性和 hook relay 重启恢复能力也得到增强。功能侧，Pixverse 视频生成、OpenAI 兼容嵌入等能力被引入核心或插件体系，扩展了可用工具集。

OpenClaw 同时公开了包含完整测试证据的发布仓库，方便用户和开发者核对性能、安全与稳定性改动。

来源：OpenClaw Blog · 2026-05-29原文：https://openclaw.ai/blog/lighter-core-sharper-claws

#9 Perplexity AI 助手 Computer 集成 Microsoft 365 办公套件

Perplexity AI 宣布其 AI 助手 Computer 正式集成 Microsoft 365 办公套件，插件已上架微软应用商店。用户现在可以在 Word、Excel、PowerPoint、Outlook 和 Teams 中直接调用 Computer，完成文档起草、数据分析和联网搜索等任务，减少在标签页之间切换和复制粘贴的操作。

这项集成还加入了自动模型调度机制。系统会根据任务类型和复杂度分配合适的模型，以平衡效率与准确性。Computer 同时支持接入企业内部 SharePoint 及其他第三方工具，让用户在常用办公环境中直接检索、整合组织内部信息。

来源：Perplexity Hub · 2026-05-29原文：https://www.perplexity.ai/hub/products/integrations/microsoft

基础设施与推理

#10 NVIDIA Blackwell 在 STAC-AI 金融推理基准中创下新纪录

NVIDIA Blackwell GPU 在金融行业标准基准测试 STAC-AI 中刷新大语言模型推理纪录。

NVIDIA 公开的测试图表显示，Blackwell 在金融场景的 LLM 推理中展现出吞吐优势。单卡 B200 在 Llama8B+EDGAR4、Llama8B+EDGAR5、Llama70B+EDGAR4、Llama70B+EDGAR5 四组任务上，每 GPU 性能分别达到 GH200 的约 1.5 倍、1.8 倍、2.8 倍和 2.25 倍，柱内数值为各配置的 RPS。另一组对比图同时列出 inter-word latency 与 reaction time。

来源：NVIDIA Blog · 2026-05-29原文：https://developer.nvidia.com/blog/nvidia-blackwell-sets-stac-ai-record-for-llm-inference-in-finance

#11 阶跃星辰模型获 Day-0 vLLM 和 SGLang 支持

阶跃星辰模型上线即获 vLLM 与 SGLang 推理框架 Day-0 支持。

新模型发布当日即可通过 vLLM 与 SGLang 等高性能推理引擎直接部署和推理，无需等待适配。两者均为业界广泛使用的 LLM 推理引擎，支持动态批处理、前缀缓存等优化。

来源：StepFun X · 2026-05-29原文：https://x.com/i/web/status/2060157306961297861

#12 llama.cpp b9387 优化 AMD ROCm 后端，引入 MFMA 指令支持

llama.cpp 发布 b9387 版本，重点优化 AMD ROCm 后端，并引入 MFMA（Matrix Fused Multiply-Add）指令支持。

这项更新仅适用于基于 AMD CDNA 架构的 MI100、MI200、MI300 系列数据中心 GPU，消费级 Radeon 显卡不在此列。

社区测试已启动，性能提升的具体数据暂未公布。

来源：Reddit r/LocalLLaMA · 2026-05-29原文：https://www.reddit.com/r/LocalLLaMA/comments/1tqngml/llamacpp_b9387_significant_amdrocm_pp_update

研究与基准

#13 新基准 The Singularity Gate 测试 AI 预测科学发现能力

社区研究者发布新基准 The Singularity Gate，评估前沿 AI 在训练截止日期后预测范式突破性科学发现的能力。

测试结果显示，Claude Opus 4.7 以 17.75% 的成绩领先，GPT-5.5 得分为 16.08%，所有模型的完全正确率均为 0%。该基准被视为实现自主 AI 驱动科学发现的必要非充分条件。

来源：Reddit r/singularity · 2026-05-29原文：https://www.reddit.com/r/singularity/comments/1tq8vrx/the_singularity_gate_new_benchmark_for_ai

#14 Meta AI 发布 ATLAS 自动化形式化验证项目

Meta AI 发布 ATLAS，为迄今最大规模的自动化形式化验证项目之一。

ATLAS 能够将数学定理和程序逻辑自动转化为机器可验证的证明，以此增强 AI 系统安全性与可靠性。该项目由 Meta AI 的 Charles Arnal 团队主导，目前仅通过社交媒体对外宣布，技术细节、数据集规模及性能指标均未公开。

来源：Meta AI X · 2026-05-29原文：https://x.com/i/web/status/2060090463701365200

#15 Aleph Prover 形式化验证 OpenAI 对 Erdős 问题的反证

Aleph Prover 宣布，已完成对 OpenAI 就 Paul Erdős 平面单位问题所给反证的形式化验证。

该团队即将发布形式化证明，为数学定理的机器验证树立新标杆，AI 辅助证明在严谨性上迈出关键一步，但具体细节尚未公开。

来源：X · 2026-05-29原文：https://x.com/i/web/status/2060101758165123472

本文由AI辅助生成，可能存在幻觉