【AI早报】微软与OpenAI「分手」后开战|Anthropic推出Claude 合作伙伴服务分级体系与 Partner Hub 门户|谷歌发布 Gemma 4 12B

📋 今日速览

微软与 OpenAI「分手」后全面开战：Build 2026 亮出自研推理模型与 Copilot 超级应用
月之暗面 Kimi Work Beta 内测：面向知识工作者的通用型本地 Agent
中兴联手腾讯：WorkBuddy AI 云电脑将搭载混元大模型
Anthropic 秘密递交 S-1：最快 Q4 上市，估值逼近万亿美元
旧金山楼市新玩法：Anthropic/OpenAI 股权比现金更「值钱」
Anthropic 推出 Claude 合作伙伴服务分级体系与 Partner Hub 门户
卧安机器人 OneModel 1.7 以隐式通路打通具身智能理解到执行断层
摩根士丹利将向外部 AI 智能体开放万亿美元资管业务接口
Kimi 发布桌面端 Kimi Work，定位通用型本地 Agent
Uber 限制员工使用 Claude Code 等 AI 编码工具以控制成本
谷歌发布 Gemma 4 12B：无编码器统一多模态模型，笔记本即可本地运行
Engadget 梳理 2026 年 Claude 免费版能用什么、不能用什么
小米 YU7 长续航 / Pro / Max 升级 HyperOS 1.16 后全面搭载 XLA 认知大模型
Hugging Face：Reachy Mini 对话应用现可通过 MCP 挂载 Hub 工具
Anthropic 映射一年 AI 助攻网络威胁：攻击更深、更自主，MITRE ATT&CK 需更新
Coralogix 融资 2 亿美元，押注 AI Agent 时代需要「可观测性」监控层
AWS：在 SageMaker AI 上用 SFT + DPO 提升 Agent 工具调用准确率
谷歌：Gemini App 月活超 9 亿，一年翻倍成增长最快产品之一
豆包：计划推出专业版面向生产力场景，基础功能继续免费
Hugging Face：DPO 不止用于聊天对齐，模型自身失败输出可作拒绝样本
浙大教授团队获财通、商汤投资，专注高危场景具身机器人「工程师大脑」
跨维智能登顶 WorldArena 世界模型 Track 2 全球榜首
Nous Research 发布开源跨平台 AI 智能体 Hermes Desktop
Meta 面向 WhatsApp Business 的 AI 客服智能体全球上线
扎克伯格：Meta 智能体目标「帮你经营整家公司」

微软与 OpenAI「分手」后全面开战：Build 2026 亮出自研推理模型与 Copilot 超级应用

在 Build 2026 上，微软密集发布超级应用、自研推理模型 MAI-Thinking-1、网络安全工具 MDASH，以及面向企业的 Autopilot 智能体（首发 Scout），并高调支持 OpenClaw 在 Windows 上运行——OpenClaw 创始人 Peter Steinberger 甚至登台演示。这与 4 月底与 OpenAI 关系实质「分居」后的战略转向一致：AI 负责人 Mustafa Suleyman 直言目标是跻身全球前四大实验室，与 Google DeepMind、OpenAI、Anthropic 同台竞技，强调模型从零训练、无蒸馏、可自主追求超级智能。MAI-Thinking-1 主打企业级数学与编码场景，宣称部分任务成本低于 OpenAI 同类产品；Copilot「超级应用」则整合多款 Autopilot，可读写邮件、加入 Teams 群聊、发送每日简报，并强调合规与安全护栏。Nadella 称这是「把握新机遇」的时刻；Suleyman 则称微软资金充裕、可长期优化，并在 Azure 上保留 1.1 万个模型的选择权。外界仍质疑：基准分数能否转化为真实采用，超级应用与 Agent 赛道拥挤且体验尚待验证。

编辑点评： 微软终于从「OpenAI 分销商」切换为「自研实验室 + 企业渠道」双轨叙事——对政企客户，安全合规与既有 Office 生态仍是护城河，但能否在模型与 Agent 体验上追上 OpenAI/Anthropic，将是接下来几个季度的硬考题。

原文：https://www.theverge.com/ai-artificial-intelligence/942242/microsoft-build-ai-agents-openai-competition^[1]

月之暗面 Kimi Work Beta 内测：面向知识工作者的通用型本地 Agent

月之暗面宣布 Kimi Work Beta 随 Kimi 最新测试版 Mac/Windows 客户端开启内测，定位为面向知识工作者的通用型本地 Agent。内核为 Kimi Code，支持安装与运行 Skill、定时任务等本地 Agent 基础能力，并继承在线版 Kimi Agent 的建站、PPT 等专业 Skills 及金融、科研、法律等数据库；内置可操控浏览器的 Kimi WebBridge。用户只需用自然语言描述目标，即可在本地拆解任务、并行执行、调用工具与浏览器、整理文件夹，交付文档、表格、PPT 等产物。产品支持 Agent 集群，复杂任务最高可自主组建约 300 个子 Agent 协作。官方透露，Kimi Work 本身由 Kimi Code 深度参与开发，工程师一周内完成 Beta 客户端，累计产出超 5 万行有效代码，其中 92% 由 AI 自主生成。

编辑点评： Kimi 把竞争场从网页对话拉到本地端到端交付，子 Agent 规模与「一周 92% AI 写码」的叙事都在对标 Codex/Claude Code——知识工作者市场比纯编程更大，但本地权限、Skill 生态与稳定性将决定能否真正替代终端工作流。

原文：https://www.ithome.com/0/959/547.htm^[2]

中兴联手腾讯：WorkBuddy AI 云电脑将搭载混元大模型

在 AI 云电脑体验日上，中兴通讯披露已与腾讯达成深度战略合作，将推出搭载腾讯原生 WorkBuddy 的 AI 云电脑，融合腾讯云算力与混元大模型能力，面向学生、职场人士与小微团队，定位为新一代生产力工具。中兴副总裁华新海指出，我国家庭电脑拥有率约 67.5%，但约 20% 设备长期闲置；云电脑代表算力领域的共享经济，推动从「拥有设备」到「享受服务」。据 IT 之家，2025 年中兴云电脑终端销量突破 200 万台，连续两年蝉联中国云终端市场冠军。此举将硬件渠道、云终端规模与腾讯大模型及 WorkBuddy 应用层捆绑，意在抢占 AI 云电脑入口。

编辑点评： 云终端冠军 + 混元 + WorkBuddy 是典型的「算力—模型—应用」一条龙——对腾讯是 ToB/ToC 双入口扩张，对中兴则是从卖盒子升级为卖 AI 服务，关键看 WorkBuddy 在弱网与多租户场景下的体验能否拉开差距。

原文：https://www.ithome.com/0/959/517.htm^[3]

Anthropic 秘密递交 S-1：最快 Q4 上市，估值逼近万亿美元

Anthropic 6 月 1 日向美国 SEC 秘密提交 Form S-1 初步注册声明，启动 IPO 流程；股份数量与发行价尚未确定，待 SEC 审查通过后可择机公开上市。同日公司宣布完成 650 亿美元 Series H 融资，投后估值约 9650 亿美元。收入曲线陡峭：去年全年约 100 亿美元，今年 2 月年化收入跑道约 140 亿美元，5 月 Series H 时已达约 470 亿美元，Claude Code 等产品驱动企业客户将 Claude 接入编程与 Agent 工作流。与 SpaceX（目标 6 月中旬挂牌、估值约 1.75 万亿美元）及传闻中 OpenAI（目标估值约 8520 亿美元、或 9 月上市）形成「美股 AI 御三家」同期冲刺 IPO 的局面，三家合计目标估值逼近 4 万亿美元。CEO Dario Amodei 称收入有望超越 OpenAI，并强调「赚钱好过只堆数据中心」。承销律所 Wilson Sonsini 曾操盘 Google 2004 年 IPO；外界解读 Anthropic 意在抢在 OpenAI 之前进入公开市场。

编辑点评： 当三家顶级 AI 公司同年抢跑 IPO，竞争已从模型跑分延伸到资本市场时间表——Anthropic 用 Secret S-1 + 同日巨额融资的组合，既锁定估值叙事，也为 Q4 挂牌预留弹性，国内 AI 公司的估值锚点势必随之重估。

原文：https://www.qbitai.com/2026/06/428407.html^[4]

旧金山楼市新玩法：Anthropic/OpenAI 股权比现金更「值钱」

Wired 报道，在旧金山 median 房价已超 200 万美元、上月至少七套房屋成交价高出要价 100 万美元的背景下，一种更「值钱」的支付品正在出现：Anthropic 或 OpenAI 的私人股权。Duboce Triangle 一套约 299.5 万美元、2495 平方英尺的顶层住宅（160 Noe St.）卖家明确表示可接受两家 AI 公司的股票替代现金；挂牌 24 小时内即收到大量询价。此前 Mill Valley 亦有卖家尝试仅用 Anthropic 股票交换约 800 万美元庄园。驱动逻辑是：Anthropic 投后估值约 9650 亿美元、OpenAI 约 8520 亿美元，员工与早期投资人持股丰厚却受转让限制、难以即时变现，而 AI 热潮已推高本地房价与办公需求。此类交易法律复杂，通常涉及优先购买权、董事会批准等私募股转让障碍，能否成交仍取决于结构化方案与合规路径。

编辑点评： 用未上市 AI 股权买房，是硅谷流动性错配最夸张的注脚——它说明财富已写在 cap table 上而非银行账户里，也提醒市场：IPO 不仅是融资事件，更是成千上万持股者「解锁实物资产」的开关。

原文：https://www.wired.com/story/whats-worth-more-than-san-francisco-real-estate-anthropic-stock/^[5]

Anthropic 推出 Claude 合作伙伴服务分级体系与 Partner Hub 门户

Anthropic 宣布扩展 Claude Partner Network，推出 Services Track 三级服务体系与 Claude Partner Hub 门户。Services Track 分为 Select、Preferred、Global Premier 三档，依据认证从业者数量、联合客户生产部署数及公开客户案例数统一衡量，无论公司规模大小均适用同一标准；例如 Select 需至少 10 名活跃认证人员、2 个联合生产客户和 1 篇公开案例，Global Premier 则要求 1000 名认证人员、100 个跨三大区域的联合客户及 15 篇公开案例。Partner Hub 每日刷新合作伙伴达标情况，并向客户公开目录以便选型；合作伙伴还可通过 MCP 连接器在 Claude 内查询层级进度、交易状态与认证人数。该网络自 3 月启动以来已收到超 4 万家申请、1 万多名顾问获得 Claude 认证；Accenture、Deloitte、KPMG 等全球咨询巨头均已大规模部署 Claude。Anthropic 承诺的 1 亿美元将用于培训、技术支持与联合营销，晋升每年 1 月 1 日与 7 月 1 日处理，行业与场景专项认证亦在筹备中。

编辑点评： 当企业 AI 从试点走向生产，Anthropic 用可量化的分级体系把「谁真正做过落地」标准化，Partner Hub 则把选型从口碑营销变成可核对的数据——这对急于找靠谱集成商的大客户来说，比单纯扩渠道更有实际价值。

原文：https://www.anthropic.com/news/services-track-partner-hub^[6]

卧安机器人 OneModel 1.7 以隐式通路打通具身智能理解到执行断层

卧安机器人（OneRobotics，6600.HK）发布自研世界动作模型 OneModel 1.7 FrontoStria-RL，核心创新是 Predictive Policy Latent 隐式传导机制：将 World Model 对场景的理解在潜在空间中直接传递给动作执行模块，而非依赖显式中间图像或坐标，从而缓解「看懂世界却做不对动作」的行业瓶颈。架构包含 World Model、Understand Expert（Skill 调度）、Action Expert（含 MCF-Proto 局部运动表征）及 RL 闭环与 Success Memory 持续进化机制。在 LIBERO 标准评测中平均成功率达 99%，真机日常操作约 99%、高精度任务约 97%；搭载该模型的 onero H1 保姆机器人在 NVIDIA 展示中完成全流程自主洗衣。高盛中期报告将卧安列为四家推进 VLA 与 World Model 融合方向的企业之一。公司同期中标深圳 4495 万元具身智能数据采集中心项目，并践行「一脑多形」，让保姆、网球、陪伴机器人共享同一 OneModel 底座。

编辑点评： 具身智能的竞争焦点正从参数规模转向架构与数据闭环——卧安用隐式通路回答「理解如何传导到动作」这一根本问题，再押注真实家庭数据工厂，路线偏工程务实而非 demo 炫技。

原文：https://www.qbitai.com/2026/06/428703.html^[7]

摩根士丹利将向外部 AI 智能体开放万亿美元资管业务接口

据 CNBC 报道，摩根士丹利即将向来自数千家企业的外部 AI 智能体开放关键财富管理渠道，成为华尔街较早允许外部 Agent 直连内部系统的大型投行之一。客户可在企业内网部署自主 AI 工具，由智能体直接从 ShareWorks 与 Equity Edge 股权管理平台提取数据与分析，绕过为人类用户设计的传统软件界面。首席产品官 Mark Mitchell 表示，未来企业客户或将无需手动登录上述平台。摩根士丹利已归集约 1.2 万亿美元受托资产，已向少数客户授予早期智能体访问权限，计划明年覆盖 3400 家托管客户。相比之下，摩根大通、高盛等同行虽在内部使用 AI 智能体处理编码等事务，但尚未公开宣布允许外部智能体直连公司系统。

编辑点评： 华尔街首批「Agent 原生接口」落地，意味着 B 端 SaaS 的 UI 层可能被智能体层逐步绕过——对金融基础设施厂商而言，API 与权限治理的重要性将不亚于前端体验。

原文：https://www.ithome.com/0/959/553.htm^[8]

Kimi 发布桌面端 Kimi Work，定位通用型本地 Agent

月之暗面发布桌面端产品 Kimi Work，面向知识工作者的通用型本地 Agent，可在电脑上拆解任务、调用工具、操控浏览器、创建整理文件夹，并完成文档、表格、PPT 等工作交付。产品由 Kimi Code 深度参与开发，支持最长 13 小时连续编码、300 个子 Agent 并行协作及 4000 余次自主工具调用。与侧重对话的网页版不同，Kimi Work 强调在本地环境内端到端完成任务闭环，直接切入白领日常生产力场景，与 Codex、Claude Code 等编码 Agent 及各类桌面 Copilot 形成差异化竞争。

编辑点评： Kimi 从模型对话延伸到本地 Agent 工作台，子 Agent 并行与超长会话时长是硬指标——知识工作者市场比纯 coding 更大，但本地权限与工具链整合将是落地成败的关键。

原文：https://36kr.com/newsflashes/3837454258391555?f=rss^[9]

Uber 限制员工使用 Claude Code 等 AI 编码工具以控制成本

Uber 向 Bloomberg 确认，近期已对员工使用 Agent 型编码软件实施月度 token 上限：每款 AI 编码工具每月限额 1500 美元，各工具预算独立核算，适用于 Cursor、Anthropic Claude Code 等。此前 Uber 曾在四个月内烧完 2026 全年 AI 预算——该预算制定于 2025 年，未能预见 token 密集型 coding agent 的快速普及。Simon Willison 指出，若工程师平均同时使用两款工具，年化上限约 3.6 万美元，约占美国 Uber 软件工程师中位总包（约 33 万美元）的 11%，是理性控费而非全面禁用的政策。相较企业级无补贴定价，个人开发者通过 Anthropic、OpenAI 优惠计划每月约 100 美元即可覆盖相近用量，大企业则须按实际 token 成本买单。

编辑点评： Uber 案例表明，coding agent 已从「试点福利」变成需要 CFO 盯住的运营成本——1500 美元/工具/月的 cap 既留足空间又设天花板，可能成为大厂 AI 采购的新默认模板。

原文：https://simonwillison.net/2026/Jun/3/uber-caps-usage/#atom-everything^[10]

谷歌发布 Gemma 4 12B：无编码器统一多模态模型，笔记本即可本地运行

Google DeepMind 正式发布 Gemma 4 12B，定位介于边缘友好的 E4B 与 26B MoE 之间的中端开源模型，旨在将 Agent 级多模态智能直接带到笔记本电脑上。其核心创新是无编码器统一架构：视觉与音频输入不再经独立编码器预处理，而是直接流入 LLM 主干——视觉侧以单层矩阵乘法、位置嵌入与归一化替代传统视觉编码器，音频侧则完全移除编码器，将原始音频信号投影至与文本 token 相同的维度空间。模型在标准基准上接近 26B MoE 表现，内存占用却不到一半，16GB 显存或统一内存即可本地运行，并首次在中等规模 Gemma 中支持原生音频输入。Gemma 4 12B 采用 Apache 2.0 许可，配备 Multi-Token Prediction（MTP）草稿模型以降低延迟，可通过 Hugging Face、Kaggle、LM Studio、Ollama、vLLM 等生态部署，并同步发布 Gemma Skills 官方技能库以支持 Agent 开发。Gemma 4 系列累计下载量已突破 1.5 亿次。

编辑点评： 去掉多模态编码器不是炫技，而是把「能在本机跑」和「能看图听音推理」真正拉到同一条产品线上——对边缘 Agent 与隐私敏感场景，12B 可能是当前性价比最清晰的甜点。

原文：https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/^[11]

Engadget 梳理 2026 年 Claude 免费版能用什么、不能用什么

Engadget 发文系统梳理 Anthropic Claude 在 2026 年的免费层限制。用量方面，Anthropic 采用滚动五小时窗口（从首次提问起算，非午夜重置），具体可发送消息数随需求波动，复杂提示与附件会更快耗尽额度；社区经验约为每五小时 15～40 条，但单次 Claude Code 级复杂请求也可能迅速触顶。免费用户仅可使用 Sonnet 4.6 与 Haiku 4.5，旗舰 Opus 4.8 需付费；仍可使用网页搜索、文件上传（每聊最多 20 个文件、单文件 500MB）、Projects 与 Artifacts 等功能，Effort 菜单中的 Adaptive thinking 建议开启以在需要时启用推理。免费层不包含 Claude Code、Claude Cowork 与 Claude Design，但可粘贴代码片段做一次性调试。上下文窗口在非 Enterprise 方案下统一为 20 万 token。Anthropic 承诺 Claude 保持无广告，新用户默认可能参与模型训练，可在设置中关闭「Help improve Claude」。

编辑点评： 免费 Claude 的「隐形天花板」在 token 而非条数——Sonnet 4.6 质量仍属第一梯队，但若重度依赖 coding agent 或 Opus，付费几乎是必然路径；滚动窗口设计也堵住了「卡点续命」的玩法。

原文：https://www.engadget.com/2185772/claude-ai-free-2026-limits-workarounds/^[12]

小米 YU7 长续航 / Pro / Max 升级 HyperOS 1.16 后全面搭载 XLA 认知大模型

小米汽车「答网友问」第 252 集确认：YU7 长续航版、Pro 版、Max 版在升级 Xiaomi HyperOS 1.16 后均搭载「小米 XLA 认知大模型」；标准版与 GT 此前已分别交付或具备相应能力。HyperOS 1.16 已全量推送，新增语音控车 Beta、商场地库车位级领航、自定义萌宠上车、超级小爱 AI 智控等功能，官方表示将从该版本起逐步带来新架构下的体验，并随模型能力持续提升解锁更多功能。同期问答还介绍了 YU7 GT 的舒适/长续航调节：日常建议舒适或经济模式，易晕车用户可开启「晕车舒缓模式」以优化动力、制动、能量回收与悬架滤振。XLA 认知大模型基于 Xiaomi MiMo-Embodied 具身基座，融合激光雷达、视觉、导航、声音等多模态输入，并引入潜空间推理（Latent CoT）兼顾低时延与推理能力，是小米辅助驾驶从 VLA 向「认知+世界模型」演进的核心车端架构。

编辑点评： YU7 全系 XLA 落地节奏清晰——OTA 把老车主拉进同一套认知架构，比「新车独享、老车观望」更能检验小米辅助驾驶是否真具备持续迭代能力。

原文：https://www.ithome.com/0/959/562.htm^[13]

Hugging Face：Reachy Mini 对话应用现可通过 MCP 挂载 Hub 工具

Hugging Face 与 Pollen Robotics 宣布，Reachy Mini 对话应用现已支持通过 MCP 协议调用托管在 Hugging Face Spaces 上的远程工具，一条命令即可扩展能力，例如 reachy-mini-conversation-app tool-spaces add pollen-robotics/reachy-mini-weather-tool，无需把代码下载到本地。应用内工具分为三类：内置本体工具（如 move_head、play_emotion、camera）、本地自定义 Python 工具，以及新增的远程 MCP 工具；具体启用由 profile 目录下的 tools.txt 与 instructions.txt 控制，远程工具以双下划线命名空间避免与内置工具冲突。首批金丝雀工具包括网页搜索与天气查询，官方强调 prompt 设计对并行调用与口语化回复至关重要——例如混合天气与活动查询时应在同一轮并行调用两工具再合并答案。当前支持公开、MCP 兼容的 Gradio Spaces，尚不支持私有 Space、非 Gradio 端点或任意 MCP URL；工具逻辑在 Space 端运行，本地仅保留可信的机器人本体控制核心。

编辑点评： 把 MCP 工具生态接到实体机器人上，实质是给 Reachy Mini 开了「插件商店」——共享、迭代、免改 app 的远程能力，比堆本地 Python 脚本更接近 consumer robot 的产品化路径。

原文：https://huggingface.co/blog/adding-mcp-tools-to-reachy-mini^[14]

Anthropic 映射一年 AI 助攻网络威胁：攻击更深、更自主，MITRE ATT&CK 需更新

Anthropic 发布报告，对 2025 年 3 月至 2026 年 3 月间因恶意网络活动被封禁的 832 个账户进行 MITRE ATT&CK 映射（部分结论已写入 Verizon 2026 DBIR）。主要发现有三：其一，攻击者 increasingly 在攻击链后期使用 AI——67.3% 账户用 AI 写恶意软件，6.5% 用于内网横向移动；AI 辅助钓鱼下降 8.6%，账户发现等 post-compromise 技巧上升 8.9%，中高风险账户占比从首期 33% 升至 56%。其二，传统以「使用技巧数量」或「Claude Code/API/聊天界面」区分威胁等级的信号失效——低技能与高手平均分别使用约 16 与 20 种技巧，差异不大；更高风险往往体现在攻击链后段的操作型技巧，以及围绕模型搭建的 Agent 脚手架能否串联多阶段、少人工干预。其三，MITRE ATT&CK 尚未收录 Agent 编排、实时决策、自主执行等 AI 特有行为——例如 2025 年 11 月 Anthropic 挫败的国家级间谍行动，按 ATT&CK 仅与中等风险者相当，但按 Anthropic 风险评分则为满分 100。Anthropic 表示已部署相应 cyber safeguards，并与 MITRE 讨论框架演进。

编辑点评： 当 AI 把「后期渗透技巧」民主化，安全行业不能再数 TTP 个数评风险——Agent 脚手架与自主编排才是新的分水岭，框架与防御都必须按 Agent 时代重写。

原文：https://www.anthropic.com/news/AI-enabled-cyber-threats-mitre-attack^[15]

Coralogix 融资 2 亿美元，押注 AI Agent 时代需要「可观测性」监控层

以色列创立、总部波士顿的软件监控初创公司 Coralogix 完成 2 亿美元 F 轮融资，投后估值 16 亿美元，距上一轮 1.15 亿美元 E 轮仅隔 11 个月，累计融资达 5.5 亿美元。本轮由 Advent 与加拿大养老金计划投资委员会（CPPIB）领投，Greenfield Partners 与 Brighton Park Capital 跟投。Coralogix 成立于 2014 年，通过采集日志、指标与链路追踪等运维数据，帮助 IBM、Tradeweb、JFrog 等 5000 余家客户检测故障、排查事件并优化应用。CEO Ariel Assaraf 表示，随着 AI Agent 自主写代码、调查问题并完成任务，企业需要新一代工具来监控、排障并管理日益自治的软件系统；超过半数企业客户已在使用其 AI Agent「Olly」或自有模型，通过命令行与 Agent 接口查询运维数据，工程师正从传统仪表盘转向「让 LLM 告诉我哪里出了问题」。公司过去一年收入增长超 60%，约 30 家客户年消费超 100 万美元，年化收入早已突破 1 亿美元；全球员工超 600 人，印度为第三大办公室。Assaraf 称本轮融资并非因缺 runway，而是加速 AI 产品、安全能力与全球扩张，并计划在未来几年走向盈利。

编辑点评： Agent 越自治，「谁在看 Agent」就越成刚需——Coralogix 把可观测性从人肉看板迁到 CLI/LLM 接口，恰是 Datadog 们必须跟上的交互范式迁移。

原文：https://techcrunch.com/2026/06/03/coralogix-raises-200m-in-race-to-build-the-monitoring-layer-for-ai-agents/^[16]

AWS：在 SageMaker AI 上用 SFT + DPO 提升 Agent 工具调用准确率

AWS 机器学习博客发布实践指南，演示如何结合监督微调（SFT）与直接偏好优化（DPO）在 Amazon SageMaker AI 上提升小语言模型（SLM）的工具调用准确率。文章指出，Agent 选错工具、参数格式错误或打断工作流，会直接拖长任务时间、抬高错误率与支持成本；从试点走向生产，「每次请求选对工具」是可靠自动化的前提。示例以 Qwen3-1.7B 为基座，使用 NVIDIA 发布的 When2Call 数据集（SFT 1.5 万条、DPO 偏好 9000 条、测试集含 MCQ 与 LLM-as-judge），在 SageMaker 托管的 ml.p4d.24xlarge 上通过 Hugging Face Accelerate 与 DeepSpeed ZeRO-3 分布式训练，并接入 MLflow 追踪实验。结果显示：Qwen3-1.7B 基座准确率 41.57%，经 Spectrum SFT 后升至 60.43%，再叠加 DPO 达 71.06%，整体提升约 30 个百分点，且优于参数量近倍的 Llama 3.2 3B Instruct（62.67%）。文章强调 SFT 提供结构化任务理解，DPO 以「chosen/rejected」偏好对进一步对齐输出，二者组合可在更小模型上实现更高准确率，从而降本增效。

编辑点评： 工具调用是 Agent 的「肌肉记忆」——SFT 教规矩、DPO 纠偏好，这套两阶段配方比单纯堆参数更贴近生产落地的成本约束。

原文：https://aws.amazon.com/blogs/machine-learning/improve-your-agents-tool-calling-accuracy-with-sft-and-dpo-on-amazon-sagemaker-ai/^[17]

谷歌：Gemini App 月活超 9 亿，一年翻倍成增长最快产品之一

谷歌母公司 Alphabet 在 6 月 3 日向投资者发布的演示文稿中披露，Gemini App 月活跃用户数已超过 9 亿，同比翻了一倍多，是其增长最快的产品之一。Gemini 已为谷歌旗下 13 款「十亿级用户」产品提供 AI 能力支撑，其中 5 款用户量超 30 亿，包括搜索、Gmail、Android、Chrome 与 YouTube。搜索中的 AI Overviews（AI 概览）功能月活也已突破 25 亿，谷歌称这意味着向全球更多人提供了 AI，规模超过任何其他单一产品。自 Gemini 3 发布以来，硬件与工程优化已将核心 AI 响应成本降低 30% 以上。公司预计本月推出 Gemini 3.5 Pro；在上月 I/O 大会上已发布 Gemini 3.5 Flash，多项基准表现优于 Gemini 3.1 Pro。

编辑点评： 9 亿月活把 Gemini 从「模型发布」拉进「默认入口」竞争——成本降 30% 与 3.5 系列节奏，说明谷歌正在用规模换分发、用 Flash 换延迟敏感场景。

原文：https://www.ithome.com/0/959/569.htm^[18]

豆包：计划推出专业版面向生产力场景，基础功能继续免费

豆包 6 月 3 日傍晚通过官方公众号发布说明，称针对专业人群的生产力需求，计划推出「豆包专业版」，将覆盖软件开发、数据分析、专业设计、流程自动化、金融分析、科学研究等服务。对于搜索问答、写作生图、语音与视频对话等日常功能，官方承诺保持现有免费服务，用户体验与使用习惯不受影响，并会持续为免费用户提供新模型与能力；专业版服务也将在一定额度内免费。豆包专业版目前仍在测试，正式上线时将经官方渠道发布完整信息。声明还澄清，近期大量同 IP 营销号散布「豆包将降低基础体验以逼购会员」的说法完全不实。

编辑点评： 专业版 + 基础免费的双轨，是国产助手从「流量工具」走向「垂直付费」的标准路径——关键看额度设计与是否真能把 coding/分析做成 Pro 级差异。

原文：https://www.ithome.com/0/959/528.htm^[19]

Hugging Face：DPO 不止用于聊天对齐，模型自身失败输出可作拒绝样本

Dharma AI 团队在 Hugging Face 博客发文，分享将直接偏好优化（DPO）用于结构化 OCR 任务的经验：在其 DharmaOCR 项目中，监督微调（SFT）虽能提升领域能力，但对「文本退化」（重复循环输出）的抑制存在天花板；第二阶段 DPO 在五个开源视觉-语言模型家族上无一例外降低了退化率，平均相对 SFT 降幅 59.4%，最高达 87.6%。与传统聊天对齐依赖人工「有用/无害」偏好不同，OCR 任务偏好信号客观：正确转录为 chosen，退化循环为 rejected。团队从 SFT 模型在 23726 份文档上的推理输出中，用自动化 LLM 评判构造偏好对，刻意保留而非过滤退化样本作为 rejected 示例——因为这类失败代表模型分布中需显式远离的吸引子区域。文章指出，SFT 按 token 优化似然，难以在 completion 层面惩罚重复；DPO 则在完整输出粒度上同时推向高质量、远离特定失败几何。该方法论适用于失败模式可分类、可自动打分且样本量足够的结构化生成场景，不限于 OCR。

编辑点评： 把「模型自己犯的错」变成 DPO 负样本，比雇人标偏好便宜且对准失败几何——对 OCR、表格抽取等生产级结构化输出，这可能是比再堆 SFT 数据更划算的第二阶段。

原文：https://huggingface.co/blog/Dharma-AI/direct-preference-optimization-beyond-chatbots^[20]

浙大教授团队获财通、商汤投资，专注高危场景具身机器人「工程师大脑」

杭州旷行科技近期完成数千万元 Pre-A 轮融资，由财通资本与商汤国香投资。公司 2025 年成立于杭州，创始人舒江鹏为浙江大学百人计划研究员、博导，团队自 2011 年起深耕智慧城市 AI 与工程机器人，专注为矿山、能源电力、油气化工、交通城建等高危工业领域提供「机器人+AI 大脑」运维方案。与常见巡检机器人不同，旷行核心能力在于赋予机器人在高危作业中的「识别+诊断+处置」能力：自研工程多模态大模型融合图像、点云、超声、电磁波、红外等传感器，可对混凝土开裂、钢结构锈蚀、岩土失稳等表观及隐蔽病害实现亚毫米级定量识别，而非简单定性判断。公司采用轻资产模式，采购或合作生产机器人本体，加装自研「大脑盒子」交付整机方案；依托浙大土木系背景，拥有百万级专业标注负样本数据库，量级领先同行两个数量级以上。成立当年已与江西铜业、国家电网、中国电建等头部企业签订合同，产品已在矿山、隧道、电力等场景试点，替代工人完成高风险运维；舒江鹏表示，目前约覆盖 50% 作业点位，目标提升至 90% 以上，短期仍以四足等高可靠形态为主，聚焦「最懂工程的机器人大脑」而非本体硬件。

编辑点评： 高危工业场景的具身智能竞争，胜负手不在「会不会走」而在「懂不懂工程」——旷行用 15 年基建负样本数据与多模态诊断能力，切的是传统巡检机器人「强巡弱检」的痛点，商业化闭环已初步跑通。

原文：https://36kr.com/p/3836744788014208?f=rss^[21]

跨维智能登顶 WorldArena 世界模型 Track 2 全球榜首

全球具身世界模型权威评测基准 WorldArena 公布最新榜单，跨维智能在 5 月 25 日截止的最终排名中登顶 Track 2（Data Engine）赛道全球第一，与第二名拉开显著分差，大幅刷新该赛道全球最优成绩。WorldArena 由全球顶尖高校及科研机构专家打造，构建 16 项细分核心指标与 3 大真实应用任务的立体化评估体系；Track 2 不比拼画面逼真度，核心考核世界模型作为数据合成引擎、策略评估工具与行动规划载体的全链路落地能力——参赛模型需依托初始场景观测与文本指令自主模拟完整机器人交互流程、生成高质量训练数据，最终以机器人实际作业任务成功率为评判标准。跨维本次冲榜的 DSCFuncWorld 基于自研 DexWorldModel 底座适配而来，主打因果隐空间建模，依托 DINO 语义特征空间精准建模未来世界状态；团队此前推出的 EVA 框架通过逆动力学奖励对齐视频生成与可执行动作，解决「视觉逼真但无法落地」的行业缺口，并依托 EmbodiChain 构建覆盖资产生成、场景布局、轨迹采样、失败恢复、在线回流的完整数据体系。跨维表示，登顶意义在于补齐世界模型通往真实物理世界的关键短板，聚焦数据可训练、可迁移、可执行，而非概念内卷。

编辑点评： 在英伟达、谷歌重兵把守的世界模型赛道，Track 2 榜首衡量的是「虚拟推演能否变成可用训练资产」——跨维的突围说明，具身智能下一阶段比拼的是数据引擎的工程闭环，而非 demo 级画面。

原文：https://www.qbitai.com/2026/06/428435.html^[22]

Nous Research 发布开源跨平台 AI 智能体 Hermes Desktop

Nous Research 发布开源 AI 智能体应用 Hermes Desktop，采用 MIT 许可证，现已面向 Windows、macOS 和 Linux 开启公开预览。该智能体可跨 Telegram、Discord、Slack、WhatsApp、Signal、邮件及终端等多平台运行，具备持久记忆以存储项目与解决方案路径，并支持自然语言任务规划。Hermes 可将任务委派给拥有独立终端与 Python 脚本的子智能体，支持网页搜索、图像生成与文本朗读；沙箱执行提供 Local、Docker、SSH、Singularity、Modal 五种后端。通过 Nous Portal，用户可按免费或付费方案访问 300 余款 AI 模型，完整文档已在线发布。作为面向全平台的桌面级 Agent 产品，Hermes Desktop 将多通道接入、子 Agent 编排与多后端沙箱执行整合于单一开源套件，降低个人与团队自建 Agent 工作流的门槛。

编辑点评： 开源 + 全平台 + 子 Agent 委派，Hermes Desktop 的定位是「可自托管的通用 Agent 壳层」——与闭源 Copilot 相比，MIT 许可与五种沙箱后端给了开发者更大的定制空间，但安全边界需用户自行把控。

原文：https://the-decoder.com/nous-research-releases-hermes-desktop-an-open-source-ai-agent-for-every-platform/^[23]

Meta 面向 WhatsApp Business 的 AI 客服智能体全球上线

Meta 宣布其客户支持 AI 机器人 Meta Business Agent 已在 WhatsApp Business 全球上线，并同步开放 Instagram 私信接入。该智能体可回答客户问题、推荐产品、预约服务、筛选销售线索，并在必要时转接人工；Meta 还在测试为商家提供夜间聊天摘要与洞察的每日简报功能，面向 WhatsApp Business、Instagram Pro、Messenger 及 Meta Business Suite 的部分账户。公司正推进市场研究、产品特性高亮、日历管理与竞品洞察提取等能力，并计划让智能体在用户搜索商家或聊天分享联系方式时主动 surfaced 企业信息；针对大型企业，Meta 将搭建平台以创建可连接 Shopify、Zendesk、Shopee 等系统的定制 Agent。收费方面，该 AI 智能体将纳入 WhatsApp Business Premium 部分订阅档位，大型企业按 token 用量计费——这对长期依赖商家消息与 click-to-WhatsApp 广告收入的 WhatsApp 而言，是向工作流软件演进的关键一步。

编辑点评： WhatsApp 坐拥全球 SMB 沟通入口，Meta Business Agent 把 AI 从「自动回复」推到预约、线索、洞察一体化——token 计费模式意味着 Agent 用量将直接成为 Meta 企业服务的新收入杠杆。

原文：https://techcrunch.com/2026/06/03/metas-ai-agent-for-whatsapp-business-is-now-available-globally/^[24]

扎克伯格：Meta 智能体目标「帮你经营整家公司」

Meta 在伦敦 Conversations 活动上正式推出面向 WhatsApp、Instagram 与 Messenger 商家的 Meta Business Agent，呼应 CEO 马克·扎克伯格在最新财报电话会上的 Agent 战略预告。该工具允许商家将日常任务——包括客户互动、预约安排乃至促成销售——委派给 AI，商家可随时介入对话；Meta 已在印度、墨西哥、巴西等地测试，超 100 万商家已注册，现向全平台开放。扎克伯格的终极愿景是智能体「 eventually 帮你经营整家公司」，但这依赖底层 AI 模型持续进步；短期内 Meta 正开发市场研究、产品洞察、日历工具对接与竞品情报等后台 Agent 能力，部分功能尚在候补名单阶段。收费策略上，入门免费，但「未来数月」将纳入新订阅套餐——与单纯客服 chatbot 不同，Meta 显然把 Business Agent 定位为覆盖前台销售与后台运营的 Agent 操作系统雏形。

编辑点评： 扎克伯格把 Agent 叙事从「聊天机器人」抬升到「经营整家公司」，短期落地仍集中在客服与销售闭环——订阅化收费一旦铺开，SMB 是否愿意为「AI 合伙人」买单，将检验 Meta 模型与工具链的实际 ROI。

原文：https://www.engadget.com/2186241/meta-is-bringing-ai-agents-to-businesses-on-whatsapp-instagram-and-messenger/^[25]

以上就是今天的 AI 领域要闻。明天见！

引用链接

[1]https://www.theverge.com/ai-artificial-intelligence/942242/microsoft-build-ai-agents-openai-competition

[2]https://www.ithome.com/0/959/547.htm

[3]https://www.ithome.com/0/959/517.htm

[4]https://www.qbitai.com/2026/06/428407.html

[5]https://www.wired.com/story/whats-worth-more-than-san-francisco-real-estate-anthropic-stock/

[6]https://www.anthropic.com/news/services-track-partner-hub

[7]https://www.qbitai.com/2026/06/428703.html

[8]https://www.ithome.com/0/959/553.htm

[9]https://36kr.com/newsflashes/3837454258391555?f=rss

[10]https://simonwillison.net/2026/Jun/3/uber-caps-usage/#atom-everything

[11]https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/

[12]https://www.engadget.com/2185772/claude-ai-free-2026-limits-workarounds/

[13]https://www.ithome.com/0/959/562.htm

[14]https://huggingface.co/blog/adding-mcp-tools-to-reachy-mini

[15]https://www.anthropic.com/news/AI-enabled-cyber-threats-mitre-attack

[16]https://techcrunch.com/2026/06/03/coralogix-raises-200m-in-race-to-build-the-monitoring-layer-for-ai-agents/

[17]https://aws.amazon.com/blogs/machine-learning/improve-your-agents-tool-calling-accuracy-with-sft-and-dpo-on-amazon-sagemaker-ai/

[18]https://www.ithome.com/0/959/569.htm

[19]https://www.ithome.com/0/959/528.htm

[20]https://huggingface.co/blog/Dharma-AI/direct-preference-optimization-beyond-chatbots

[21]https://36kr.com/p/3836744788014208?f=rss

[22]https://www.qbitai.com/2026/06/428435.html

[23]https://the-decoder.com/nous-research-releases-hermes-desktop-an-open-source-ai-agent-for-every-platform/

[24]https://techcrunch.com/2026/06/03/metas-ai-agent-for-whatsapp-business-is-now-available-globally/

[25]https://www.engadget.com/2186241/meta-is-bringing-ai-agents-to-businesses-on-whatsapp-instagram-and-messenger/