AI 快报|2026年6月3日

1. 微软 Build 2026 全面铺开"Agent 优先"战略：MAI 自研模型 + Solara 系统 + 智能终端齐发

微软 Build 2026（6月2-3日，旧金山）释放出全栈 AI 重构信号，不再是"用别人的模型做应用"，而是自研模型、操作系统、安全框架、开发硬件全面出击：

MAI-Thinking-1
首款自研高级推理模型，完全基于干净数据训练，未使用任何第三方模型蒸馏。同步发布覆盖图像、语音、代码生成的 MAI 系列模型矩阵。
Project Solara
专为 AI 智能体打造的操作系统（Android 定制），可运行于小型低功耗设备，同步展示桌面终端和可穿戴胸牌概念设备。
智能终端 0.1
将 AI 编程助手集成到命令行，自动检测 Shell 错误并提供修复建议。
Surface RTX Spark Dev Box
搭载英伟达 RTX Spark 芯片、128GB 统一内存，可本地运行 1200 亿参数大模型。
ACS（Agent Control Specification）
开源 AI 智能体行为控制标准，支持跨框架复用。
Majorana 2 量子芯片
量子比特寿命突破 20 秒，实用量子计算机原型目标提前至 2029 年。

值得关注：微软从"AI 应用集成者"转向"自研 AI 全栈提供者"，MAI 系列模型表明其不再满足于依赖 OpenAI。智能终端 + RTX Spark Dev Box 的组合，意味着 AI Coding 正从云端走向本地端侧部署，这是开发者工具链的一次范式重构。

2. OpenAI 宣告成立 Robotics 团队，时隔六年重返机器人战场

6月1日，Sam Altman 在 X 平台发布招聘推文，正式宣告成立 OpenAI Robotics。Greg Brockman 同步发文确认，团队目标为"打造能在物理世界帮助人类的 AI"。

短期目标：研发协助型机器人（工业、家庭、物流场景）
长期目标：通用实体机器人
正在招聘：全栈硬件工程师、执行器设计工程师、仿真环境工程师、控制系统软件工程师
所有职位设在旧金山总部，计划组建"数百人"规模的硬件工程团队

值得关注：OpenAI 时隔六年重启机器人业务，但这次不同——它手里有 GPT 系列大模型和 Sora 视频生成模型作为"大脑"和"世界模拟器"。这是"大模型 + 具身智能"路线的最强变量：如果 OpenAI 将 GPT 的推理能力注入机器人本体，将直接改写具身智能产业格局。也是继宇树科技 IPO 过会后，具身智能赛道又一标志性信号。

3. NVIDIA × 宇树科技发布 Isaac GR00T 参考人形机器人，Blackwell 芯片首入机器人本体

6月1日 Computex 台北，黄仁勋宣布与宇树科技达成战略合作，推出 Isaac GR00T 参考人形机器人平台：

搭载宇树 H2 人形机器人 本体（约 1.8 米高）
内置 NVIDIA Jetson Thor 硬件 + Blackwell GPU
配合 Isaac GR00T 基础模型 进行端侧训练与推理
面向研究人员和教育机构销售，定价暂未公布

值得关注：这是 NVIDIA 首次将 Blackwell 芯片直接集成到人形机器人中，也是中美在具身智能硬件底座上的最高级别合作。NVIDIA 的定位很清晰——它不做机器人整机品牌，而是要做"具身智能的英伟达"：提供芯片 + 仿真平台 + 基础模型。宇树则获得顶级算力加持，双方各取所需。

4. 宇树科技 73 天闪电过会，A 股"人形机器人第一股"呼之欲出

6月1日，上交所上市审核委员会审议通过宇树科技科创板 IPO。从 3 月 20 日受理到过会仅 73 天，创下近年科创板最快审核纪录。

拟募资
：42.02 亿元
IPO 估值
：超 420 亿元（按不低于 10% 公开发行比例测算）
资金投向
：超 20 亿元（48%）用于具身大模型等"大脑"与"小脑"底层技术研发
核心数据
：2025 年人形机器人出货量超 5500 台，全球市占率约 32.4%
资本阵容
：美团、红杉、腾讯等深度锁仓

值得关注：宇树过会恰逢 NVIDIA 合作发布 + OpenAI 宣布入局机器人的同一周，具身智能赛道一周内密集释放三大信号。A 股首家人形机器人整机上市公司即将诞生，意味着具身智能正式从"风投叙事"进入"公开市场定价"阶段。

5. 阿里发布 Qwen3.7-Plus：多模态编程模型，11 小时自主闭环开发真实 APP

阿里发布旗舰级多模态编程模型 Qwen3.7-Plus，核心突破在于将视觉理解与代码生成融合为一体化智能体基座：

在权威视觉模型榜单 Vision Arena 中位列全球前五、中国第一
能无缝融合 GUI 与 CLI 交互，实现前端原型到复杂软件工程的端到端自动化
实测 11 小时 即可自主闭环开发真实 APP
支持编程场景下的多模态理解和代码生成

值得关注：Qwen3.7-Plus 将 AI Coding 从"纯文本代码补全"推进到"看得懂界面、写得了代码"的多模态编程阶段。这意味着 AI 不再只是帮你写函数，而是能"看到你屏幕上有什么，理解你的产品意图，直接做出可运行的应用"。AI 改变生产力的路径正在从"辅助编码"向"自主产品开发"加速演进。

6. 腾讯云 DeepSeek V4 价格大幅下调：推理成本降 75%，进入"分厘时代"

6月3日起，腾讯云智能体开发平台下调 DeepSeek-V4 系列模型价格：

V4-Pro
输入 0.003 元/千 token，输出 0.006 元/千 token（推理成本降 75%）
缓存命中价格
降至 0.000025 元/千 token（降 97.5%）
V4-Flash
缓存命中价同样降至 0.000025 元/千 token（降 90%）
基础模型为 MoE 架构 1.6 万亿参数，支持 1M token 上下文

值得关注：大模型 API 价格已进入"分厘时代"——每百万 token 输出成本仅 6 元人民币。这个价位意味着 AI 接入任何应用的边际成本趋近于零，将极大加速 AI Coding 工具、企业级 AI 应用的部署。对于使用 DeepSeek V4 做代码生成的开发者来说，Token 成本几乎不再是约束。

7. 字节跳动扣子 3.0 上线 + 豆包 6 月下旬付费，国内 AI 商业化成关键转折

字节跳动本周密集释放商业化信号：

扣子（Coze）3.0
支持"一人 + 多 Agent"和"多人 + 多 Agent"灵活组合，提供金融、自媒体、医疗、法律、科研等行业技能包，支持多种本地 Agent 接入
豆包付费
预计 6 月下旬正式上线，Q3 结合电商功能完善付费场景，Q4 进入稳定运行。2026 年暂不以付费渗透率为核心 KPI
快子（Kuaizi）3.0
支持多智能体协作

值得关注：扣子 3.0 的多 Agent 协作能力将 AI 编程/提效从"单人使用工具"升级为"团队协同调动智能体"。豆包 3.45 亿月活用户的付费转型，是国内 AI 产业最具指标意义的商业事件——如果豆包能跑通"免费→付费"路径，将证明中国 AI 市场的商业可持续性。

8. GitHub Copilot 正式转向按量计费，AI 编程进入"用多少付多少"时代

GitHub Copilot 正式告别订阅制，全面切换为 按使用量付费 + AI 点数扣费机制：

高价值任务（代码审查、云端智能体任务）计入点数消耗
低价无限包月模式成为历史
与 CNBC 报道的微软"更低价格吸引开发者"策略相呼应

值得关注：按量计费意味着 AI 编程工具从"会员制消费"变为"生产资料消耗"。对重度用户来说成本可能上升，但它也在倒逼工具提供真正差异化的价值——如果只是简单补全，用户不会愿意按次付费。这与 Claude Code 年化收入突破 10 亿美元、Cursor 18 个月收入从 400 万增至 20 亿的趋势叠加，标志着 AI Coding 从"免费引流"阶段全面进入"价值定价"阶段。

9. NVIDIA Gamma World：全球首个多智能体世界模型，落地双臂机器人协同

NVIDIA 联合清华大学、多伦多大学、Vector 研究所发布 Gamma World——全球首个多智能体世界模型：

Simplex Rotary Agent Encoding：实现多智能体平等表示
Sparse Hub Attention：线性计算复杂度，支持 24FPS 实时模拟
在多人 Minecraft 场景中 FVD 指标降低超 40%
已成功应用于真实双臂机器人协同任务

值得关注：世界模型是具身智能的基石——机器人需要在"脑中模拟物理世界"才能做出正确决策。Gamma World 的突破在于从单智能体模拟扩展到多智能体协同，这意味着机器人不仅能自己干活，还能理解"旁边有个同事在做什么"。这是具身智能从实验室走向工厂的关键基础设施。

10. 百度 PaddleOCR-VL-1.6 文档识别全球第一 + Mistral AI 全栈转型

两条"提效工具链"方向的重要进展：

百度 PaddleOCR-VL-1.6：

OmnicDocBench v1.6 准确率 96.33%，超越 GPT-5.2 和 Gemini-3-Pro
0.9B 轻量版支持 100+ 语言，GitHub 星标 7.92 万
代码和权重均已开源

Mistral AI 巴黎峰会：从单一模型供应商转型为基础设施-模型-应用全栈服务商，运营 40MW 巴黎数据中心，推出工业模型 Robostral（面向 ASML）、Document AI（面向欧洲专利局）等行业定制产品。

值得关注：PaddleOCR 证明小模型在垂直场景（文档识别）可以超越大模型，这是"AI 提效"落地的务实路径——不追求通用 AGI，而是在具体任务上做到极致。Mistral 的全栈转型则揭示了欧洲 AI 的独特定位：不走中美"超大规模通用模型"路线，而是以合规、定制化、工业应用为差异化壁垒。

📊 本期速览

方向	热度	一句话
微软 Build 2026	🔴🔴🔴	自研 MAI 模型 + Windows Agent 平台 + 量子芯片，全栈 AI 重构
OpenAI Robotics	🔴🔴🔴	大模型之王正式杀入具身智能，产业格局最大变量
NVIDIA × 宇树 GR00T	🔴🔴🔴	Blackwell 芯片首入机器人本体，中美具身智能最高级别合作
宇树科技 IPO 过会	🔴🔴🔴	73 天闪电过会，A 股人形机器人第一股
阿里 Qwen3.7-Plus	🔴🔴	多模态编程模型，Vision Arena 前五
DeepSeek V4 降价	🔴🔴	Token 价格进入"分厘时代"
扣子 3.0 + 豆包付费	🔴🔴	国内 AI 商业化关键转折
GitHub Copilot 按量计费	🔴🔴	AI Coding 进入价值定价阶段
NVIDIA Gamma World	🔴	多智能体世界模型，具身智能基础设施
PaddleOCR + Mistral	🔴	垂直场景"小模型超越大模型"的务实路线