1. 微软 Build 2026 全面铺开"Agent 优先"战略:MAI 自研模型 + Solara 系统 + 智能终端齐发
微软 Build 2026(6月2-3日,旧金山)释放出全栈 AI 重构信号,不再是"用别人的模型做应用",而是自研模型、操作系统、安全框架、开发硬件全面出击:
- MAI-Thinking-1
首款自研高级推理模型,完全基于干净数据训练,未使用任何第三方模型蒸馏。同步发布覆盖图像、语音、代码生成的 MAI 系列模型矩阵。 - Project Solara
专为 AI 智能体打造的操作系统(Android 定制),可运行于小型低功耗设备,同步展示桌面终端和可穿戴胸牌概念设备。 - 智能终端 0.1
将 AI 编程助手集成到命令行,自动检测 Shell 错误并提供修复建议。 - Surface RTX Spark Dev Box
搭载英伟达 RTX Spark 芯片、128GB 统一内存,可本地运行 1200 亿参数大模型。 - ACS(Agent Control Specification)
开源 AI 智能体行为控制标准,支持跨框架复用。 - Majorana 2 量子芯片
量子比特寿命突破 20 秒,实用量子计算机原型目标提前至 2029 年。
值得关注:微软从"AI 应用集成者"转向"自研 AI 全栈提供者",MAI 系列模型表明其不再满足于依赖 OpenAI。智能终端 + RTX Spark Dev Box 的组合,意味着 AI Coding 正从云端走向本地端侧部署,这是开发者工具链的一次范式重构。
2. OpenAI 宣告成立 Robotics 团队,时隔六年重返机器人战场
6月1日,Sam Altman 在 X 平台发布招聘推文,正式宣告成立 OpenAI Robotics。Greg Brockman 同步发文确认,团队目标为"打造能在物理世界帮助人类的 AI"。
- 短期目标:研发协助型机器人(工业、家庭、物流场景)
- 长期目标:通用实体机器人
- 正在招聘:全栈硬件工程师、执行器设计工程师、仿真环境工程师、控制系统软件工程师
所有职位设在旧金山总部,计划组建"数百人"规模的硬件工程团队
值得关注:OpenAI 时隔六年重启机器人业务,但这次不同——它手里有 GPT 系列大模型和 Sora 视频生成模型作为"大脑"和"世界模拟器"。这是"大模型 + 具身智能"路线的最强变量:如果 OpenAI 将 GPT 的推理能力注入机器人本体,将直接改写具身智能产业格局。也是继宇树科技 IPO 过会后,具身智能赛道又一标志性信号。
3. NVIDIA × 宇树科技发布 Isaac GR00T 参考人形机器人,Blackwell 芯片首入机器人本体
6月1日 Computex 台北,黄仁勋宣布与宇树科技达成战略合作,推出 Isaac GR00T 参考人形机器人平台:
搭载宇树 H2 人形机器人 本体(约 1.8 米高) 内置 NVIDIA Jetson Thor 硬件 + Blackwell GPU 配合 Isaac GR00T 基础模型 进行端侧训练与推理 面向研究人员和教育机构销售,定价暂未公布
值得关注:这是 NVIDIA 首次将 Blackwell 芯片直接集成到人形机器人中,也是中美在具身智能硬件底座上的最高级别合作。NVIDIA 的定位很清晰——它不做机器人整机品牌,而是要做"具身智能的英伟达":提供芯片 + 仿真平台 + 基础模型。宇树则获得顶级算力加持,双方各取所需。
4. 宇树科技 73 天闪电过会,A 股"人形机器人第一股"呼之欲出
6月1日,上交所上市审核委员会审议通过宇树科技科创板 IPO。从 3 月 20 日受理到过会仅 73 天,创下近年科创板最快审核纪录。
- 拟募资
:42.02 亿元 - IPO 估值
:超 420 亿元(按不低于 10% 公开发行比例测算) - 资金投向
:超 20 亿元(48%)用于具身大模型等"大脑"与"小脑"底层技术研发 - 核心数据
:2025 年人形机器人出货量超 5500 台,全球市占率约 32.4% - 资本阵容
:美团、红杉、腾讯等深度锁仓
值得关注:宇树过会恰逢 NVIDIA 合作发布 + OpenAI 宣布入局机器人的同一周,具身智能赛道一周内密集释放三大信号。A 股首家人形机器人整机上市公司即将诞生,意味着具身智能正式从"风投叙事"进入"公开市场定价"阶段。
5. 阿里发布 Qwen3.7-Plus:多模态编程模型,11 小时自主闭环开发真实 APP
阿里发布旗舰级多模态编程模型 Qwen3.7-Plus,核心突破在于将视觉理解与代码生成融合为一体化智能体基座:
在权威视觉模型榜单 Vision Arena 中位列全球前五、中国第一 能无缝融合 GUI 与 CLI 交互,实现前端原型到复杂软件工程的端到端自动化 实测 11 小时 即可自主闭环开发真实 APP 支持编程场景下的多模态理解和代码生成
值得关注:Qwen3.7-Plus 将 AI Coding 从"纯文本代码补全"推进到"看得懂界面、写得了代码"的多模态编程阶段。这意味着 AI 不再只是帮你写函数,而是能"看到你屏幕上有什么,理解你的产品意图,直接做出可运行的应用"。AI 改变生产力的路径正在从"辅助编码"向"自主产品开发"加速演进。
6. 腾讯云 DeepSeek V4 价格大幅下调:推理成本降 75%,进入"分厘时代"
6月3日起,腾讯云智能体开发平台下调 DeepSeek-V4 系列模型价格:
- V4-Pro
输入 0.003 元/千 token,输出 0.006 元/千 token(推理成本降 75%) - 缓存命中价格
降至 0.000025 元/千 token(降 97.5%) - V4-Flash
缓存命中价同样降至 0.000025 元/千 token(降 90%) 基础模型为 MoE 架构 1.6 万亿参数,支持 1M token 上下文
值得关注:大模型 API 价格已进入"分厘时代"——每百万 token 输出成本仅 6 元人民币。这个价位意味着 AI 接入任何应用的边际成本趋近于零,将极大加速 AI Coding 工具、企业级 AI 应用的部署。对于使用 DeepSeek V4 做代码生成的开发者来说,Token 成本几乎不再是约束。
7. 字节跳动扣子 3.0 上线 + 豆包 6 月下旬付费,国内 AI 商业化成关键转折
字节跳动本周密集释放商业化信号:
- 扣子(Coze)3.0
支持"一人 + 多 Agent"和"多人 + 多 Agent"灵活组合,提供金融、自媒体、医疗、法律、科研等行业技能包,支持多种本地 Agent 接入 - 豆包付费
预计 6 月下旬正式上线,Q3 结合电商功能完善付费场景,Q4 进入稳定运行。2026 年暂不以付费渗透率为核心 KPI - 快子(Kuaizi)3.0
支持多智能体协作
值得关注:扣子 3.0 的多 Agent 协作能力将 AI 编程/提效从"单人使用工具"升级为"团队协同调动智能体"。豆包 3.45 亿月活用户的付费转型,是国内 AI 产业最具指标意义的商业事件——如果豆包能跑通"免费→付费"路径,将证明中国 AI 市场的商业可持续性。
8. GitHub Copilot 正式转向按量计费,AI 编程进入"用多少付多少"时代
GitHub Copilot 正式告别订阅制,全面切换为 按使用量付费 + AI 点数扣费机制:
高价值任务(代码审查、云端智能体任务)计入点数消耗 低价无限包月模式成为历史 与 CNBC 报道的微软"更低价格吸引开发者"策略相呼应
值得关注:按量计费意味着 AI 编程工具从"会员制消费"变为"生产资料消耗"。对重度用户来说成本可能上升,但它也在倒逼工具提供真正差异化的价值——如果只是简单补全,用户不会愿意按次付费。这与 Claude Code 年化收入突破 10 亿美元、Cursor 18 个月收入从 400 万增至 20 亿的趋势叠加,标志着 AI Coding 从"免费引流"阶段全面进入"价值定价"阶段。
9. NVIDIA Gamma World:全球首个多智能体世界模型,落地双臂机器人协同
NVIDIA 联合清华大学、多伦多大学、Vector 研究所发布 Gamma World——全球首个多智能体世界模型:
- Simplex Rotary Agent Encoding:实现多智能体平等表示
- Sparse Hub Attention:线性计算复杂度,支持 24FPS 实时模拟
在多人 Minecraft 场景中 FVD 指标降低超 40% 已成功应用于真实双臂机器人协同任务
值得关注:世界模型是具身智能的基石——机器人需要在"脑中模拟物理世界"才能做出正确决策。Gamma World 的突破在于从单智能体模拟扩展到多智能体协同,这意味着机器人不仅能自己干活,还能理解"旁边有个同事在做什么"。这是具身智能从实验室走向工厂的关键基础设施。
10. 百度 PaddleOCR-VL-1.6 文档识别全球第一 + Mistral AI 全栈转型
两条"提效工具链"方向的重要进展:
百度 PaddleOCR-VL-1.6:
OmnicDocBench v1.6 准确率 96.33%,超越 GPT-5.2 和 Gemini-3-Pro 0.9B 轻量版支持 100+ 语言,GitHub 星标 7.92 万 代码和权重均已开源
Mistral AI 巴黎峰会:从单一模型供应商转型为基础设施-模型-应用全栈服务商,运营 40MW 巴黎数据中心,推出工业模型 Robostral(面向 ASML)、Document AI(面向欧洲专利局)等行业定制产品。
值得关注:PaddleOCR 证明小模型在垂直场景(文档识别)可以超越大模型,这是"AI 提效"落地的务实路径——不追求通用 AGI,而是在具体任务上做到极致。Mistral 的全栈转型则揭示了欧洲 AI 的独特定位:不走中美"超大规模通用模型"路线,而是以合规、定制化、工业应用为差异化壁垒。
夜雨聆风