今日摘要
• OpenAI 6/2 把 Codex 推成企业工作台:500 万周活、6 插件接 62 应用 110 技能(✧∀✧)
• Microsoft Build 6/2:Scout 常驻 Agent(OpenClaw 底座)+ 自研 MAI-Thinking-1 推理模型
• 特朗普 6/2 签署 AI 安全 EO:前沿模型公开发布前自愿送测,政府窗口最长 30 天
• 阿里 6/2 发布 Qwen3.7-Plus:Vision Arena 全球前五,实测 11 小时闭环开发 App
• NVIDIA GTC 台北 6/1:Nemotron 3 Ultra 550B 开源权重,Intelligence Index 48 分领跑美国开源
产品与功能更新
1. OpenAI Codex 企业化升级(OpenAI 官稿 6/2)
OpenAI 6/2 发布 Codex 面向全岗位的三项能力:Sites(可分享交互式网页/仪表盘,Business/Enterprise 预览)、Annotations(文档/表格/幻灯片就地精修)及 6 个角色插件——整合 Salesforce、Snowflake、Figma 等 62 款应用与 110 项自动化技能,覆盖销售、投研、投行、数据分析、创意设计等场景。官方称 Codex 周活已超 500 万(较 2 月独立桌面版上线后约 6×),非开发者占 20% 且增速约为工程师 3×——「vibe coding」正从开发者圈外溢至知识工作主流。
2. Microsoft Scout 与 MAI-Thinking-1(Microsoft 365 Blog / Microsoft AI 6/2)
Build 2026 6/2 亮相 Microsoft Scout:基于 OpenClaw 开源栈的首个 Autopilot 常驻个人 Agent,跨 Teams、Outlook、OneDrive、SharePoint 主动处理会议准备、日程冲突与例行任务;需 Frontier 注册、Intune 策略与 GitHub Copilot 许可证,Frontier 组织私测中。同日 Microsoft AI 发布自研推理模型 MAI-Thinking-1:35B 激活参数 MoE(总参约 1T)、256k 上下文,SWE-Bench Pro 对标 Claude Opus 4.6,AIME 2025/2026 分别 97.0% / 94.5%,盲测人类偏好胜 Sonnet 4.6;Microsoft Foundry 私测可用,强调「无第三方模型蒸馏」。
3. GitHub Copilot 桌面 App(GitHub Blog / Thurrott 6/2)
GitHub 在 Build 发布 Copilot App 技术预览:「My Work」 统一视图管理并行 Agent 会话、Issue、PR 与后台自动化;每个会话独立 Git worktree 隔离,配套 Canvas 双向协作面与 Agent Merge 审合并流程。Windows 11 / macOS / Linux 可下载,Business/Enterprise 即刻可用,Pro/Pro+ 排队候补;Copilot SDK 同步 GA(Node/Python/Go/.NET/Rust/Java)。
4. 阿里 Qwen3.7-Plus 多模态智能体(财联社 / 新浪科技 6/2)
通义千问 6/2 正式发布 Qwen3.7-Plus:在 Qwen3.7 文本与 Agent 能力上深度融合视觉,支持屏幕/GUI/CLI 混合交互。Vision Arena 据报全球前五、国内第一;实测 Hybrid-Agent 连续运行 11 小时、生成超 1 万 行代码并完成英语单词 App 全链路交付。Terminal Bench 2.0 等编码评测较 Qwen3.6-Plus 提升约 9 分,Skillbench +10.2 分;已上线阿里云百炼,支持 OpenAI 兼容 API 与 Anthropic 协议。
5. OpenAI 重启机器人硬件(Sam Altman X / Economic Times 5/31)
Sam Altman 5/31 在 X 宣布 OpenAI Robotics 独立部门,由 DALL-E / Sora 核心 Aditya Ramesh 领衔,旧金山招募 11 类硬件/仿真/数据岗位。短期聚焦基建场景技能工人辅助机器人,长期愿景「人人拥有个人机器人」;与 Figure 3 月分手后转向自研「硬件—ML 协同设计」,亦与 io Products(~65 亿美元) 消费硬件线形成双轨布局。
前沿研究
1. ClinEnv 住院 Agent 基准(arXiv 2606.02568,6/2)
Georgia Tech / 北大 / UT Southwestern 等发布 ClinEnv:在真实 MIMIC-IV 入院轨迹上,以 Longitudinal Inpatient Simulation 评估 LLM 扮演主治医师——每阶段须主动查询患者/护士/检验/病史四类子 Agent 后再做不可逆用药/处置/诊断决策。7 个模型最强仅 0.31 决策 F1;出院诊断 0.51 F1 远高于管理动作 0.17 F1,且后期冗余查询激增——提示「会猜诊断」≠「会管病人」,静态 MCQ 基准或严重高估临床就绪度。
2. Agent 行为轨迹嵌入监测(arXiv 2606.02536,6/2)
提出用文本嵌入空间方向向量量化 Agent 特质演化:对 SKILL.md 等配置文件的 before/after diff 训练线性模型,在 68 组「敏感数据索取倾向」标注对上 LOOCV 符号分类准确率 91.2%、Spearman ρ=0.82(优于 YARA 式规则 63.2%)。配套 Agent-to-Agent 协议经可信运行时中介评估,已在 Hermes Agent 部署——回应 3 月 Cisco 披露的 Claude Code 记忆文件持久化投毒风险。
3. Google Co-Scientist 多 Agent 科研伙伴(DeepMind Blog 5/19;Nature 同期)
Google DeepMind 在 Nature 发表 Co-Scientist:基于 Gemini 的多 Agent 系统通过「想法锦标赛」生成、辩论并迭代科学假说,已在抗菌耐药、植物免疫、肝纤维化等方向与 Daiichi Sankyo、Bayer Crop Science 及美国能源部实验室试点。Hypothesis Generation 实验工具将通过 labs.google/science 向个人研究者开放——属 Gemini for Science 套件一环,与 Science Skills(整合 UniProt、AlphaFold DB 等 30+ 生命科学数据源)同批推进。
4. SkillsBench Agent Skills efficacy(arXiv 2602.12670,Harbor 框架)
系统评估 Agent Skills 对 7 种 Agent-模型 配置、84 任务 × 7308 轨迹的三档条件(无 Skills / 人工策展 / 自生成):策展 Skills 平均 Pass@1 +16.2pp(医疗域最高 +51.9pp),但 16/84 任务出现负增益;自生成 Skills 平均 -1.3pp 几乎无效。2–3 模块的聚焦 Skills 优于冗长文档,小模型+Skills 可追平更大模型——为 2026「Skills 工程」提供可复现量化基线。
行业展望与社会影响
1. 特朗普 AI 创新与安全行政令(White House Fact Sheet / Reuters 6/2)
特朗普 6/2 签署 Promoting Advanced Artificial Intelligence Innovation and Security 行政令:要求财政部、国防部、商务部、国土安全部等与领先 AI 开发商达成自愿协议,在「覆盖前沿模型(covered frontier models)」对外发布前提交政府网络安全测试,窗口最长约 30 天;NSA 主任牵头建立分级基准流程。Reuters 称此举标志其从「放手创新」转向更主动监测——背景包括 Anthropic Mythos 等超强系统引发的安全担忧,以及 5/21 一度搁置的更强版 EO 被缩减后重签。
2. Anthropic Agent SDK 计费改革倒计时(Anthropic Help / Digital Applied 5/14 公告;6/15 生效)
Anthropic 定于 6/15 将 Agent SDK、claude -p 无头模式、GitHub Actions、ACP 第三方应用 移出 Pro/Max/Team/Enterprise 订阅池,改按档发放不可滚动的程序化额度(Pro $20 / Max 5× $100 / Max 20× $200 等),超额按 API 全价计费;6/8 邮件激活链接,未开启 Usage Credits 则调用失败。Claude Code TUI、Claude.ai、Cowork 交互用量不受影响——生产自动化团队需在 10 天窗口内重算 Token 经济学。
3. NVIDIA Nemotron 3 Ultra 与 GTC 台北智能体栈(GTC Keynote / Artificial Analysis 6/1)
黄仁勋 GTC 台北 发布 Nemotron 3 Ultra:550B 总参 MoE(55B 激活),Artificial Analysis Intelligence Index 48 分——据称为当前最强美国开源权重(次席 Gemma 4 31B 为 39 分),预发布端点吞吐 300+ tokens/s;权重 6/4 上 Hugging Face,并开源 2.5T token 预训练数据与训练配方。同台还有 Vera CPU(88 核、1.2TB/s 内存带宽)、DGX Station 桌面超算(748GB 内存、2 PFLOPS 级算力)及 Alpamayo 2 Super 320B 参数开放 VLA——英伟达从「卖 GPU」向「智能体经济基础设施运营商」叙事升级。
4. Microsoft Execution Containers 与 Agent 安全治理(Windows Developer Blog 6/2)
Build 发布 MXC(Microsoft Execution Containers)SDK 早期预览:跨 Windows/WSL 的策略驱动 Agent 沙箱,开发者声明文件/网络边界、OS 运行时强制;GitHub Copilot CLI 已采用进程隔离。OpenAI、Nvidia、Manus、Nous Research、OpenClaw 五方首批集成;Microsoft Scout 亦向上游 OpenClaw 贡献策略合规检测。Agent 365 + Entra + Intune 组合,试图把「个人 Agent Wild West」拉回 CISO 可审计的企业治理框架——官方亦提醒当前配置尚不应视为完整安全边界。
5. Google DeepMind 新加坡国家 AI partnership(DeepMind Blog 6/2)
Google DeepMind 6/2 宣布深化与新加坡政府 National Partnerships for AI:推出 DeepMind Accelerator: AI for the Planet(亚太) 扶持气候创业,并扩展本地研究者 Agentic 科学工具培训。据 DeepMind 估算,AI 加速研发可为新加坡 2040 年前带来约 33 亿新元(~25 亿美元) 额外经济价值——体现「国家级 Agent + 科学发现」与欧美监管/安全 EO 并行的亚太竞争轴线。
开源TOP项目
(⭐ 数为 GitHub API 查询所得,实时以仓库首页为准;查询日 2026‑06‑03)
1. ASSERT
链接:https://github.com/responsibleai/ASSERT
(⭐ 16)Microsoft Build 2026 6/2 开源的 Adaptive Spec-driven Scoring 评测框架(v0.1.0):用自然语言描述目标/政策,自动生成可执行 Agent 行为测试并用 LLM Judge 打分,支持 LiteLLM / OpenTelemetry 追踪 LangGraph、CrewAI 等 33+ 框架;填补 HELM 类通用基准与「产品级合规策略」之间的空白,适合上线前回归与持续监控。
2. Nemotron
链接:https://github.com/NVIDIA-NeMo/Nemotron
(⭐ 1 218)NVIDIA 官方 Nemotron 开发者资产库:GTC 台北 后 6/1–2 高频更新,含 Nemotron 3 Ultra vLLM 部署食谱、2.5T token 数据集文档与 Nano/Super/Ultra 分级指南;配合 6/4 Hugging Face 权重发布,是跑通 550B MoE 与 Agent 生产力评测的默认开源入口。
3. GitHub Copilot app
链接:https://github.com/github/app
(⭐ 1 110)Build 2026 发布的 Copilot 桌面客户端公开 Issue/Release 仓(源码闭源):6/2 推送 v0.2.x 线,提供 Windows/macOS/Linux 安装包与 Changelog;「并行 worktree Agent + My Work 仪表盘」代表 2026 编码工具从 IDE 插件向 Agent-Native OS 迁移的产品范式,星标 4 月建仓后 2 个月内破 1k。
4. github-mcp-server
链接:https://github.com/github/github-mcp-server
(⭐ 30 374)GitHub 官方 MCP Server:让 Agent 经 Model Context Protocol 安全读写 Issues、PR、Actions、Code Search 等能力;6/2 仍活跃合并,与 Copilot App/SDK GA、Scout/OpenClaw 企业集成同频——「把 GitHub 变成 Agent 工具总线」的基础设施层,适合自托管 Agent 栈替代散落的 REST 胶水代码。
夜雨聆风