AI资讯日报 2026/06/03

今日摘要

• OpenAI 6/2 把 Codex 推成企业工作台：500 万周活、6 插件接 62 应用 110 技能(✧∀✧)

• Microsoft Build 6/2：Scout 常驻 Agent（OpenClaw 底座）+ 自研 MAI-Thinking-1 推理模型

• 特朗普 6/2 签署 AI 安全 EO：前沿模型公开发布前自愿送测，政府窗口最长 30 天

• 阿里 6/2 发布 Qwen3.7-Plus：Vision Arena 全球前五，实测 11 小时闭环开发 App

• NVIDIA GTC 台北 6/1：Nemotron 3 Ultra 550B 开源权重，Intelligence Index 48 分领跑美国开源

产品与功能更新

1. OpenAI Codex 企业化升级（OpenAI 官稿 6/2）
OpenAI 6/2 发布 Codex 面向全岗位的三项能力：Sites（可分享交互式网页/仪表盘，Business/Enterprise 预览）、Annotations（文档/表格/幻灯片就地精修）及 6 个角色插件——整合 Salesforce、Snowflake、Figma 等 62 款应用与 110 项自动化技能，覆盖销售、投研、投行、数据分析、创意设计等场景。官方称 Codex 周活已超 500 万（较 2 月独立桌面版上线后约 6×），非开发者占 20% 且增速约为工程师 3×——「vibe coding」正从开发者圈外溢至知识工作主流。

2. Microsoft Scout 与 MAI-Thinking-1（Microsoft 365 Blog / Microsoft AI 6/2）
Build 2026 6/2 亮相 Microsoft Scout：基于 OpenClaw 开源栈的首个 Autopilot 常驻个人 Agent，跨 Teams、Outlook、OneDrive、SharePoint 主动处理会议准备、日程冲突与例行任务；需 Frontier 注册、Intune 策略与 GitHub Copilot 许可证，Frontier 组织私测中。同日 Microsoft AI 发布自研推理模型 MAI-Thinking-1：35B 激活参数 MoE（总参约 1T）、256k 上下文，SWE-Bench Pro 对标 Claude Opus 4.6，AIME 2025/2026 分别 97.0% / 94.5%，盲测人类偏好胜 Sonnet 4.6；Microsoft Foundry 私测可用，强调「无第三方模型蒸馏」。

3. GitHub Copilot 桌面 App（GitHub Blog / Thurrott 6/2）
GitHub 在 Build 发布 Copilot App 技术预览：「My Work」 统一视图管理并行 Agent 会话、Issue、PR 与后台自动化；每个会话独立 Git worktree 隔离，配套 Canvas 双向协作面与 Agent Merge 审合并流程。Windows 11 / macOS / Linux 可下载，Business/Enterprise 即刻可用，Pro/Pro+ 排队候补；Copilot SDK 同步 GA（Node/Python/Go/.NET/Rust/Java）。

4. 阿里 Qwen3.7-Plus 多模态智能体（财联社 / 新浪科技 6/2）
通义千问 6/2 正式发布 Qwen3.7-Plus：在 Qwen3.7 文本与 Agent 能力上深度融合视觉，支持屏幕/GUI/CLI 混合交互。Vision Arena 据报全球前五、国内第一；实测 Hybrid-Agent 连续运行 11 小时、生成超 1 万 行代码并完成英语单词 App 全链路交付。Terminal Bench 2.0 等编码评测较 Qwen3.6-Plus 提升约 9 分，Skillbench +10.2 分；已上线阿里云百炼，支持 OpenAI 兼容 API 与 Anthropic 协议。

5. OpenAI 重启机器人硬件（Sam Altman X / Economic Times 5/31）
Sam Altman 5/31 在 X 宣布 OpenAI Robotics 独立部门，由 DALL-E / Sora 核心 Aditya Ramesh 领衔，旧金山招募 11 类硬件/仿真/数据岗位。短期聚焦基建场景技能工人辅助机器人，长期愿景「人人拥有个人机器人」；与 Figure 3 月分手后转向自研「硬件—ML 协同设计」，亦与 io Products（~65 亿美元） 消费硬件线形成双轨布局。

前沿研究

1. ClinEnv 住院 Agent 基准（arXiv 2606.02568，6/2）
Georgia Tech / 北大 / UT Southwestern 等发布 ClinEnv：在真实 MIMIC-IV 入院轨迹上，以 Longitudinal Inpatient Simulation 评估 LLM 扮演主治医师——每阶段须主动查询患者/护士/检验/病史四类子 Agent 后再做不可逆用药/处置/诊断决策。7 个模型最强仅 0.31 决策 F1；出院诊断 0.51 F1 远高于管理动作 0.17 F1，且后期冗余查询激增——提示「会猜诊断」≠「会管病人」，静态 MCQ 基准或严重高估临床就绪度。

2. Agent 行为轨迹嵌入监测（arXiv 2606.02536，6/2）
提出用文本嵌入空间方向向量量化 Agent 特质演化：对 SKILL.md 等配置文件的 before/after diff 训练线性模型，在 68 组「敏感数据索取倾向」标注对上 LOOCV 符号分类准确率 91.2%、Spearman ρ=0.82（优于 YARA 式规则 63.2%）。配套 Agent-to-Agent 协议经可信运行时中介评估，已在 Hermes Agent 部署——回应 3 月 Cisco 披露的 Claude Code 记忆文件持久化投毒风险。

3. Google Co-Scientist 多 Agent 科研伙伴（DeepMind Blog 5/19；Nature 同期）
Google DeepMind 在 Nature 发表 Co-Scientist：基于 Gemini 的多 Agent 系统通过「想法锦标赛」生成、辩论并迭代科学假说，已在抗菌耐药、植物免疫、肝纤维化等方向与 Daiichi Sankyo、Bayer Crop Science 及美国能源部实验室试点。Hypothesis Generation 实验工具将通过 labs.google/science 向个人研究者开放——属 Gemini for Science 套件一环，与 Science Skills（整合 UniProt、AlphaFold DB 等 30+ 生命科学数据源）同批推进。

4. SkillsBench Agent Skills efficacy（arXiv 2602.12670，Harbor 框架）
系统评估 Agent Skills 对 7 种 Agent-模型 配置、84 任务 × 7308 轨迹的三档条件（无 Skills / 人工策展 / 自生成）：策展 Skills 平均 Pass@1 +16.2pp（医疗域最高 +51.9pp），但 16/84 任务出现负增益；自生成 Skills 平均 -1.3pp 几乎无效。2–3 模块的聚焦 Skills 优于冗长文档，小模型+Skills 可追平更大模型——为 2026「Skills 工程」提供可复现量化基线。

行业展望与社会影响

1. 特朗普 AI 创新与安全行政令（White House Fact Sheet / Reuters 6/2）
特朗普 6/2 签署 Promoting Advanced Artificial Intelligence Innovation and Security 行政令：要求财政部、国防部、商务部、国土安全部等与领先 AI 开发商达成自愿协议，在「覆盖前沿模型（covered frontier models）」对外发布前提交政府网络安全测试，窗口最长约 30 天；NSA 主任牵头建立分级基准流程。Reuters 称此举标志其从「放手创新」转向更主动监测——背景包括 Anthropic Mythos 等超强系统引发的安全担忧，以及 5/21 一度搁置的更强版 EO 被缩减后重签。

2. Anthropic Agent SDK 计费改革倒计时（Anthropic Help / Digital Applied 5/14 公告；6/15 生效）
Anthropic 定于 6/15 将 Agent SDK、claude -p 无头模式、GitHub Actions、ACP 第三方应用 移出 Pro/Max/Team/Enterprise 订阅池，改按档发放不可滚动的程序化额度（Pro $20 / Max 5× $100 / Max 20× $200 等），超额按 API 全价计费；6/8 邮件激活链接，未开启 Usage Credits 则调用失败。Claude Code TUI、Claude.ai、Cowork 交互用量不受影响——生产自动化团队需在 10 天窗口内重算 Token 经济学。

3. NVIDIA Nemotron 3 Ultra 与 GTC 台北智能体栈（GTC Keynote / Artificial Analysis 6/1）
黄仁勋 GTC 台北 发布 Nemotron 3 Ultra：550B 总参 MoE（55B 激活），Artificial Analysis Intelligence Index 48 分——据称为当前最强美国开源权重（次席 Gemma 4 31B 为 39 分），预发布端点吞吐 300+ tokens/s；权重 6/4 上 Hugging Face，并开源 2.5T token 预训练数据与训练配方。同台还有 Vera CPU（88 核、1.2TB/s 内存带宽）、DGX Station 桌面超算（748GB 内存、2 PFLOPS 级算力）及 Alpamayo 2 Super 320B 参数开放 VLA——英伟达从「卖 GPU」向「智能体经济基础设施运营商」叙事升级。

4. Microsoft Execution Containers 与 Agent 安全治理（Windows Developer Blog 6/2）
Build 发布 MXC（Microsoft Execution Containers）SDK 早期预览：跨 Windows/WSL 的策略驱动 Agent 沙箱，开发者声明文件/网络边界、OS 运行时强制；GitHub Copilot CLI 已采用进程隔离。OpenAI、Nvidia、Manus、Nous Research、OpenClaw 五方首批集成；Microsoft Scout 亦向上游 OpenClaw 贡献策略合规检测。Agent 365 + Entra + Intune 组合，试图把「个人 Agent Wild West」拉回 CISO 可审计的企业治理框架——官方亦提醒当前配置尚不应视为完整安全边界。

5. Google DeepMind 新加坡国家 AI partnership（DeepMind Blog 6/2）
Google DeepMind 6/2 宣布深化与新加坡政府 National Partnerships for AI：推出 DeepMind Accelerator: AI for the Planet（亚太） 扶持气候创业，并扩展本地研究者 Agentic 科学工具培训。据 DeepMind 估算，AI 加速研发可为新加坡 2040 年前带来约 33 亿新元（~25 亿美元） 额外经济价值——体现「国家级 Agent + 科学发现」与欧美监管/安全 EO 并行的亚太竞争轴线。

开源TOP项目

（⭐ 数为 GitHub API 查询所得，实时以仓库首页为准；查询日 2026‑06‑03）

1. ASSERT
链接：https://github.com/responsibleai/ASSERT
（⭐ 16）Microsoft Build 2026 6/2 开源的 Adaptive Spec-driven Scoring 评测框架（v0.1.0）：用自然语言描述目标/政策，自动生成可执行 Agent 行为测试并用 LLM Judge 打分，支持 LiteLLM / OpenTelemetry 追踪 LangGraph、CrewAI 等 33+ 框架；填补 HELM 类通用基准与「产品级合规策略」之间的空白，适合上线前回归与持续监控。

2. Nemotron
链接：https://github.com/NVIDIA-NeMo/Nemotron
（⭐ 1 218）NVIDIA 官方 Nemotron 开发者资产库：GTC 台北 后 6/1–2 高频更新，含 Nemotron 3 Ultra vLLM 部署食谱、2.5T token 数据集文档与 Nano/Super/Ultra 分级指南；配合 6/4 Hugging Face 权重发布，是跑通 550B MoE 与 Agent 生产力评测的默认开源入口。

3. GitHub Copilot app
链接：https://github.com/github/app
（⭐ 1 110）Build 2026 发布的 Copilot 桌面客户端公开 Issue/Release 仓（源码闭源）：6/2 推送 v0.2.x 线，提供 Windows/macOS/Linux 安装包与 Changelog；「并行 worktree Agent + My Work 仪表盘」代表 2026 编码工具从 IDE 插件向 Agent-Native OS 迁移的产品范式，星标 4 月建仓后 2 个月内破 1k。

4. github-mcp-server
链接：https://github.com/github/github-mcp-server
（⭐ 30 374）GitHub 官方 MCP Server：让 Agent 经 Model Context Protocol 安全读写 Issues、PR、Actions、Code Search 等能力；6/2 仍活跃合并，与 Copilot App/SDK GA、Scout/OpenClaw 企业集成同频——「把 GitHub 变成 Agent 工具总线」的基础设施层，适合自托管 Agent 栈替代散落的 REST 胶水代码。