AI资讯日报 2026/06/25

今日摘要

• Google Gemini 图像 preview 模型 6/25 硬下线：须切 gemini-3.1-flash-image / gemini-3-pro-image，无自动重定向

• OpenAI×Broadcom 6/24 发布 Jalapeño 推理 ASIC：9 个月 tape-out，实验室已跑 GPT-5.3-Codex-Spark，2026 末 gigawatt 部署

• Bloomberg 6/24：Gemini 核心研究员 Adler/Pritzel 转 Anthropic；SignalFire 称 2025 大厂新招 55% 为工程师（仅 -11%）

• Cerebras 6/24 首份财报后股价近 -20%：全年毛利指引 38—41% vs Q1 47%，CEO 称租回客户设备致误解

• Qwen 6/24 开源 AgentWorld-35B-A3B：7 域语言世界模型 + AgentWorldBench；MEMPROBE 6/23 测 1550 维用户状态恢复 (✧∀✧)

产品与功能更新

1. Google Gemini 图像 preview 模型 6/25 全球硬下线（Google AI 开发者文档 5/28 公告）
Google 在 Gemini API 弃用页明确：gemini-3.1-flash-image-preview（2/26 发布）与 gemini-3-pro-image-preview（2025/11/20 发布）于 2026/6/25 关停，无自动重定向——仍调用 preview model ID 的管线将直接报错。官方替代为 5/28 GA 的 gemini-3.1-flash-image（Nano Banana 2）与 gemini-3-pro-image（Nano Banana Pro）。另：Gemini Enterprise Agent Platform 上同一 preview ID 另有 7/17 截止窗口；Imagen 4.0 GA 端点则排 8/17/2026 迁移——三波下线日期不可混用。在 OpenAI Jalapeño 押注推理成本的同周，「改一行 model 字符串」成为 6/25 最硬的生产运维任务。

2. OpenAI Jalapeño：首款 LLM 推理 ASIC，9 个月 tape-out（OpenAI 官稿 / TechCrunch 6/24）
OpenAI 与 Broadcom 发布 Jalapeño「Intelligence Processor」——blank-slate 设计专供 LLM inference（非训练），由 OpenAI 定架构、Broadcom 做硅实现与 Tomahawk 组网、Celestica 做板级机架。官稿称从设计到 tape-out 仅 9 个月，且 OpenAI 自家模型 参与部分设计优化；工程样片已在实验室以目标频率/功耗跑 ML workload，含 GPT‑5.3‑Codex‑Spark 生产级测试。早期测试 称 performance-per-watt 显著优于 SOTA（正式报告待发布）。部署路线：2026 末 起与 Microsoft 等伙伴 gigawatt 级 数据中心上线——The Decoder 转述 Broadcom 侧称 Microsoft 或承诺采购约 40% 首批产能（以双方为准）。训练仍主要依赖 Nvidia；Jalapeño 瞄准 ChatGPT/Codex/API 的推理账单——与 Groq 6.5 亿 再融资、Cerebras 毛利 争议同周，算力叙事从「买 GPU」扩到「自研 inference 硅」。

3. Qwen-AgentWorld-35B-A3B：7 域语言世界模型开源（Qwen 博客 / arXiv 6/24）
阿里 Qwen 发布 Qwen-AgentWorld-35B-A3B（MoE 35B 总参 / 3B 激活、256K 上下文）及 AgentWorldBench：首个用长 CoT 模拟 MCP、Search、Terminal、SWE、Android、Web、OS 七类 Agent 环境的语言世界模型（LWM）。训练管线 CPT→SFT→RL（混合 rubric+rule 奖励），数据 10M+ 真实交互轨迹；论文 arXiv:2606.24597 称在 AgentWorldBench（由 Claude Opus 4.6 等在 Terminal-Bench/OSWorld 等 9 个基准的真实轨迹构造）上显著优于现有 frontier 模型。开源权重 + AgentWorldBench（Apache 2.0），代码 github.com/QwenLM/Qwen-AgentWorld——在 NVIDIA Agent Toolkit 卖「模型+harness+运行时」、Claude Tag 卖 Slack Agent 的同月，Qwen 走「先会模拟环境，再当 Agent」第三条路。

4. Cerebras 首份财报：Q1 收入 1.93 亿美元 +94%，但指引毛利缩至 38—41%（TechCrunch / CNBC 6/24）
Cerebras IPO 后首份季报：Q1 收入 $193M（+94% YoY），净亏收窄至 $14M（vs $23.9M）；但全年核心业务毛利指引 38—41%，低于 Q1 的 47%——6/24 股价一度跌近 20%、逼近 IPO 发行价。CEO Andrew Feldman 对 CNBC 称市场误解指引：公司为更快释放产能，临时从最大客户处租回自有系统，待自建数据中心就绪再收回——短期拉低毛利。在 OpenAI Jalapeño 与 Oracle 2.1 万 AI 裁员同周，wafer-scale inference 公司的「增长 vs 利润率」被公开市场首次定价。

前沿研究

1. MEMPROBE：长期 Agent 记忆须单独审计「用户状态恢复率」（arXiv 2606.24595 / 6/23）
论文指出：长期记忆常被下游任务成功率间接评估，却少有人审计「交互结束后，memory 里到底留下了什么」。MEMPROBE 让带记忆的 Agent 服务携带 31 维隐藏用户状态的模拟用户（50 用户 × 31 维 = 1550 恢复目标），任务完成后从 memory artifact 重建用户状态并对照真值。实验：5 套 SOTA 记忆系统上，任务完成 近乎饱和（无记忆基线亦高），但类别均衡恢复率仅约 0.6，top-k 检索下进一步下降——「帮用户做完事」与「记住用户是谁」是可分离能力。为 Claude Tag 频道级记忆、ponytail 省 token 同周提供可量化对照：memory 质量 需要独立 benchmark，而非只看最终回复。

2. Tmax：9B 终端 Agent RL 配方，Terminal-Bench 2.0 达 27%（arXiv 2606.23321 / Ai2 6/22）
Allen AI Hamish Ivison 等发布 Tmax：taxonomy 控制难度 + persona + verifier 多样化，廉价生成 TMAX-15K 数据集（称较既有 terminal 数据集 >2.5×）。outcome-only RL（DPPO） 在 Qwen3.5-9B 上训练 200 步，Terminal-Bench 2.0 27%（较同 harness 基线 +6pp）；Tmax-27B 约 43%。代码/权重/rollout 日志开源 github.com/hamishivi/tmax——在 Claude Code、Codex OSS 争 terminal harness 入口时，学术侧给出可复现的「数据+RL」下限。

3. Active Inference：物理 AI Agent 的 test-time scaling law（arXiv 2606.22813 / 6/22）
论文提出：物理 AI Agent 可用主动推理（active inference） 在测试时动态更新策略——以最小化预测误差为似然、对允许策略集合做软 Bayesian 更新，在非平稳环境中泛化。变分推断实现可在测试时同时更新策略与世界模型；自动驾驶任务上优于标准 model-based RL 与 Bayesian RL——与 NVIDIA Halos for Robotics（6/22）、Kairos 世界模型栈形成「硬件安全 + 软件世界模型 + 测试时推理律」三角阅读。

4. Causal RL 综述：反事实与策略学习统一框架（arXiv 2606.24160 / 6/23）
Junzhe Zhang 等发布 Causal Reinforcement Learning 导论：将环境分解为 structural causal model，统一 generalized policy learning、imitation、counterfactual learning 等模式，并指出标准 RL 设定已隐含因果结构只是未被显式建模——为 Agent 在「可干预 vs 仅观测」环境里的安全决策提供形式化语言（偏综述/框架，非单点 SOTA 数字）。

行业展望与社会影响

1. SignalFire：2025 大厂新招 55% 为工程师，AI 裁员叙事与招聘数据背离（TechCrunch 6/24）
风投 SignalFire 追踪 8000 万+ 公司员工轨迹称：2025 年 12 家「Tech Majors」（Alphabet/Meta/Apple/Amazon/Microsoft/Netflix/Nvidia/Tesla/Uber/Airbnb/Block/Stripe）新招中 工程师占 55%（2019 仅 46%），工程岗招聘降幅 11% 远小于整体 -25%；早期创业公司 2025 工程师招聘甚至较 2019 +7%。Anthropic 首席经济学家 Peter McCrory 3 月 亦对 TechCrunch 称尚未见 AI 对失业率的可观冲击；Jensen Huang 4 月 称 Nvidia 工程师因 Agent 「比 ever 更忙」——与 5 月 单月近 4 万 tech 裁员、AI 成 Challenger 最常引用理由形成张力：「AI 替人」在 10-K/CEO 话术里高频，SignalFire 用入职流而非裁员公告给出反证。

2. Oracle 10-K：12 个月裁 2.1 万人（13%），明文写入 AI 致岗（Bloomberg / BBC 6/22—23）
Oracle 6/22 年报披露：截至 2026/5/31 全职员工 141,000（一年前 162,000），12 个月减约 21,000（13%）；Item 1 写「AI 技术的采用与部署……已导致并将继续导致 workforce 缩减」——据 Refolk 分析，系大型云厂商首次在人力资本正文（非仅风险因素）将 AI 与裁员并述。重组成本 $18 亿（前财年 $3.74 亿），同时 RPO 仍高、2026 计划 $450—500 亿 扩 OCI 服务 OpenAI/xAI/Meta 等——「砍人充数据中心」与 OpenAI Jalapeño 自建硅形成供给侧镜像。

3. Google→Anthropic 人才潮续：Gemini 核心 Adler、Pritzel 加盟（Bloomberg / TechCrunch 6/24）
Bloomberg 称 Google Gemini 开发关键人物 Jonas Adler、Alexander Pritzel 转投 Anthropic——距 Transformer 共同发明人 Noam Shazeer（→OpenAI）与 AlphaFold 诺奖得主 John Jumper（→Anthropic）离职仅数日。 TechCrunch 指 OpenAI/Anthropic 筹备 IPO 使股权成为挖角筹码；Google 对 TechCrunch 询证未立即回应——在 Fable/Mythos 5 仍全球 404、Claude Tag 6/23 outage 之后，「科学+工程领袖」继续向两家 frontier lab 集中。

4. Cerebras 股价重挫：毛利指引与市场「inference 硬件=高毛利」预期碰撞（TechCrunch 6/24）
见产品板块数字；更广语境是 2026 H1 inference 赛道分化——Groq 6.5 亿 再融资重建云、OpenAI 推自研 ASIC、Cerebras 首季增收但指引毛利下行。 TechCrunch 将其与 「AI 裁员潮」 并读：资本仍涌入算力，但公开市场开始要求解释「为何租回自己的机器」——对 IPO 窗口中的 AI 芯片 公司，利用率叙事 与 毛利率叙事 同样重要。

5. Fable/Mythos 5 出口管制余波：6/25 仍全球离线，谈判无公开进展（CSA Lab / CSIS 6/12—15 汇总）
距 Commerce 6/12 17:21 ET 指令已 13 天，Fable 5/Mythos 5 仍因「无法按国籍实时分流用户」而全球禁用（Opus 4.8 等未受影响）。CSIS 分析称指令要求任何外国籍人士（含 Anthropic 非美籍员工）访问须 BIS 许可——India 等国呼吁主权 AI 的声音在 6 月 持续。6/25 无官方恢复公告；开发者侧仍依赖 Sonnet 4.6/Opus 4.8 或迁移 OpenAI/Google——政策风险与 Gemini 6/25 模型 ID 下线 同日提醒：API 可用性 已是产品架构的一等公民。

开源TOP项目

（⭐ 数为 GitHub API 查询所得，实时以仓库首页为准；查询日 2026‑06‑25）

1. Qwen-AgentWorld
链接：https://github.com/QwenLM/Qwen-AgentWorld
（⭐ 286）Qwen 随 AgentWorld 论文开源的语言世界模型栈：35B-A3B MoE 权重、AgentWorldBench 与七域（Terminal/OS/Android…）模拟代码；6/24 全量释出，256K 上下文 next-state prediction——在 Claude Tag 做企业协作、Unlimited OCR 做文档解析的当周，代表「Agent 先学环境动力学」开源路线（以 README 为准）。

2. Scrapling
链接：https://github.com/D4Vinci/Scrapling
（⭐ 65 955）D4Vinci 的 Python 爬虫/抓取框架：强调自适应解析、反爬绕过与 Agent 友好接口；6/24 仍活跃推送，6 月 居 Trending 前列。当 Agent-Reach（6/22 日报）打包「读公网」、Codex OSS 开放本地模型时，Scrapling 提供可 fork 的结构化抓取底层——偏 RAG/调研 Agent 管线而非聊天壳。

3. tmax
链接：https://github.com/hamishivi/tmax