今日摘要
• Google Gemini 图像 preview 模型 6/25 硬下线:须切 gemini-3.1-flash-image / gemini-3-pro-image,无自动重定向
• OpenAI×Broadcom 6/24 发布 Jalapeño 推理 ASIC:9 个月 tape-out,实验室已跑 GPT-5.3-Codex-Spark,2026 末 gigawatt 部署
• Bloomberg 6/24:Gemini 核心研究员 Adler/Pritzel 转 Anthropic;SignalFire 称 2025 大厂新招 55% 为工程师(仅 -11%)
• Cerebras 6/24 首份财报后股价近 -20%:全年毛利指引 38—41% vs Q1 47%,CEO 称租回客户设备致误解
• Qwen 6/24 开源 AgentWorld-35B-A3B:7 域语言世界模型 + AgentWorldBench;MEMPROBE 6/23 测 1550 维用户状态恢复 (✧∀✧)
产品与功能更新
1. Google Gemini 图像 preview 模型 6/25 全球硬下线(Google AI 开发者文档 5/28 公告)
Google 在 Gemini API 弃用页明确:gemini-3.1-flash-image-preview(2/26 发布)与 gemini-3-pro-image-preview(2025/11/20 发布)于 2026/6/25 关停,无自动重定向——仍调用 preview model ID 的管线将直接报错。官方替代为 5/28 GA 的 gemini-3.1-flash-image(Nano Banana 2)与 gemini-3-pro-image(Nano Banana Pro)。另:Gemini Enterprise Agent Platform 上同一 preview ID 另有 7/17 截止窗口;Imagen 4.0 GA 端点则排 8/17/2026 迁移——三波下线日期不可混用。在 OpenAI Jalapeño 押注推理成本的同周,「改一行 model 字符串」成为 6/25 最硬的生产运维任务。
2. OpenAI Jalapeño:首款 LLM 推理 ASIC,9 个月 tape-out(OpenAI 官稿 / TechCrunch 6/24)
OpenAI 与 Broadcom 发布 Jalapeño「Intelligence Processor」——blank-slate 设计专供 LLM inference(非训练),由 OpenAI 定架构、Broadcom 做硅实现与 Tomahawk 组网、Celestica 做板级机架。官稿称从设计到 tape-out 仅 9 个月,且 OpenAI 自家模型 参与部分设计优化;工程样片已在实验室以目标频率/功耗跑 ML workload,含 GPT‑5.3‑Codex‑Spark 生产级测试。早期测试 称 performance-per-watt 显著优于 SOTA(正式报告待发布)。部署路线:2026 末 起与 Microsoft 等伙伴 gigawatt 级 数据中心上线——The Decoder 转述 Broadcom 侧称 Microsoft 或承诺采购约 40% 首批产能(以双方为准)。训练 仍主要依赖 Nvidia;Jalapeño 瞄准 ChatGPT/Codex/API 的推理账单——与 Groq 6.5 亿 再融资、Cerebras 毛利 争议同周,算力叙事从「买 GPU」扩到「自研 inference 硅」。
3. Qwen-AgentWorld-35B-A3B:7 域语言世界模型开源(Qwen 博客 / arXiv 6/24)
阿里 Qwen 发布 Qwen-AgentWorld-35B-A3B(MoE 35B 总参 / 3B 激活、256K 上下文)及 AgentWorldBench:首个用长 CoT 模拟 MCP、Search、Terminal、SWE、Android、Web、OS 七类 Agent 环境的语言世界模型(LWM)。训练管线 CPT→SFT→RL(混合 rubric+rule 奖励),数据 10M+ 真实交互轨迹;论文 arXiv:2606.24597 称在 AgentWorldBench(由 Claude Opus 4.6 等在 Terminal-Bench/OSWorld 等 9 个基准的真实轨迹构造)上显著优于现有 frontier 模型。开源权重 + AgentWorldBench(Apache 2.0),代码 github.com/QwenLM/Qwen-AgentWorld——在 NVIDIA Agent Toolkit 卖「模型+harness+运行时」、Claude Tag 卖 Slack Agent 的同月,Qwen 走「先会模拟环境,再当 Agent」第三条路。
4. Cerebras 首份财报:Q1 收入 1.93 亿美元 +94%,但指引毛利缩至 38—41%(TechCrunch / CNBC 6/24)
Cerebras IPO 后首份季报:Q1 收入 $193M(+94% YoY),净亏收窄至 $14M(vs $23.9M);但全年核心业务毛利指引 38—41%,低于 Q1 的 47%——6/24 股价一度跌近 20%、逼近 IPO 发行价。CEO Andrew Feldman 对 CNBC 称市场误解指引:公司为更快释放产能,临时从最大客户处租回自有系统,待自建数据中心就绪再收回——短期拉低毛利。在 OpenAI Jalapeño 与 Oracle 2.1 万 AI 裁员同周,wafer-scale inference 公司的「增长 vs 利润率」被公开市场首次定价。
前沿研究
1. MEMPROBE:长期 Agent 记忆须单独审计「用户状态恢复率」(arXiv 2606.24595 / 6/23)
论文指出:长期记忆常被下游任务成功率间接评估,却少有人审计「交互结束后,memory 里到底留下了什么」。MEMPROBE 让带记忆的 Agent 服务携带 31 维隐藏用户状态的模拟用户(50 用户 × 31 维 = 1550 恢复目标),任务完成后从 memory artifact 重建用户状态并对照真值。实验:5 套 SOTA 记忆系统上,任务完成 近乎饱和(无记忆基线亦高),但类别均衡恢复率仅约 0.6,top-k 检索下进一步下降——「帮用户做完事」与「记住用户是谁」是可分离能力。为 Claude Tag 频道级记忆、ponytail 省 token 同周提供可量化对照:memory 质量 需要独立 benchmark,而非只看最终回复。
2. Tmax:9B 终端 Agent RL 配方,Terminal-Bench 2.0 达 27%(arXiv 2606.23321 / Ai2 6/22)
Allen AI Hamish Ivison 等发布 Tmax:taxonomy 控制难度 + persona + verifier 多样化,廉价生成 TMAX-15K 数据集(称较既有 terminal 数据集 >2.5×)。outcome-only RL(DPPO) 在 Qwen3.5-9B 上训练 200 步,Terminal-Bench 2.0 27%(较同 harness 基线 +6pp);Tmax-27B 约 43%。代码/权重/rollout 日志开源 github.com/hamishivi/tmax——在 Claude Code、Codex OSS 争 terminal harness 入口时,学术侧给出可复现的「数据+RL」下限。
3. Active Inference:物理 AI Agent 的 test-time scaling law(arXiv 2606.22813 / 6/22)
论文提出:物理 AI Agent 可用主动推理(active inference) 在测试时动态更新策略——以最小化预测误差为似然、对允许策略集合做软 Bayesian 更新,在非平稳环境中泛化。变分推断实现可在测试时同时更新策略与世界模型;自动驾驶任务上优于标准 model-based RL 与 Bayesian RL——与 NVIDIA Halos for Robotics(6/22)、Kairos 世界模型栈形成「硬件安全 + 软件世界模型 + 测试时推理律」三角阅读。
4. Causal RL 综述:反事实与策略学习统一框架(arXiv 2606.24160 / 6/23)
Junzhe Zhang 等发布 Causal Reinforcement Learning 导论:将环境分解为 structural causal model,统一 generalized policy learning、imitation、counterfactual learning 等模式,并指出标准 RL 设定已隐含因果结构只是未被显式建模——为 Agent 在「可干预 vs 仅观测」环境里的安全决策提供形式化语言(偏综述/框架,非单点 SOTA 数字)。
行业展望与社会影响
1. SignalFire:2025 大厂新招 55% 为工程师,AI 裁员叙事与招聘数据背离(TechCrunch 6/24)
风投 SignalFire 追踪 8000 万+ 公司员工轨迹称:2025 年 12 家「Tech Majors」(Alphabet/Meta/Apple/Amazon/Microsoft/Netflix/Nvidia/Tesla/Uber/Airbnb/Block/Stripe)新招中 工程师占 55%(2019 仅 46%),工程岗招聘降幅 11% 远小于整体 -25%;早期创业公司 2025 工程师招聘甚至较 2019 +7%。Anthropic 首席经济学家 Peter McCrory 3 月 亦对 TechCrunch 称尚未见 AI 对失业率的可观冲击;Jensen Huang 4 月 称 Nvidia 工程师因 Agent 「比 ever 更忙」——与 5 月 单月近 4 万 tech 裁员、AI 成 Challenger 最常引用理由形成张力:「AI 替人」在 10-K/CEO 话术里高频,SignalFire 用入职流而非裁员公告给出反证。
2. Oracle 10-K:12 个月裁 2.1 万人(13%),明文写入 AI 致岗(Bloomberg / BBC 6/22—23)
Oracle 6/22 年报披露:截至 2026/5/31 全职员工 141,000(一年前 162,000),12 个月减约 21,000(13%);Item 1 写「AI 技术的采用与部署……已导致并将继续导致 workforce 缩减」——据 Refolk 分析,系大型云厂商首次在人力资本正文(非仅风险因素)将 AI 与裁员并述。重组成本 $18 亿(前财年 $3.74 亿),同时 RPO 仍高、2026 计划 $450—500 亿 扩 OCI 服务 OpenAI/xAI/Meta 等——「砍人充数据中心」与 OpenAI Jalapeño 自建硅形成供给侧镜像。
3. Google→Anthropic 人才潮续:Gemini 核心 Adler、Pritzel 加盟(Bloomberg / TechCrunch 6/24)
Bloomberg 称 Google Gemini 开发关键人物 Jonas Adler、Alexander Pritzel 转投 Anthropic——距 Transformer 共同发明人 Noam Shazeer(→OpenAI)与 AlphaFold 诺奖得主 John Jumper(→Anthropic)离职仅数日。 TechCrunch 指 OpenAI/Anthropic 筹备 IPO 使股权成为挖角筹码;Google 对 TechCrunch 询证未立即回应——在 Fable/Mythos 5 仍全球 404、Claude Tag 6/23 outage 之后,「科学+工程领袖」继续向两家 frontier lab 集中。
4. Cerebras 股价重挫:毛利指引与市场「inference 硬件=高毛利」预期碰撞(TechCrunch 6/24)
见产品板块数字;更广语境是 2026 H1 inference 赛道分化——Groq 6.5 亿 再融资重建云、OpenAI 推自研 ASIC、Cerebras 首季增收但指引毛利下行。 TechCrunch 将其与 「AI 裁员潮」 并读:资本仍涌入算力,但公开市场开始要求解释「为何租回自己的机器」——对 IPO 窗口中的 AI 芯片 公司,利用率叙事 与 毛利率叙事 同样重要。
5. Fable/Mythos 5 出口管制余波:6/25 仍全球离线,谈判无公开进展(CSA Lab / CSIS 6/12—15 汇总)
距 Commerce 6/12 17:21 ET 指令已 13 天,Fable 5/Mythos 5 仍因「无法按国籍实时分流用户」而全球禁用(Opus 4.8 等未受影响)。CSIS 分析称指令要求任何外国籍人士(含 Anthropic 非美籍员工)访问须 BIS 许可——India 等国呼吁主权 AI 的声音在 6 月 持续。6/25 无官方恢复公告;开发者侧仍依赖 Sonnet 4.6/Opus 4.8 或迁移 OpenAI/Google——政策风险与 Gemini 6/25 模型 ID 下线 同日提醒:API 可用性 已是产品架构的一等公民。
开源TOP项目
(⭐ 数为 GitHub API 查询所得,实时以仓库首页为准;查询日 2026‑06‑25)
1. Qwen-AgentWorld
链接:https://github.com/QwenLM/Qwen-AgentWorld
(⭐ 286)Qwen 随 AgentWorld 论文开源的语言世界模型栈:35B-A3B MoE 权重、AgentWorldBench 与七域(Terminal/OS/Android…)模拟代码;6/24 全量释出,256K 上下文 next-state prediction——在 Claude Tag 做企业协作、Unlimited OCR 做文档解析的当周,代表「Agent 先学环境动力学」开源路线(以 README 为准)。
2. Scrapling
链接:https://github.com/D4Vinci/Scrapling
(⭐ 65 955)D4Vinci 的 Python 爬虫/抓取框架:强调自适应解析、反爬绕过与 Agent 友好接口;6/24 仍活跃推送,6 月 居 Trending 前列。当 Agent-Reach(6/22 日报)打包「读公网」、Codex OSS 开放本地模型时,Scrapling 提供可 fork 的结构化抓取底层——偏 RAG/调研 Agent 管线而非聊天壳。
3. tmax
链接:https://github.com/hamishivi/tmax
夜雨聆风