AI日报 | 多智能体时代全面爆发(2026.6.25)

多智能体时代全面爆发

OpenAI、Google、字节、通义齐发力——模型更新·Agent产品·定制芯片同日登场

📅 2026年6月25日 · 周四

⚡ 21 条热点 · 8 条深度

模型发布

产品更新

基础设施

观点·研究

今天的关键词是「全栈爆发」——从OpenAI定制芯片Jalapeño到字节豆包专业版Agent，从Google Gemini内置Computer Use到通义Qwen-AgentWorld开源，AI行业正在同时推进芯片层、模型层、产品层和框架层的全面迭代。

🎯 模型发布与技术突破

OpenAI、Google、通义千问同日更新，双向语音模型问世

🔥 重磅发布

OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1

🎯 模型发布 · IT之家

6月23日，部分用户发现ChatGPT上线了双向AI语音模型Bidi 1。该模型支持边说话边监听，用户可中途打断并发出新指令（如数数时喊停），模型会立即切换执行。OpenAI尚未官宣，预计本周启动更大范围测试。

💡 双向语音模型意味着人机对话从「你说我听」变成「边听边想」——这是语音交互范式的根本转变。

📎 来源：IT之家

🆕 功能更新

Qwen-AgentWorld 开源：让 Agent 学会「先预测，再行动」

🎯 模型发布 · 通义实验室

通义千问推出首个原生语言世界模型Qwen-AgentWorld，覆盖MCP、Search等七大领域。该模型在AgentWorldBench上超越GPT-5.4和Claude Opus 4.8，得分58.71。其核心能力在于可作为环境模拟器实现可控Sim RL，或作为智能体基础模型，提升在多个基准上的表现。

💡 「世界模型」+「Agent」的组合正在创造全新的认知架构——Agent不再只是反应，而是能预判环境变化。

📎 来源：通义实验室

🆕 更新发布

Gemini 3.5 Flash 内置「计算机使用」能力

🎯 模型发布 · Hacker News

Google将「计算机使用」（Computer use）作为内置工具集成至Gemini 3.5 Flash，使开发者能构建跨浏览器、移动端和桌面的智能体。该功能原生整合至主Flash模型，可通过Gemini API调用，并新增了确认敏感操作和自动停止等企业级安全保护。

💡 内置Computer use意味着Agent不再需要额外工具链——模型原生就能「看屏幕」「操作界面」。

📎 来源：Hacker News

🆕 版本更新

GPT-5.5 Instant 新版：对话更有趣，购物更实用

🎯 模型发布 · OpenAI

OpenAI发布了新版GPT-5.5 Instant，使其对话更生动有趣。新模型能更好地理解问题意图，并更可靠地处理复杂约束，使购物和本地推荐等功能更加实用。该更新于当日向付费用户推送，次日向免费用户推送。

📎 来源：OpenAI

🚀 AI Agent 产品爆发

字节豆包专业版·火山引擎Agent Ready·Notion嵌Cursor·Perplexity进军律所

🔥 重磅发布

字节豆包正式推出专业版：Agent操作电脑+浏览器+Office

🚀 产品发布 · 豆包

字节跳动旗下豆包推出专业版，基于豆包2.1系列大模型，面向复杂办公与生产力场景。专业版支持Agent任务，可操作本地电脑、浏览器，内置Office套件并能生成在线应用。定价为68元/月至500元/月不等，大学生有优惠。

💡 68元起就能拥有一个能替你操作电脑的AI助理——AI Agent的「iPhone时刻」可能在办公场景最先到来。

📎 来源：豆包

🆕 基础设施

火山引擎推出 Agent Ready 基础设施

🚀 基础设施 · 火山引擎

火山引擎推出面向企业智能应用的Agent Ready基础设施，并升级了AgentKit和ArkClaw企业版。新方案提供了身份接入、沙箱并发、长程任务等能力。实践案例显示，海底捞和创维酷开分别通过该方案实现了运营效率的大幅提升。

📎 来源：火山引擎

🆕 生态集成

Notion 使用 Cursor SDK 嵌入编码智能体

🚀 产品发布 · Cursor Blog

Notion通过Cursor SDK在数周内将编码智能体嵌入产品。用户可在文档中@Cursor，让智能体端到端完成规划、构建、测试并自动创建PR。该集成基于一个Provider无关的框架，Notion无需自建智能体基础设施即可获得完整编码能力。

💡 文档工具内嵌编码Agent——笔记和写代码的边界正在消失。

📎 来源：Cursor Blog

🆕 垂直场景

Perplexity 推出 Computer for Counsel：面向律师的AI助手

🚀 产品发布 · Perplexity

Perplexity推出面向律师的「Computer for Counsel」产品。该功能连接了律师日常使用的研究数据库和文档工具，可从@LegalZoom、@Docusign等平台提取可引用来源。所有Pro和Max订阅用户均可使用。

📎 来源：Perplexity

📋 安全新能

Mistral AI 为 Connectors 推出多项安全与可控新能力

🚀 产品更新 · Mistral AI

Mistral AI为其Connectors产品发布了多项新能力，包括增强的管理控制、API密钥范围、多账户连接器等，以提升安全性和可控性。此外，还推出了新的调试工具，并支持在开发者界面和长时间运行的工作流中使用连接器。

📎 来源：Mistral AI

🔬 评测基准

FFASR 排行榜发布：真实远场条件下 ASR 评测

🚀 标准发布 · Hugging Face

Treble Technologies与Hugging Face联合推出首个开源远场语音识别评测基准FFASR。它使用模拟引擎生成涵盖多种房间和信噪比条件的声学数据，以弥补传统近场评测的不足。该排行榜同时报告词错误率（WER）和实时因子（RTFx）。

📎 来源：Hugging Face

🔧 基础设施与芯片

OpenAI定制芯片·NVIDIA微调加速·Figma押注人类判断

🔥 重磅发布

OpenAI 与 Broadcom 发布面向 LLM 推理的定制芯片 Jalapeño

🔧 芯片发布 · OpenAI

OpenAI与Broadcom联合推出专为大语言模型（LLM）推理优化的定制AI芯片「Jalapeño」，旨在提升AI系统的性能、效率与规模。这是OpenAI从软件走向全栈AI的关键硬件布局。

💡 OpenAI自研芯片标志着AI公司竞争从「模型能力」扩展到「芯片定制」——垂直整合成为新常态。

📎 来源：OpenAI

📋 开源工具

NVIDIA NeMo AutoModel：一行代码加速Transformer MoE模型微调

🔧 开源工具 · Hugging Face

NVIDIA发布NeMo AutoModel开源库，仅需改动一行import代码，即可在MoE模型微调中实现3.4-3.7倍的训练吞吐量提升，并减少29-32%的GPU内存。在处理超大模型时，AutoModel凭借专家并行能力使训练成为可能。

💡 一行代码提升3.7倍训练效率——MoE模型的微调门槛正在急剧降低。

📎 来源：Hugging Face Blog

🆕 产品更新

Figma Config 2026：押注人类判断，AI能力却来自第三方

🔧 行业观察 · The Decoder

Figma在Config 2026大会扩展了设计画布功能，新增代码、动画、3D等功能并集成工作流系统。但其AI功能依赖Anthropic、OpenAI等外部模型，面临推理成本压力和被竞争产品直接生成界面的威胁。

📎 来源：The Decoder

📋 边缘AI

MiniCPM-V 4.6 在 Apple Core AI 上高速运行

🔧 边缘计算 · OpenBMB

面壁智能的开源多模态模型MiniCPM-V 4.6在Apple Core AI上以低于2B的参数实现了高速运行，展示了高效的多模态AI能力。

📎 来源：OpenBMB

💬 行业动态与观点

Reid Hoffman炮轰xAI、NSA失去模型访问、工程岗韧性最强

🔥 争议事件

Reid Hoffman 称 xAI 是「彻底的灾难」

💬 观点 · Hacker News

LinkedIn联合创始人Reid Hoffman公开批评SpaceX和xAI。他认为SpaceX收购Cursor仅是「花钱买相关性」，而xAI则因所有联合创始人离职和模型基准落后成为「彻底的灾难」。他还批评了美国政府强制Anthropic下架模型的行为。

📎 来源：Hacker News

⚠️ 安全事件

在与Anthropic的纠纷中，NSA失去了对Mythos的访问权限

💬 安全 · Hacker News

美国国家安全局（NSA）因与AI公司Anthropic的纠纷，失去了对名为「Mythos」的系统的访问权限。这一事件凸显了AI公司与政府机构之间的复杂关系。

📎 来源：Hacker News

📊 行业数据

字节跳动技术副总裁洪定坤：AI Coding的实践与探索

💬 观点 · 火山引擎

字节跳动技术副总裁洪定坤分享了过去一年AI Coding的实践。数据显示AI代码贡献率增长6倍，但单一指标可能失真，如TRAE团队超90%代码由AI生成，但人均需求吞吐率仅提升60%。他提出需优化指标、治理和协作，并推出TRAE Work等能力。

💡 AI代码占比≠效率提升——字节的实践揭示了AI Coding的真实ROI评估难题。

📎 来源：火山引擎

📊 人才趋势

AI会取代工程岗？新数据显示工程是2025年最具韧性的岗位

💬 职场 · TechCrunch

风投机构SignalFire数据显示，工程是2025年最具韧性的岗位。大型科技公司招聘整体下降，但工程岗降幅较小，且早期初创公司工程师招聘反而增长。多位行业领袖对此有不同看法，如Anthropic CEO警告AI可能取代初级岗位，而NVIDIA CEO则认为AI让工程师更忙碌。

💡 工程岗位「最具韧性」与「被AI取代」两种叙事同时存在——真相可能介于两者之间。

📎 来源：TechCrunch

📋 安全隐私

OpenRouter 零数据留存（ZDR）实践：97款新模型，流量占比近半

💬 隐私 · OpenRouter

OpenRouter的零数据留存（ZDR）功能保证用户数据不被存储。自1月以来，支持ZDR的模型增加了97款，月度token量增长4.3倍，约占其总流量的一半。ZDR可在账户、护栏和单次请求三个层面执行，为企业用户提供灵活的控制粒度。

📎 来源：OpenRouter

🧪 前沿研究

DFlash 15倍吞吐量提升、推理即回忆、Figma集成Aleph视频编辑

🔬 论文突破

DFlash：块扩散草稿模型实现最高15倍吞吐量提升

🧪 论文 · MarkTechPost

UC San Diego团队提出DFlash，一种用于投机解码的轻量块扩散草稿模型。它一次前向推理即可生成整块token，能实现最高15倍的吞吐量提升（相比EAGLE-3约1.5倍），并且在多种模型上实现平均超过6倍的无损加速。

💡 15倍吞吐量提升意味着推理成本可降低一个数量级——这将直接影响LLM部署的经济模型。

📎 来源：MarkTechPost

🔬 论文发现

思考即回忆：推理如何解锁LLM中的参数化知识

🧪 论文 · Google Research

Google Research研究发现，推理过程能帮助LLM回忆原本无法直接回答的简单事实。该现象由两个机制驱动：生成的推理token提供计算缓冲以提取知识，以及推理中产生的相关事实起到启动效应，帮助模型激活正确答案。

💡 推理不只是「思考」，更是「回忆」——这对理解和改进LLM的知识提取机制有深远意义。

📎 来源：Google Research

🆕 集成发布

Aleph 2.0 集成 Figma Weave：关键帧驱动视频编辑

🧪 融合创新 · Runway

Runway旗舰视频编辑模型Aleph 2.0现已在Figma Weave上线。通过关键帧工作：从视频中提取一帧，重新设计风格并附上时间戳连接回Aleph 2.0节点，即可将编辑传递到主体出现的每一帧。支持最长30秒、1080p片段。

💡 视频编辑在设计工具内实现「编辑一帧，生效全局」——设计工作流与视频制作深度融合。

📎 来源：Runway

📌 今日亮点速览

▸ OpenAI Bidi 1 双向语音模型 + 定制芯片 Jalapeño

▸ 字节豆包专业版 Agent 可操作电脑/浏览器/Office

▸ Google Gemini 3.5 Flash 内置 Computer Use

▸ 通义 Qwen-AgentWorld 开源，超越 GPT-5.4

▸ Notion 嵌入 Cursor、Perplexity 进军律所、Reid Hoffman 炮轰 xAI