多智能体时代全面爆发
OpenAI、Google、字节、通义齐发力——模型更新·Agent产品·定制芯片同日登场
📅 2026年6月25日 · 周四 | ⚡ 21 条热点 · 8 条深度 |
4 模型发布 | 8 产品更新 | 3 基础设施 | 6 观点·研究 |
今天的关键词是「全栈爆发」——从OpenAI定制芯片Jalapeño到字节豆包专业版Agent,从Google Gemini内置Computer Use到通义Qwen-AgentWorld开源,AI行业正在同时推进芯片层、模型层、产品层和框架层的全面迭代。
🎯 模型发布与技术突破
OpenAI、Google、通义千问同日更新,双向语音模型问世
🔥 重磅发布
OpenAI ChatGPT 语音最大规模升级:双向AI语音模型 Bidi 1
🎯 模型发布 · IT之家
6月23日,部分用户发现ChatGPT上线了双向AI语音模型Bidi 1。该模型支持边说话边监听,用户可中途打断并发出新指令(如数数时喊停),模型会立即切换执行。OpenAI尚未官宣,预计本周启动更大范围测试。
💡 双向语音模型意味着人机对话从「你说我听」变成「边听边想」——这是语音交互范式的根本转变。
📎 来源:IT之家
🆕 功能更新
Qwen-AgentWorld 开源:让 Agent 学会「先预测,再行动」
🎯 模型发布 · 通义实验室
通义千问推出首个原生语言世界模型Qwen-AgentWorld,覆盖MCP、Search等七大领域。该模型在AgentWorldBench上超越GPT-5.4和Claude Opus 4.8,得分58.71。其核心能力在于可作为环境模拟器实现可控Sim RL,或作为智能体基础模型,提升在多个基准上的表现。
💡 「世界模型」+「Agent」的组合正在创造全新的认知架构——Agent不再只是反应,而是能预判环境变化。
📎 来源:通义实验室
🆕 更新发布
Gemini 3.5 Flash 内置「计算机使用」能力
🎯 模型发布 · Hacker News
Google将「计算机使用」(Computer use)作为内置工具集成至Gemini 3.5 Flash,使开发者能构建跨浏览器、移动端和桌面的智能体。该功能原生整合至主Flash模型,可通过Gemini API调用,并新增了确认敏感操作和自动停止等企业级安全保护。
💡 内置Computer use意味着Agent不再需要额外工具链——模型原生就能「看屏幕」「操作界面」。
📎 来源:Hacker News
🆕 版本更新
GPT-5.5 Instant 新版:对话更有趣,购物更实用
🎯 模型发布 · OpenAI
OpenAI发布了新版GPT-5.5 Instant,使其对话更生动有趣。新模型能更好地理解问题意图,并更可靠地处理复杂约束,使购物和本地推荐等功能更加实用。该更新于当日向付费用户推送,次日向免费用户推送。
📎 来源:OpenAI
🚀 AI Agent 产品爆发
字节豆包专业版·火山引擎Agent Ready·Notion嵌Cursor·Perplexity进军律所
🔥 重磅发布
字节豆包正式推出专业版:Agent操作电脑+浏览器+Office
🚀 产品发布 · 豆包
字节跳动旗下豆包推出专业版,基于豆包2.1系列大模型,面向复杂办公与生产力场景。专业版支持Agent任务,可操作本地电脑、浏览器,内置Office套件并能生成在线应用。定价为68元/月至500元/月不等,大学生有优惠。
💡 68元起就能拥有一个能替你操作电脑的AI助理——AI Agent的「iPhone时刻」可能在办公场景最先到来。
📎 来源:豆包
🆕 基础设施
火山引擎推出 Agent Ready 基础设施
🚀 基础设施 · 火山引擎
火山引擎推出面向企业智能应用的Agent Ready基础设施,并升级了AgentKit和ArkClaw企业版。新方案提供了身份接入、沙箱并发、长程任务等能力。实践案例显示,海底捞和创维酷开分别通过该方案实现了运营效率的大幅提升。
📎 来源:火山引擎
🆕 生态集成
Notion 使用 Cursor SDK 嵌入编码智能体
🚀 产品发布 · Cursor Blog
Notion通过Cursor SDK在数周内将编码智能体嵌入产品。用户可在文档中@Cursor,让智能体端到端完成规划、构建、测试并自动创建PR。该集成基于一个Provider无关的框架,Notion无需自建智能体基础设施即可获得完整编码能力。
💡 文档工具内嵌编码Agent——笔记和写代码的边界正在消失。
📎 来源:Cursor Blog
🆕 垂直场景
Perplexity 推出 Computer for Counsel:面向律师的AI助手
🚀 产品发布 · Perplexity
Perplexity推出面向律师的「Computer for Counsel」产品。该功能连接了律师日常使用的研究数据库和文档工具,可从@LegalZoom、@Docusign等平台提取可引用来源。所有Pro和Max订阅用户均可使用。
📎 来源:Perplexity
📋 安全新能
Mistral AI 为 Connectors 推出多项安全与可控新能力
🚀 产品更新 · Mistral AI
Mistral AI为其Connectors产品发布了多项新能力,包括增强的管理控制、API密钥范围、多账户连接器等,以提升安全性和可控性。此外,还推出了新的调试工具,并支持在开发者界面和长时间运行的工作流中使用连接器。
📎 来源:Mistral AI
🔬 评测基准
FFASR 排行榜发布:真实远场条件下 ASR 评测
🚀 标准发布 · Hugging Face
Treble Technologies与Hugging Face联合推出首个开源远场语音识别评测基准FFASR。它使用模拟引擎生成涵盖多种房间和信噪比条件的声学数据,以弥补传统近场评测的不足。该排行榜同时报告词错误率(WER)和实时因子(RTFx)。
📎 来源:Hugging Face
🔧 基础设施与芯片
OpenAI定制芯片·NVIDIA微调加速·Figma押注人类判断
🔥 重磅发布
OpenAI 与 Broadcom 发布面向 LLM 推理的定制芯片 Jalapeño
🔧 芯片发布 · OpenAI
OpenAI与Broadcom联合推出专为大语言模型(LLM)推理优化的定制AI芯片「Jalapeño」,旨在提升AI系统的性能、效率与规模。这是OpenAI从软件走向全栈AI的关键硬件布局。
💡 OpenAI自研芯片标志着AI公司竞争从「模型能力」扩展到「芯片定制」——垂直整合成为新常态。
📎 来源:OpenAI
📋 开源工具
NVIDIA NeMo AutoModel:一行代码加速Transformer MoE模型微调
🔧 开源工具 · Hugging Face
NVIDIA发布NeMo AutoModel开源库,仅需改动一行import代码,即可在MoE模型微调中实现3.4-3.7倍的训练吞吐量提升,并减少29-32%的GPU内存。在处理超大模型时,AutoModel凭借专家并行能力使训练成为可能。
💡 一行代码提升3.7倍训练效率——MoE模型的微调门槛正在急剧降低。
📎 来源:Hugging Face Blog
🆕 产品更新
Figma Config 2026:押注人类判断,AI能力却来自第三方
🔧 行业观察 · The Decoder
Figma在Config 2026大会扩展了设计画布功能,新增代码、动画、3D等功能并集成工作流系统。但其AI功能依赖Anthropic、OpenAI等外部模型,面临推理成本压力和被竞争产品直接生成界面的威胁。
📎 来源:The Decoder
📋 边缘AI
MiniCPM-V 4.6 在 Apple Core AI 上高速运行
🔧 边缘计算 · OpenBMB
面壁智能的开源多模态模型MiniCPM-V 4.6在Apple Core AI上以低于2B的参数实现了高速运行,展示了高效的多模态AI能力。
📎 来源:OpenBMB
💬 行业动态与观点
Reid Hoffman炮轰xAI、NSA失去模型访问、工程岗韧性最强
🔥 争议事件
Reid Hoffman 称 xAI 是「彻底的灾难」
💬 观点 · Hacker News
LinkedIn联合创始人Reid Hoffman公开批评SpaceX和xAI。他认为SpaceX收购Cursor仅是「花钱买相关性」,而xAI则因所有联合创始人离职和模型基准落后成为「彻底的灾难」。他还批评了美国政府强制Anthropic下架模型的行为。
📎 来源:Hacker News
⚠️ 安全事件
在与Anthropic的纠纷中,NSA失去了对Mythos的访问权限
💬 安全 · Hacker News
美国国家安全局(NSA)因与AI公司Anthropic的纠纷,失去了对名为「Mythos」的系统的访问权限。这一事件凸显了AI公司与政府机构之间的复杂关系。
📎 来源:Hacker News
📊 行业数据
字节跳动技术副总裁洪定坤:AI Coding的实践与探索
💬 观点 · 火山引擎
字节跳动技术副总裁洪定坤分享了过去一年AI Coding的实践。数据显示AI代码贡献率增长6倍,但单一指标可能失真,如TRAE团队超90%代码由AI生成,但人均需求吞吐率仅提升60%。他提出需优化指标、治理和协作,并推出TRAE Work等能力。
💡 AI代码占比≠效率提升——字节的实践揭示了AI Coding的真实ROI评估难题。
📎 来源:火山引擎
📊 人才趋势
AI会取代工程岗?新数据显示工程是2025年最具韧性的岗位
💬 职场 · TechCrunch
风投机构SignalFire数据显示,工程是2025年最具韧性的岗位。大型科技公司招聘整体下降,但工程岗降幅较小,且早期初创公司工程师招聘反而增长。多位行业领袖对此有不同看法,如Anthropic CEO警告AI可能取代初级岗位,而NVIDIA CEO则认为AI让工程师更忙碌。
💡 工程岗位「最具韧性」与「被AI取代」两种叙事同时存在——真相可能介于两者之间。
📎 来源:TechCrunch
📋 安全隐私
OpenRouter 零数据留存(ZDR)实践:97款新模型,流量占比近半
💬 隐私 · OpenRouter
OpenRouter的零数据留存(ZDR)功能保证用户数据不被存储。自1月以来,支持ZDR的模型增加了97款,月度token量增长4.3倍,约占其总流量的一半。ZDR可在账户、护栏和单次请求三个层面执行,为企业用户提供灵活的控制粒度。
📎 来源:OpenRouter
🧪 前沿研究
DFlash 15倍吞吐量提升、推理即回忆、Figma集成Aleph视频编辑
🔬 论文突破
DFlash:块扩散草稿模型实现最高15倍吞吐量提升
🧪 论文 · MarkTechPost
UC San Diego团队提出DFlash,一种用于投机解码的轻量块扩散草稿模型。它一次前向推理即可生成整块token,能实现最高15倍的吞吐量提升(相比EAGLE-3约1.5倍),并且在多种模型上实现平均超过6倍的无损加速。
💡 15倍吞吐量提升意味着推理成本可降低一个数量级——这将直接影响LLM部署的经济模型。
📎 来源:MarkTechPost
🔬 论文发现
思考即回忆:推理如何解锁LLM中的参数化知识
🧪 论文 · Google Research
Google Research研究发现,推理过程能帮助LLM回忆原本无法直接回答的简单事实。该现象由两个机制驱动:生成的推理token提供计算缓冲以提取知识,以及推理中产生的相关事实起到启动效应,帮助模型激活正确答案。
💡 推理不只是「思考」,更是「回忆」——这对理解和改进LLM的知识提取机制有深远意义。
📎 来源:Google Research
🆕 集成发布
Aleph 2.0 集成 Figma Weave:关键帧驱动视频编辑
🧪 融合创新 · Runway
Runway旗舰视频编辑模型Aleph 2.0现已在Figma Weave上线。通过关键帧工作:从视频中提取一帧,重新设计风格并附上时间戳连接回Aleph 2.0节点,即可将编辑传递到主体出现的每一帧。支持最长30秒、1080p片段。
💡 视频编辑在设计工具内实现「编辑一帧,生效全局」——设计工作流与视频制作深度融合。
📎 来源:Runway
📌 今日亮点速览
▸ OpenAI Bidi 1 双向语音模型 + 定制芯片 Jalapeño |
▸ 字节豆包专业版 Agent 可操作电脑/浏览器/Office |
▸ Google Gemini 3.5 Flash 内置 Computer Use |
▸ 通义 Qwen-AgentWorld 开源,超越 GPT-5.4 |
▸ Notion 嵌入 Cursor、Perplexity 进军律所、Reid Hoffman 炮轰 xAI |

夜雨聆风