如果把本周信息压缩成一个判断,AI 竞争正在从“谁发布了更强模型”,转向三个更具体的问题:谁能成为系统默认入口,谁能在 IPO 前拿到更高定价权,以及谁写出的代码真的能被维护者合并。
这三条线在同一周同时升温。苹果在 WWDC 2026 上把 Siri AI、Core AI 和 Xcode 27 Agent 能力推到系统层;OpenAI 在 Anthropic 之后提交保密 S-1,资本市场开始给头部模型公司重新定价;Kimi、智谱、MiniMax 的新一轮开源编码模型落地,正面迎上 Anthropic 的 Claude Fable 5。
与此同时,Cognition 发布 FrontierCode,把 AI 编码评估从“测试能不能跑绿”推向“维护者愿不愿意 merge”。OpenRouter 数据则显示,中国大模型周调用量已连续六周超过美国。它们不一定是同一类新闻,但放在一起看,指向的是同一件事:AI 的竞争重心正在进入真实使用场景,而不是停留在发布会和榜单上。
系统入口:Siri AI 把竞争推到默认界面
6 月 8 日,苹果在 WWDC 2026 发布 iOS 27、macOS 27,以及更会话式的 Siri AI、面向开发者的 Core AI 框架和 Xcode 27 Agent 构建能力。Shortcuts 也开始支持用自然语言描述工作流。
和上周 Claude Code、Codex Sites、GitHub Spec Kit 代表的应用层 Agent 相比,苹果这次更像是把入口竞争往上抬了一层:AI 不再只是某个 App 内的功能,而是试图进入操作系统、语音助手和开发者工具链。
争议也同步出现。多家媒体报道称新 Siri 基于 Google Gemini 构建,苹果回应称 Siri AI 的 AFM 为自研;社区实测认为首版更接近增强版 Chatbot,完整 Agent 体验可能要等到明年。IT之家 6 月 8 日报道,Siri AI 等智能功能在中国大陆暂不提供。
这件事值得看的,不是“手机马上能替你完成复杂工作”,而是默认入口的变化。对普通用户来说,第一波影响大概率出现在语音交互和系统快捷指令;对开发者来说,Core AI 的意义在于苹果希望更多 Agent 能力在自家平台内生长,而不是只通过第三方 API 接入。
相关链接:
Simon Willison:WWDC 2026 IT之家:iOS 27 与 Siri AI IT之家:苹果回应 Gemini 猜测 MacRumors:新 AI 架构
IPO 双线:OpenAI 与 Anthropic 开始争夺上市定价权
同一天,OpenAI 向美国 SEC 秘密提交 S-1 草案,并在官网披露这一动作。Anthropic 已在 6 月 1 日提交保密 S-1。Bloomberg、The Verge、TechCrunch 等媒体随后跟进报道,OpenAI 表示尚未决定具体上市时间。
据 IT之家转述多方报道,OpenAI 投后估值约 8520 亿美元,Anthropic 约 9650 亿美元。Altman 同期宣布 OpenAI 进入“第三发展阶段”;另有报道称,他认为 2028 年前 AI 将承担大部分研究工作。
IPO 本身不是算力新闻,但它会反过来塑造产品。上市窗口临近后,模型公司的定价、产品分层、企业销售、Agent 平台化都会受到增长压力影响。ChatGPT 被传转向超级应用或 Agent 平台,Codex 桌面版周活超过 500 万,这些变化与资本节点下的产品节奏并不矛盾。
对企业用户来说,更现实的问题是成本边界。ChatGPT、Claude、Gemini 这类平台后续可能继续细分收费层级,团队采购也更需要保留按任务切换模型的弹性。真正值得在 IPO 文件里看的,不只是收入增速,还包括算力成本、监管风险、安全风险,以及这些因素最终如何反映到配额和价格上。
相关链接:
OpenAI 官方:提交保密 S-1 The Verge:OpenAI 提交 S-1 TechCrunch:继 Anthropic 之后 OpenAI 提交 IPO IT之家:奥尔特曼第三发展阶段
编码模型换血:开源模型拼部署,闭源模型拼大项目
本周编码模型线同时出现闭源封顶和开源落地。
闭源侧,Anthropic 6 月 8 日发布 Claude Fable 5 与 Mythos 5。官方称 Fable 5 在软件工程等基准上达到 SOTA,在 FrontierCode 测试中位居前沿模型之首。定价为每百万输入 tokens 10 美元、每百万输出 tokens 50 美元,订阅用户可在 6 月 22 日前免费体验。
开源侧,6 月 12 日至 13 日,月之暗面开源 Kimi K2.7-Code。其 Kimi Code Bench v2 相比 K2.6 提升 21.8%,推理 token 降低约 30%。智谱发布 GLM-5.2,支持 1M 上下文,并称权重将在下周以 MIT 协议开源。MiniMax M3 在 6 月上旬发布后,6 月 12 日正式将权重上线 Hugging Face,从发布到可部署大约一周。
架构层面,Google 6 月 10 日开源 DiffusionGemma。IT之家转述官方信息称,其本地推理速度最高提升 4 倍。
这轮变化让编码 AI 的路线更清楚:闭源模型继续争夺大项目、复杂仓库和高风险任务;开源模型则争夺本地部署、批处理和成本敏感场景。Fable 5 限制不能用于高级 AI 研究,GLM-5.2 的发布时机也被社区解读为对这一限制的回应。这里不适合得出“一个模型打天下”的结论,更实际的能力是按任务、成本和权限做模型路由。
相关链接:
Anthropic:Fable 5 和 Mythos 5 Hugging Face:Kimi K2.7-Code IT之家:GLM-5.2 X:MiniMax M3 开源权重 Simon Willison:DiffusionGemma
调用量与 FrontierCode:被大量使用,不等于代码可合并
据 IT之家转述 OpenRouter 数据,6 月 9 日当周,中国大模型周调用量达到 14.19 万亿 tokens,环比增长 27.49%,连续六周超过美国的 3.2 万亿。调用量前四名均为中国模型:DeepSeek-V4-Flash、腾讯 Hy3 preview、MiniMax M3、小米 MiMo-V2.5。
另一边,Cognition 在 6 月 8 日至 9 日发布 FrontierCode。这个基准由开源维护者设计 150 个任务,关注点不是测试是否通过,而是维护者是否愿意合并。结果并不宽松:在 FC Diamond 难度下,Claude Opus 4.8 通过率为 13.4%,GPT-5.5 为 6.3%。
这两组数据放在一起,提供了一个更冷静的观察角度。OpenRouter 说明中国模型在 API 调用层已经是默认选择之一,MiniMax M3 同时出现在调用前列和本周权重落地中。但 FrontierCode 也提醒开发者,模型榜单、调用量和真实工程质量之间还有距离。能跑通测试,不等于维护者愿意承担 merge 后的长期维护成本。
如果团队正在引入 AI 编码,验收标准需要从“能不能生成可运行 diff”往前走一步:代码是否符合项目习惯,六个月后是否仍然可读,是否引入隐藏副作用,维护者是否愿意在正常 review 后合并。FrontierCode 的价值不在于替代所有内部评测,而在于把这个问题明确摆上桌面。
相关链接:
IT之家:调用量连续六周超美 X:FrontierCode(swyx) X:FrontierCode 结果摘要
本周工具线索:桌面 Agent、研究 Agent 与元编排
Kimi K2.7-Code 是本周最适合开发者重测的模型之一。它的重点不是单个 benchmark 名次,而是 token 效率和 Agent 编码能力是否能在真实 bug fix、迁移任务和长时编码中体现出来。已经使用 Kimi Code 或 API 的团队,可以拿同一个任务对比 K2.6、K2.7-Code 和现有默认模型,看总 token、diff 质量和回滚成本。
Google NotebookLM 的升级方向也值得注意。The Decoder 报道称,它基于 Gemini 3.5 Flash,开始具备云计算机和自主搜索能力,从“读文档并总结”向“补资料、跑代码、生成研究结果”的研究 Agent 过渡。这个方向的关键不在于一次总结写得多漂亮,而在于它能否稳定记录来源、区分已有材料和自主补充材料。
Databricks 开源的 Omnigent 则站在更上层,试图在 Claude Code、Codex、Pi 等 Agent 之上做多 Agent 元编排。它采用 Apache 2.0 协议,面向已经同时使用多个 coding agent 的团队。这个方向能否成立,要看它是否能降低协作复杂度,而不是只把多个 Agent 的输出集中到同一个界面。
Kimi Work 代表的是桌面 Agent 的另一条线。它支持 macOS 和 Windows,最多 300 个子 Agent 并行,并通过 WebBridge 扩展自主操作浏览器。这个能力更适合从资料搜集、研究汇总、办公交付物生成等低风险场景开始验证。涉及浏览器控制时,权限边界比并行 Agent 数量更重要,独立 browser profile 和只读任务应该先于生产账号授权。
相关链接:
Hugging Face:Kimi K2.7-Code The Decoder:NotebookLM Agent 升级 MarkTechPost:Databricks 开源 Omnigent X:Kimi Work 介绍
其他值得记录的变化
多模态侧,xAI 发布 grok-imagine-video-1.5-preview,Midjourney V8.1 成为默认模型,Ideogram 4.0 开源文生图权重模型。它们共同说明视频生成和图像生成仍在继续迭代,但本周主线不在多模态,而在入口、资本和编码模型。
算力与基建侧,The Information 报道称,Google 选择 Intel 在 2028 年制造超过 300 万块 TPU。这条新闻延续了上周“拿钱买算力”的逻辑,但本周它更像背景变量:模型公司融资、上市和产品定价,最终都会回到算力成本和供应链上。
还有两条可以作为旁注。Kimi 用 300 个子 Agent 并行预测 104 场世界杯赛事,说明 Agent 数量正在成为新的营销表达。里约热内卢市政府 IT 公司开源 Rio 3.5 Open 397B,发布方罕见,模型基于 Qwen 后训练;对国内开发者选型影响有限,但值得记录。
相关链接:
IT之家:Kimi 世界杯预测 X:Rio 3.5 Open
结语
连续两周看下来,AI 竞争正在从抽象的“入口 / 算力 / 治理”,落到更具体的执行层:系统默认入口由苹果、Kimi Work 等产品争夺;公开市场弹药由 OpenAI 和 Anthropic 的 IPO 进程重新定价;开发者桌面则在 Kimi、智谱、MiniMax 与 Fable 5 之间重新测试默认模型。
接下来更值得关注的,不是某一个模型是否短暂冲上榜首,而是几件更可验证的事:GLM-5.2 权重是否按计划 MIT 开源,OpenAI IPO 披露会如何呈现算力成本和安全风险,Siri AI 美国 Beta 的真实反馈如何,Kimi K2.7-Code 在真实工程任务中能否稳定降低 token 和返工成本,以及 Google 与 Intel 的 TPU 合作是否继续推进。
夜雨聆风