模型前沿
1. Ornith-1.0 模型家族横空出世,全参数规模下狠手攻占 Agentic Coding
Ornith-1.0 开源模型家族正式亮相,此次发布覆盖了从 9B Dense 到 397B MoE 的全参数阵容,核心目标非常明确:死磕智能体编程。在 Agent Coding 的各项基准测试中,它表现抢眼, SWE-Bench Verified 拿下 82.4 分, SWE-Bench Pro 达到 62.2 ,稳居开源顶尖水平。技术上,该模型基于 gemma4 和 qwen3.5 进行后训练,利用强化学习联合优化任务脚手架与最终解决方案,让模型具备了自主改进执行框架的能力。全系列采用 MIT 开源协议,并提供了 GGUF 版本,方便开发者部署。值得开发者重点关注,这或许是代码智能体的一个新里程碑。
产品动态
2. OpenRouter 推出 MCP 服务器,编程智能体也能“货比三家”
OpenRouter 发布了一款专为编程智能体设计的 MCP 服务器,能够提供实时的模型数据、基准排名、定价和文档查询服务。开发者只需一键安装,即可在 Claude Code 、 Codex CLI 、 Cursor 等常用编辑器内直接完成模型筛选、价格对比和测试推理,无需在浏览器和编辑器之间来回切换。该服务器整合了 Artificial Analysis 、 Design Arena 及 OpenRouter 自身的排名数据,例如会推荐 GLM-5.2 作为性价比最高的编码模型。工具集十分丰富,支持通过 chat-send 发送测试提示,比较不同模型(如 Claude Opus 4.8 等)的表现。非常实用的工具,提升了开发效率。
3. Midjourney 预览 V8.2 美学,草稿模式速度狂飙
Midjourney 带来了两项令人兴奋的更新。首先是加入了 --preview 参数,让用户可以提前体验 V8.2 版本的美学风格和个性化效果;其次,此前在 V8.1 推出的大批量草稿模式(生成 24 张低分辨率图,价格仅为标准 4 张的一半)现在支持搭配 --sref random 使用。这意味着用户探索风格空间的速度比之前快了整整 24 倍,创意效率大幅提升。对于需要大量灵感的创作者来说,这简直是神器。
4. ChatGPT 手机版 Codex 正式上线,手机遥控电脑更安全
OpenAI 宣布 Codex 在 ChatGPT 移动应用中正式开放( GA ),并引入了一对一设备配对功能,以实现更安全的手机与电脑连接。移动端新增了通知、目标、侧边聊天、文件预览及内联审阅评论等功能。根据此前的预览版描述,用户可以通过 ChatGPT 手机 App 启动新工作、审查输出并引导执行,而繁重的 Codex 任务则继续在笔记本、 Mac mini 或开发机上后台运行。移动端与 PC 端的协作体验正在无缝化。
5. Runway Agent 2.0 来袭,这次是营销人员的全能助手
Runway 发布了 Agent 2.0 ,旨在帮助营销人员更高效地创建、测试和优化广告、视频及营销活动。品牌营销人员可以在对话中开发活动概念、生成变体并自动本地化;绩效营销人员可以上传创意并导入 Meta 、 YouTube 、 TikTok 或 Google 的广告数据,由 Agent 分析后生成下一轮待测广告。此外,它还能一次性生成一周的社交媒体内容,并自动裁切为不同比例。 Agent 2.0 现已面向所有用户开放。营销自动化又添猛将,值得营销人尝试。
6. Midjourney V8.1 草稿模式新玩法:一键生成 24 种随机风格
Midjourney V8.1 的草稿模式( draft mode )迎来了新功能:随机风格。用户只需在提示词中加入 --sref random,即可一键生成 24 张不同风格的图片,极大地丰富了创意选择。要开启草稿模式,用户可以通过点击提示栏的 ⚡ 图标或直接添加 --draft 参数来实现。这种“盲盒”式的生成方式,往往能带来意想不到的惊喜。
7. Claude Code v2.1.193 更新:自动分类 Shell 命令,优化内存回收
Claude Code 发布了 v2.1.193 版本,新增了 autoMode.classifyAllShell 设置,这意味着所有的 Bash/PowerShell 命令都将经过自动模式分类器的处理。更新还包括:自动模式的拒绝原因现加入了转录、拒绝提示及 /permissions 页面;新增了 claude_code.assistant_response OpenTelemetry 日志事件; Bash 模式支持实时文件路径自动补全; MCP 服务器需认证时会显示启动提示。此外,还新增了空闲后台 shell 命令自动内存压力回收功能(可禁用),并修复了多项 UI 和后台任务的问题。细节优化到位,开发体验更流畅。
8. Google Finance 推出全新安卓应用, AI 管你的投资组合
本周, Google Finance 正式上线了 Android 应用,并同步推出了全球投资组合跟踪功能。用户可以通过截图、 CSV/PDF 上传或简单的文字描述来创建投资组合,并利用 AI 研究工具提问关于资产配置、固定收益影响等问题。新增的市场情报简报功能允许用户设定任务(如每日盘前简报),后台会自动生成分析并推送至 Google 应用及网页端。该应用包含 watchlist 、实时数据、金融新闻 feed 以及 AI 驱动的“关键时刻”解释。未来几个月,更多 web 功能将迁移至移动端, iOS 应用也计划于今年晚些时候推出。传统金融工具正在被 AI 彻底重塑。
9. 盈透证券牵手 Grok , AI 直接帮你生成交易指令
盈透证券近日宣布与 Grok 达成集成,用户只需几分钟即可免费关联现有账户,无需注册新账户。通过与 Grok 的自然语言对话,用户可以完成组合收益分析(如股息与利息预测)、行业/地区/经济事件的风险敞口情景建模、市场趋势研究,并直接生成对冲订单等实时交易指令。这实现了从数据洞察到执行决策的一体化流程。AI 进入金融核心交易环节,效率提升的同时也带来了新的思考。
行业风向
10. 美国政府罕见介入,要求 OpenAI 暂缓 GPT-5.6 发布,安全红线收紧
据 The Information 报道,出于对安全的深度担忧,美国政府已要求 OpenAI 暂缓 GPT-5.6 的广泛发布,转而采用受控预览模式。 OpenAI 计划先向小部分合作伙伴提供早期访问,并由政府对每个客户进行审批。这一非常规操作主要源于对模型在自动化高技能网络工作方面能力的忌惮:它既能帮助防御者更快发现漏洞,也可能被攻击者利用来加速测试漏洞利用。本周四, CEO Sam Altman 已向员工确认了这一审批流程。意味深长,监管与速度的博弈进入新阶段。
11. Anthropic 指控阿里巴巴“偷师” Claude 模型核心技术
Anthropic 指控阿里巴巴未经授权提取了其 Claude AI 模型的能力。该指控基于 Anthropic 的调查结果,认为阿里巴巴通过逆向工程或其他手段复制了 Claude 的核心技术。目前,阿里巴巴尚未对此事进行公开回应。如果指控属实, AI 领域的知识产权战将愈演愈烈。
12. Meta 员工发难: AI 内容审核跑得太快,不仅裁员还误判
Meta 在 2025 年已用大语言模型替换了约一半的人工审核请求,并计划在年底前将部分内容类型的 AI 审核比例提升至 90% 以上,预计每年可节省数十亿美元。虽然 Meta 否认这是出于成本动机,并称测试显示其模型错误率比人类低 13%,但内部员工指出模型仍会移除或限流无害内容,且缺乏足够监督。快速部署已导致外包人员裁员,且 Meta 已从使用 Google Gemini 转向自家基于人工审核员历史决策训练的新基础模型 Muse Spark 。技术狂奔背后,是对准确性和就业的隐忧。
13. 融资 3.2 亿美元! General Intuition 用游戏数据训练通用 AI
General Intuition 以 23 亿美元的估值完成了 3.2 亿美元融资,累计披露融资额达 4.54 亿美元。该公司从旗下游戏剪辑平台 Medal 获取了数亿小时包含精确按键动作标签的游戏操作数据,用于训练单一模型,使其能同时驾驭 Fortnite 等虚拟环境和四足机器人。演示中, AI 智能体在游戏中连续运行 100 小时,机器人仅靠 8 分钟真实街道数据微调即可自主探索办公室。本轮由 Khosla Ventures 领投, General Catalyst 、 Jeff Bezos 、 Eric Schmidt 等参投。资金将用于扩大计算规模及预训练下一代模型,计划夏末前开放 API 。游戏数据再次证明了其在训练通用智能体方面的巨大价值。
14. Suno 启动 Spark 孵化器,真金白银扶持独立音乐人
Suno 宣布启动 Spark 孵化器项目,面向年满 18 岁的未签约独立歌手、词曲作者和制作人。入选者将获得创作资助和额外的营销经费,受邀与知名艺术家共同参与写歌营,并有机会为 Suno 正在构建的新功能提供反馈。值得注意的是,艺术家将保留其作品的创意控制权和商业权利。即日起开放申请。AI 公司开始反向赋能人类创作者,这种共生关系值得关注。
科研探索
15. 古罗马卷轴被 AI 彻底“读懂”,赫库兰尼姆古卷虚拟解读成功
研究人员利用高分辨率 X 射线显微断层扫描和机器学习技术,在未物理展开的情况下,完整虚拟展开并读取了赫库兰尼姆古卷 PHerc.1667 ( Scroll4 )。这是首卷被从头到尾连续读取的纸莎草卷,内容被确认为斯多葛哲学论著,提及了克里西普斯的侄子 Aristocreon 。此外,第二卷 PHerc.Paris4 通过更高分辨率成像使墨水在三维数据中直接可见,独立确认了 2023 年大奖赛的解读;第三卷 PHerc.139 确定了标题和作者为菲洛德穆《论诸神》第八卷。所有数据与代码已公开。AI 技术让千年前的文明重见天日,这是科技与人文的完美结合。
16. IBM 突破物理极限,发布全球首款 0.7 纳米芯片技术
IBM 于 2026 年 6 月 25 日发布了全球首款亚纳米级芯片技术,采用了 0.7 nm ( 7 埃米)节点与全新的三维纳米堆叠架构。指甲盖大小的芯片集成了近 1000 亿个晶体管,密度约为 IBM 2021 年 2 nm 芯片的两倍。相比 2 nm 芯片,其性能最高提升 50%,能效最高提升 70%。纳米堆叠架构还实现了 SRAM 面积缩减 40%,有助于支撑先进 AI 工作负载的高带宽需求。该技术已在 VLSI 2026 会议上验证, IBM 预计 5 年内量产。硬件算力的天花板再次被抬高,为未来 AI 模型铺平道路。
17. OpenAI 内部数据: Codex 已取代 ChatGPT 成为绝对主力
OpenAI 在 2025 年 8 月至 2026 年 6 月间的观察数据显示,智能体产品 Codex 已取代 ChatGPT 成为主要工作工具,各部门输出 token 中 Codex 占比从不足 10% 飙升至 99.8%。数据还显示, 80.6% 的个体用户曾发起预计等效人类工作时间超 30 分钟的请求, 70.2% 超 1 小时, 25.6% 超 8 小时。非开发者用户增长迅猛:个体用户增长 137 倍,组织用户增长 189 倍。 Legal 、 Finance 、 Recruiting 部门在 2026 年 4 月前后跨过了 Codex 使用过半的拐点。从聊天机器人到行动智能体,这一转变比想象中来得更猛烈。
18. Google Research 提出线性弹性缓存,用算法帮云服务省钱
Google Research 与 Google Cloud 提出了“线性弹性缓存”方案,将缓存管理转化为线性成本优化问题,通过动态调整大小来最小化总拥有成本。该方案为每条数据引入了“滑雪租赁”决策框架,在租用内存(持续付费)与购买缺失(缓存未命中惩罚)之间做出最优选择,并用轻量级机器学习实时优化内存占用与缺失率的权衡。在无服务器云场景下(每 GiB 内存每天 $3 ),该技术可在不牺牲性能的同时显著降低成本。相关论文发表于 CIDR 。在 AI 算力成本高企的当下,这种“抠门”的技术显得尤为重要。
观点与技巧
19. AI 经济有多赚?年化收入超 1750 亿美元,增速碾压互联网时代
@exponentialview 发布的《 State of the AI Economy 》报告显示,基于去重后的消费端 AI 支出统计,过去 12 个月实际 AI 营收达 1100 亿美元,年化运行率超 1750 亿美元,增长速度约为移动/互联网普及浪潮的 3 倍。营收形成速度急剧加快: 2023 年新增 10 亿美元收入需 180 天,现在缩短至不足 2 天。报告指出,企业 AI 已脱离试点阶段,但全面推广仍处早期。 Token 每降价 10% 会刺激 12-18% 的用量增长,需求价格弹性极强。AI 正在以前所未有的速度创造商业价值。
20. 华盛顿邮报调查:主流 AI 聊天机器人普遍“左倾”,连 Grok 也不例外
华盛顿邮报的一项调查显示,多数主流 AI 聊天机器人在政治问题上明显偏左。数据显示, OpenAI GPT-5.5 在 80% 的回答中仅呈现左派论据; DeepSeek V4 Pro 为 70%; Anthropic Claude Opus 4.8 有 43% 纯左、 57% 给出双方观点。即便是 xAI 的 Grok 4.3 ,其左倾回答仍多于右倾。右翼平台 Gab 的 Arya 左倾回答甚至是右倾的 12 倍。 Google Gemini 3.1 Pro 是个例外, 93% 的回答同时呈现双方立场。特朗普推动的“反觉醒”AI 似乎也未能改变这一格局。算法偏见问题依然棘手,所谓的“中立”在现实中难以把握。
21. 混合模型 vs Transformer :前者懂语义,后者更擅长“复制粘贴”
通过对比 7B 参数的 OLMo 3 ( Transformer )与 OLMo Hybrid (混合架构),实验发现混合模型在大多数 token 上的预测损失更低:对名词、动词、形容词等实义词优势明显( loss gap 约 0.04 ),功能词上 gap 约 0.02 ,且在需上下文推理的代词指代上表现更好。但在重复出现的 n-gram 和闭合括号(如 })上,混合模型的优势几乎消失, Transformer 凭借注意力机制更擅长从输入中直接检索精确信息。架构之争没有绝对的赢家,不同场景适合不同的模型。
22. Meta 的隐私防护之道:把 LLM 蒸馏成确定性规则,不让 AI 拍脑袋
Meta 在 Privacy-Aware Infrastructure (PAI) 的资产分类中采用了一种混合模式:先构建包含代码、血缘、语义标注的上下文证据,再调用 LLM 处理歧义、冷启动和新颖资产;同时将人工审核标签与模型推荐严格隔离。 LLM 不直接做生产决策,其稳定行为被蒸馏为版本化的确定性规则用于生产执行,随着规则积累, LLM 的角色逐步缩小。核心原则包括:上下文比提示词更重要、解耦评估与优化、将稳定行为规则化。这种“人机回环”并逐步固化的策略,为高风险场景的 AI 部署提供了范本。
23. GitHub Copilot agentic harness 评测:性能强悍且更省 Token
GitHub Copilot agentic harness 在多个基准测试中表现强劲,同时具备领先的 token 效率,并支持在 20 多个模型间灵活选择。这意味着开发者可以在不牺牲性能的前提下,获得更经济的智能体体验。工具链的易用性和性价比是开发者最关心的痛点。
24. Sail Research 打造集群感知编排,专为长时间运行的 AI 智能体优化
Sail Research 指出,推理市场是软件中最大的市场,而 AI 工作负载正从同步聊天转向异步、多轮智能体,运行时长可达数小时。为此,他们构建了集群感知编排系统,以最大化每美元推理支出的吞吐量。随着 Agent 工作时长的增加,底层基础设施的调度逻辑也需要重构。
25. Gary Marcus 再发新词“Generative AI Fizzle”: AI 泡沫不是破裂,是正在泄气
Gary Marcus 昨日抛出了新术语“Generative AI Fizzle™”,直指当前生成式 AI 行业估值虚高。他认为,随着 hype 与现实利润的落差拉大,投资者的热情正在消退。 LLM 已沦为商品,价格战惨烈,厂商盈利艰难。加上昨日中国又发布了一款新的开源模型,美国 LLM 公司面临进一步冲击。虽然多数 AI 股票本月下跌,但他认为泡沫不会突然破裂,而是会缓慢消退。悲观者的冷静观察,无论是否认同,都提醒我们要关注商业的本质。
内容摘录整理自「 AI HOT 日报 aihot.virxact.com 」
夜雨聆风