
1. Claude Code 上线 Agent view,并新增 /goal 指令
Anthropic 为 Claude Code 推出研究预览功能 Agent view,试图解决并行 Agent 使用时要频繁切换终端标签、tmux 窗格的痛点。用户现在可通过 claude agents 在单一界面查看多个会话状态,并直接回复或转后台处理。
可集中查看运行中、等待输入、已完成的多个 Agent 会话
支持内联回复,也可用
/bg将任务放到后台新版 v2.1.139 还加入
/goal等新指令,并修复多项终端 UI 兼容问题
2. Thinking Machines Lab 发布实时多模态交互模型 TML-Interaction-Small
Thinking Machines Lab 公布 Interaction Models 研究预览,核心是一个原生面向实时、多模态协作的模型 TML-Interaction-Small。它希望突破传统大模型“你一句我一句”的回合制限制,让模型能持续处理音频、视频、文本流并实时响应。
模型为 2760 亿参数 MoE 架构,单次推理激活 120 亿参数
采用“时间对齐的微轮转”机制,强调持续感知和近实时协作
官方称其在智能性与交互响应性上达到当前最优,未来几个月开放有限预览
3. OpenBMB 开源端侧多模态模型 MiniCPM-V 4.6
OpenBMB 发布并开源 1.3B 参数多模态模型 MiniCPM-V 4.6,主打低算力、低 token 消耗、可直接跑在手机端。官方称其在多项基准上超过 Qwen3.5-0.8B,适合消费级硬件和移动端部署。
基于 SigLIP2-400M 与 Qwen3.5-0.8B 构建,采用新版 LLaVA-UHD v4 架构
视觉编码计算量下降 55.8%,更适合端侧落地
原生支持 iOS、Android、HarmonyOS,权重按 Apache 2.0 开源
4. Anthropic 推出 Claude Platform on AWS
Anthropic 宣布 Claude Platform on AWS 正式可用,AWS 客户可直接用现有 IAM 身份与统一账单接入完整 Claude 原生 API。这个服务强调“入口在 AWS,平台由 Anthropic 运营”,与 Bedrock 的模式并不相同。
支持 Claude Opus 4.7、Sonnet 4.6、Haiku 4.5,以及 Managed Agents、代码执行、MCP connector
数据处理由 Anthropic 负责,且在 AWS 边界外完成,不同于 Bedrock
计费可抵扣 AWS 承诺,但已有 Bedrock 私有优惠的客户迁移前要先和客户经理确认
5. OpenAI 为 Codex 推出 OpenAI Developers 插件
OpenAI Developers 宣布,Codex 已可通过官方插件更快调用 OpenAI APIs,帮助开发者构建 AI 应用和 Agent。这说明 Codex 正在进一步向“开发工作流入口”延伸,而不只是代码补全工具。
目标是缩短从想法到调用 API、再到搭建 Agent 的开发路径
官方重点强调和 OpenAI API 的快速联动能力
社区也提出安全担忧,尤其是明文生成或保存 API Key 可能带来账单和权限风险
6. 千问与淘宝全面打通,AI 购物进入闭环阶段
阿里宣布淘宝“AI低价帮抢”已接入支付宝“AI付”,同时千问 App 与淘宝全面打通,用户可以直接在千问里选商品、比价并完成下单。AI 助手开始从“推荐”走向“交易闭环”。
淘宝 App 中的“AI低价帮抢”支持通过支付宝“AI付”完成支付验证
千问 App 升级到 6.9.1 及以上后,可直接完成淘宝商品挑选、比较和下单
这意味着大模型产品开始真正接入交易链路,而不只是导流工具
7. Artificial Analysis 发布 Coding Agent Index
Artificial Analysis 推出 Coding Agent Index,评测的是“模型 + 编程工具”组合在真实软件工程任务里的综合表现。这个方向比单纯测模型能力更贴近企业实际采购和团队选型。
基准覆盖 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2、SWE-Atlas-QnA
排名第一的是 Opus 4.7 + Cursor CLI,得分 61;GPT-5.5 + Codex、Opus 4.7 + Claude Code紧随其后
官方特别指出不同组合在成本和速度上差异极大,单任务 API 成本可相差 30 倍以上
8. 小米推出 SVOR,补上视频物体消除落地的“最后一公里”
小米大模型应用团队发布 SVOR(稳定视频物体消除)框架,针对真实视频场景里物体移除后常见的阴影残留、遮罩粗糙、时序闪烁等问题做优化。相比只在理想条件下有效的方法,SVOR更强调真实世界可用性。
支持去除动态或静态干扰物,同时处理阴影和反射残留
通过 MUSE、DA-Seg 和两阶段课程训练提升稳定性与修复质量
已在多个标准数据集取得 SOTA,并获得 CVPR 2026 相关挑战赛冠军
9. Codex 曝出“超快模式”,响应速度或提升 2 到 3 倍
Codex 的 GitHub 仓库近期被发现新增“Ultrafast Mode(超快模式)”相关内容,主打低延迟场景下的最快响应。不过该信息随后被删除,当前仍处于未正式确认状态。
官方仓库中曾短暂出现相关描述,强调适合延迟敏感型任务
外部观察称其响应速度可能提升 2 到 3 倍以上
目前尚不清楚功能何时发布、是否改名,仍需等待正式公告
10. Claude Mythos 被曝突破 METR 评测上限,长任务能力继续抬升
据相关报道,Anthropic 的 Claude Mythos Preview 在 METR 测试中已触及现有评测框架上限,显示其在超长链路任务上的能力持续增强。核心信号是,模型可以在“人类需 16 小时完成”的复杂任务上达到 50% 成功率。
METR 认为现有测试集中超长任务样本太少,导致模型表现已接近“天花板”
趋势图显示其能力增长呈加速态势,被解读为逼近更强通用智能门槛
在安全研究场景中,早期测试显示其可连续工作长达 16 小时,并显著提升漏洞分析效率
声明:本内容由AI生成,可能包含不准确或推测性信息,请读者自行甄别并谨慎参考。
欢迎点赞收藏


夜雨聆风