Grok 4.3 原生多模态能力引发关注。用户只需上传任何网站的截图,模型就能立即编写代码克隆该网站并生成精美 UI,无需复杂提示词。这一版本还新增了 Ubuntu shell 和持久化文件层,支持代码执行和文件管理,在代码生成、频谱图渲染等任务上展示了实用性。Elon Musk 称 xAI 相较于竞争对手"年龄只有一半",强调年轻和速度是核心优势。
多 Agent AI 编程范式正在形成。Cerebras 的深度文章对比了单 Agent 与多 Agent 工作流,后者在编码任务中表现更优:从 6.5 分钟/次、12 次干预、100% 失败,降至 5.2 分钟/次、2 次干预、首次尝试成功。文章提出了多 Agent 的五大实用模式,包括并行生成选项、多任务并发、分阶段执行、顺序传递和构建验证分离。多 Agent 工作流在并行任务上速度提升约 5 倍,有效上下文窗口从 200K 扩展至 25M+。
机器人控制模型出现组合泛化突破。Physical Intelligence 的 π0.7 模型展现出新兴能力:可在无衬衫折叠训练数据的情况下控制新机器人折叠衬衫,通过语言指导理解如何使用电器设备,在单一模型中执行广泛的灵巧任务。Google DeepMind 推出的 Gemini Robotics-ER 1.6 在视觉和空间理解方面有显著提升,能够更好地规划和完成实用任务。Berkeley 教授 Sergey Levine 评估后认为,π0.7 开始展现出令人惊讶的组合泛化能力,能够执行复杂任务、通过指令学习新任务,并在未见过的任务上泛化。
模型效率方面出现多项进展。OpenRouter 发布 Elephant Alpha,这是一个 100B 参数的隐身模型,在同等规模中达到最先进性能,极其 token 高效,256K 上下文窗口,目前免费使用。PrismML 推出 Ternary Bonsai 系列模型,使用三元权重 {-1, 0, +1} 构建,比 16 位对应模型小 9 倍,在标准基准测试中超过同级大多数模型,8B 模型平均得分 75.5。MIT 和 NVIDIA 联合开发的 TriAttention 技术实现 KV 缓存 10.7x 压缩、吞吐量 2.5x 提升,在 AIME25 上达到完整注意力的准确度,可在单张 24GB RTX 4090 上运行 Qwen3-32B INT4 模型。Kimi.ai 在 Prefill/Decode 解聚方面取得突破,推动解聚超越单一集群限制,实现跨数据中心和异构硬件的支持。
Claude 生态系统持续完善。Claude Code 新增使用情况可视化功能,用户可查看并行会话使用情况、子代理使用情况、缓存未命中情况、长上下文使用情况以及针对每个类别的优化建议。AI Edge 发布了完整的 Claude 工具使用指南,涵盖核心界面工具(Projects、Skills、Memory、Connectors)、研究和思考工具(Research Mode、Extended Thinking、Artifacts)、代理工具(Claude Cowork、Cowork Dispatch、Claude in Chrome)以及构建和编码工具(Claude Code、Slash Commands、CLAUDE.md、Multi-Agent Mode)。
移动端 AI 本地化运行成为趋势。Google Gemma 展示如何在 iPhone 上本地运行 Gemma 4,完全离线运行无需数据计划、无 API 调用、无月费,支持 128K tokens 长上下文。这引发了社区对设备端 AI 的关注。
其他值得关注的进展包括:NVIDIA 和腾讯联合发布开源 3D 世界模型;Anthropic 在 Nature 发表研究,探讨 LLMs 如何通过数据中的隐藏信号传递偏好或对齐偏差等特征;Google 发布 Fabula 交互式 AI 写作工具,与专业作家共同设计,帮助梳理叙事结构而非替代写作。
夜雨聆风