4月18日 AI 动态

Grok 4.3 原生多模态能力引发关注。用户只需上传任何网站的截图，模型就能立即编写代码克隆该网站并生成精美 UI，无需复杂提示词。这一版本还新增了 Ubuntu shell 和持久化文件层，支持代码执行和文件管理，在代码生成、频谱图渲染等任务上展示了实用性。Elon Musk 称 xAI 相较于竞争对手"年龄只有一半"，强调年轻和速度是核心优势。

多 Agent AI 编程范式正在形成。Cerebras 的深度文章对比了单 Agent 与多 Agent 工作流，后者在编码任务中表现更优：从 6.5 分钟/次、12 次干预、100% 失败，降至 5.2 分钟/次、2 次干预、首次尝试成功。文章提出了多 Agent 的五大实用模式，包括并行生成选项、多任务并发、分阶段执行、顺序传递和构建验证分离。多 Agent 工作流在并行任务上速度提升约 5 倍，有效上下文窗口从 200K 扩展至 25M+。

机器人控制模型出现组合泛化突破。Physical Intelligence 的 π0.7 模型展现出新兴能力：可在无衬衫折叠训练数据的情况下控制新机器人折叠衬衫，通过语言指导理解如何使用电器设备，在单一模型中执行广泛的灵巧任务。Google DeepMind 推出的 Gemini Robotics-ER 1.6 在视觉和空间理解方面有显著提升，能够更好地规划和完成实用任务。Berkeley 教授 Sergey Levine 评估后认为，π0.7 开始展现出令人惊讶的组合泛化能力，能够执行复杂任务、通过指令学习新任务，并在未见过的任务上泛化。

模型效率方面出现多项进展。OpenRouter 发布 Elephant Alpha，这是一个 100B 参数的隐身模型，在同等规模中达到最先进性能，极其 token 高效，256K 上下文窗口，目前免费使用。PrismML 推出 Ternary Bonsai 系列模型，使用三元权重 {-1, 0, +1} 构建，比 16 位对应模型小 9 倍，在标准基准测试中超过同级大多数模型，8B 模型平均得分 75.5。MIT 和 NVIDIA 联合开发的 TriAttention 技术实现 KV 缓存 10.7x 压缩、吞吐量 2.5x 提升，在 AIME25 上达到完整注意力的准确度，可在单张 24GB RTX 4090 上运行 Qwen3-32B INT4 模型。Kimi.ai 在 Prefill/Decode 解聚方面取得突破，推动解聚超越单一集群限制，实现跨数据中心和异构硬件的支持。

Claude 生态系统持续完善。Claude Code 新增使用情况可视化功能，用户可查看并行会话使用情况、子代理使用情况、缓存未命中情况、长上下文使用情况以及针对每个类别的优化建议。AI Edge 发布了完整的 Claude 工具使用指南，涵盖核心界面工具（Projects、Skills、Memory、Connectors）、研究和思考工具（Research Mode、Extended Thinking、Artifacts）、代理工具（Claude Cowork、Cowork Dispatch、Claude in Chrome）以及构建和编码工具（Claude Code、Slash Commands、CLAUDE.md、Multi-Agent Mode）。

移动端 AI 本地化运行成为趋势。Google Gemma 展示如何在 iPhone 上本地运行 Gemma 4，完全离线运行无需数据计划、无 API 调用、无月费，支持 128K tokens 长上下文。这引发了社区对设备端 AI 的关注。

其他值得关注的进展包括：NVIDIA 和腾讯联合发布开源 3D 世界模型；Anthropic 在 Nature 发表研究，探讨 LLMs 如何通过数据中的隐藏信号传递偏好或对齐偏差等特征；Google 发布 Fabula 交互式 AI 写作工具，与专业作家共同设计，帮助梳理叙事结构而非替代写作。