4月29日,AI更会干活了
4 月 29 日的 AI 圈,最清楚的一条线是:AI 不再只是回答问题,而是在接入真实工具,替人把一段工作跑完。
Claude 这一天很有代表性。它接入了 Blender、Autodesk Fusion 和 Adobe Creative Cloud。设计师可以让 Claude 检查 Blender 场景,工程师可以通过对话创建和修改 3D 模型,创作者也可以调动 50 多个 Creative Cloud 工具。Claude Code 还加了手机推送:长任务完成、或者需要你确认时,它会主动提醒。这个细节看起来小,其实说明编程助手正在从“终端里的聊天窗口”,变成更像同事的工作流节点。

企业软件也在往这个方向走。Mistral AI 推出 Workflows,解决的是一个很现实的问题:模型已经够强,但企业要把它稳定放进生产流程,还需要持久执行、可观测、可恢复和人工审核。OpenAI 内部的 Symphony、ClawSweeper 则把编码任务拆给多个 Codex 实例并行处理,据称让内部 PR 吞吐量提升了 500%。AWS 发布桌面应用 Quick,连接邮件、日历、Slack 和本地文件,帮用户筛重点、做摘要、给建议,甚至创建 agent 处理杂事。
编码代理的竞争,也从“会不会写代码”走向“会不会看现场”。有人把 Qwen3-Coder 训练成会用真实调试器修 Bug 的模型,解决率从 70% 提到 89%,中位修复轮数从 46 降到 19。它不是只读代码和猜问题,而是能看变量、调用栈、断点和表达式。Google 也在推广本地 Gemma 编码代理,把 Gemma 4 26B、Pi agent 和 LM Studio 这类工具串起来。云端代理追求协作和规模,本地代理追求可控、低成本和离线可用,两条路线会同时存在。
模型层面,一边在继续扩能力,一边在降低使用门槛。NVIDIA 发布 Nemotron 3 Nano Omni,把视觉、语音和语言放到一个开放多模态模型里,并强调更高吞吐量。xAI 被曝正在 Colossus 2 集群上训练 Grok 5,最大配置可能达到 10 万亿参数。Grok 还在准备 Skills 功能,让模型可以调用外部能力。与此同时,Quant VideoGen 试图压缩长视频生成里的 KV cache,让更长、更稳定的视频生成有机会在本地高端显卡上跑。

机器人方向也更接近实际场景。RobotEra L7 被传将进入 10 多个物流中心执行分拣任务,日本羽田机场也在测试 Unitree G1 和 UBTECH Walker E 机器人,用来搬运行李、缓解人手短缺。无论这些部署最后规模多大,信号都很明确:AI 的落地不只在屏幕里,也会进入仓库、机场和服务现场。
另一条线是能力变强之后的风险。OpenAI 宣布 GPT-5.4 Pro 协助解决一个开放了 60 年的 Erdős 数学问题,这说明模型在数学推理上的上限还在抬高。但 Sébastien Bubeck 也提醒,危险在于把“城堡钥匙”交给 AI:如果人停止理解和验证,能力会退化。Nick Bostrom 关于信息危害的讨论也类似,有些真实信息本身可能成为风险蓝图。AI 越强,越不能只看它能做什么,还要看谁来判断它什么时候错了。
行业关系也在调整。微软和 OpenAI 宣布合作进入新阶段:微软仍是主要云合作伙伴,并获得非独家的 OpenAI IP 许可。这个安排背后,是大模型公司对算力、资本、产品入口和独立性的重新平衡。DeepLearning.AI 则发布 Andrew Ng 的新课程《AI Prompting for Everyone》,说明普通人仍然需要学习如何把 AI 用对,而不是等工具自动解决一切。
所以这一天的关键词不是某一个模型名字,而是“接入”。AI 接入搜索、调试器、设计软件、企业流程、本地文件、桌面应用,甚至机器人身体。它获得的不是一张更会说话的嘴,而是更多能执行动作的手。
对普通用户来说,真正值得关注的不是哪个演示最炫,而是哪类工作会先被拆成步骤、交给 AI 运行,再由人来审阅和兜底。未来一段时间,最有价值的人未必是完全不用 AI 的人,也不是把判断全交出去的人,而是能清楚知道:哪里可以让 AI 动手,哪里必须自己看住。
夜雨聆风